站长杂谈

关于香港服务器的Hadoop作业提交机制

时间:2017-05-05 15:55 点击:

  关于香港服务器的Hadoop作业提交机制

  针对高端香港服务器,不少人会在其上进行Hadoop实验,其中作业提交机制是Hadoop普遍的实验之一。其中作业提交是Hadoop中的MapReduce中的一个过程,涉及到JobClient、JpbTracker和TaskScheduler三个组件,主要是为后续作业的执行,涉及到创建目录、上传文件、和作业初始化过程。可以将作业提交机制分为四个过程,过程一:用户使用Shell命令来提交作业;过程二:JobClient配置作业信息,将所有的作业信息上传到JobTracker文件系统中。过程三:JobClient将调用RPC来提交JobTracker作业。过程四:递交作业完成后,告诉TaskScheduler对其进初始化。小编通过Hadoop的作业提交机制,为大家作一下详细的讲解。

  (1)用户执行Shell命令:

  用户编写一个可执行的作业程序,将其打包成Jar程序文件,提交程序文件,然后递交给RunJar处理,RunJar中的main函数会解压Jar包,设置环境变量,然后将运行参数传递给MapReduce程序运行,main函数调用JobClient的runJob函数按顺序提交作业。

  (2)用户执行作业上传

  首先要用户交付权限给指定的检查用户是否具有指定队权限,进行一系列的检查,检车服务器的内使用量是否合理后在进行作业。提交MapReduce作业后,JobTracker进行初始化,通过JobClient实现作业ID、创建HDFS目录、作业文件上传、生成Split文件来进行初始化。JobClient会生成InputSplit相关信息。JobSplit会对INputSplit相关信息进行封装。

  (3)创建JobProgress对象

  这涉及到Hadoop资源管理,通常高性能的香港服务器都要进行资源管理,尤其在涉及到分布式计算时,更要把资源管理好,进行更多的可行性计算,进行作业提交同时通过调用TaskScheduler函数把作业递交到调度器中。任务调度器会根据节点对作业分配最合适的资源。

  (4)作业恢复

  如果作业出现了问题,可以采用作业重新提交的方式,但是这样的做法会对曾经提交的作业进行重新计算,造成资源浪费(这就涉及到香港服务器的如何高效管理资源)。为解决作业丢失或者单节点服务器出现故障的问题。Hadoop开发了作业恢复机制。通过管理员开启这个功能,JobTracker会直接检查需要恢复的作业情况;然后日志系统会查看作业的运行状态,重新调度那些未完成的任务。

  (5)容错机制

  从作业机制角度看,一共有三种不同级别的恢复机制。超时机制;灰名单与黑名单机制;Exclude list与Include list机制。

  本次讲解就到这里,相信小编已经给大家对于基于Hadoop中的作业提交机制环境做了一些正确合理的普及,大家现在应该理解Hadoop的作业提交机制实验是如何部署的了,喜欢动手的朋友可以安装上述步骤自行安装一遍,进行Hadoop系统研究(上述操作本人都亲自试验过)。

  希望大家踊跃的购买我们公司的香港服务器,更好的进行hadoop相关的研究和实战。

  如果还有什么不明确或者不懂的地方,欢迎来到新世界主机咨询了解,详情请咨询Skpey咨询:vpssj.net@hotmail.com, 。我们必将竭诚为您服务。