站长杂谈

如何在Linux服务器上搭建spark

时间:2017-03-17 16:11 点击:

  如何在Linux服务器上搭建spark

  对于许许多多的数据挖掘、机器学习以及大数据分析的工作而言,spark无疑是一种十分重要的开发工具,Spark起初仅仅是一个学术性的研究项目,在最早的时候属于伯克利大学的研究性项目,在实验室里进行科学研究,后来在2010年才正式开源,Spark的影响力从他诞生之后便不断扩大,到目前为止已经有越来越多Spark用户使用该平台,从事大数据的研究与应用,对于大数据而言,利用spark在香港服务器以及美国服务器上进行数据的处理无疑具有着十分重要的意义。

  提到spark就不得不提到Hadoop,以下先来介绍一下spark在大数据处理上相比较于Hadoop的优势:1:Spark 0.6的核心代码仅仅只有2万行,十分的轻巧便于阅读。2:Spark能够与当前的主流大数据工具进行融合,与Hadoop、Hive、Pregel等等工具可以很好的相互适应。3:Spark对小数据集能达到亚秒级的延迟,对小数据的处理十分迅速。4:通过更好的语言来集成到模型中的数据流,抛弃了Hadoop MapReduce中要求的大量样板代码。5:spark采用了事件驱动的类库 akka来启动任务,通过线程池复用县城来避免进程或线程启动和切换开销。6:Spark的拥有非常出色的容错和调度机制,确保系统的稳定运行。7:借助高等级的架构提高生产力,从而可以讲精力放到计算上。

  以下便是spark在Linux环境下的安装过程:

  1:安装JDK,到官网下载下载最新的JDK版本,解压到/opt/jdk版本号。

  2:安装scala, 到官网下载下载最新的scala版本,解压到/opt/scala-版本号。

  3:安装Spark,到官网下载下载最新的spark版本,解压到/opt/spark-版本号。

  4:配置环境变量,编辑/etc/profile文件,执行以下命令 :

  python@ubuntu :~$ sudo gedit /etc/profile

  在文件的末尾增加以下新的环境变量:

  #Seeting JDK JDK环境变量

  export JAVA_HOME=/opt/jdk1.8.0_45

  export JRE_HOME=${JAVA_HOME}/jre

  export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib

  export PATH=${JAVA_HOME}/bin:${JRE_HOME}/bin:$PATH

  #Seeting Scala Scala环境变量

  export SCALA_HOME=/opt/scala-2.11.6

  export PATH=${SCALA_HOME}/bin:$PATH

  #setting Spark Spark环境变量

  export SPARK_HOME=/opt/spark-hadoop/

  #PythonPath 将Spark中的pySpark模块增加到Python环境中

  export PYTHONPATH=/opt/spark-hadoop/python

  5:重启电脑,打开命令窗口,执行 source /etc/profile,使得安装的程序 在当前窗口生效。

  本次服务器中spark的安装配置就到这里了,如果您还有什么不明确或不懂的地方,欢迎来新世界主机咨询了解,详情请咨询Skype:vpssj.net@hotmail.com TEL:400 1109 210,我们将竭诚为您服务。