如何使用docker快速搭建Spark集群

　　Spark 是 Berkeley 开发的分布式计算的框架，相对于 Hadoop 来说，Spark 可以缓存中间结果到内存而提高某些需要迭代的计算场景的效率，目前收到广泛关注。下面来一起看看使用docker快速搭建Spark集群的方法教程。

　　适用人群

　　正在使用spark的开发者

　　正在学习docker或者spark的开发者

　　准备工作

　　安装docker

　　(可选)下载java和spark with hadoop

　　Spark集群

　　Spark运行时架构图

　　如上图: Spark集群由以下两个部分组成

　　集群管理器(Mesos, Yarn或者standalone Mode)

　　工作节点(worker)

　　如何docker化(本例使用Standalone模式)

　　1、将spark集群拆分

　　base(基础镜像)

　　master(主节点镜像)

　　worker(工作镜像)

　　2、编写base Dockerfile

　　注: 为方便切换版本基础镜像选择的是centos, 所以要下载java和spark, 方便调试, 可以下载好安装文件后本地搭建一个静态文件服务器, 使用Node.js 的http-server可以快速搞定

　　命令如下

　　npm install http-server -g

　　http-server -p 54321 ~/Downloads

　　正式开始写Dockerfile

　　FROM centos:7

　　MAINTAINER RavenZZ

　　# 安装系统工具

　　RUN yum update -y

　　RUN yum upgrade -y

　　RUN yum install -y byobu curl htop man unzip nano wget

　　RUN yum clean all

　　# 安装 Java

　　ENV JDK_VERSION 8u11

　　ENV JDK_BUILD_VERSION b12

　　# 如果网速快,可以直接从源站下载

　　#RUN curl -LO "http://download.oracle.com/otn-pub/java/jdk/$JDK_VERSION-$JDK_BUILD_VERSION/jdk-$JDK_VERSION-linux-x64.rpm" -H 'cookie: oraclelicense=accept-securebackup-cookie' && rpm -i jdk-$JDK_VERSION-linux-x64.rpm; rm -f jdk-$JDK_VERSION-linux-x64.rpm;

　　RUN curl -LO "http://192.168.199.102:54321/jdk-8u11-linux-x64.rpm" && rpm -i jdk-$JDK_VERSION-linux-x64.rpm; rm -f jdk-$JDK_VERSION-linux-x64.rpm;

　　ENV JAVA_HOME /usr/java/default

　　RUN yum remove curl; yum clean all

　　WORKDIR spark

　　RUN

　　curl -LO 'http://192.168.199.102:54321/spark-2.1.0-bin-hadoop2.7.tgz' &&

　　tar zxf spark-2.1.0-bin-hadoop2.7.tgz

　　RUN rm -rf spark-2.1.0-bin-hadoop2.7.tgz

　　RUN mv spark-2.1.0-bin-hadoop2.7/* ./

　　ENV SPARK_HOME /spark

　　ENV PATH /spark/bin:$PATH

　　ENV PATH /spark/sbin:$PATH

　　3、编写master Dockerfile

　　FROM ravenzz/spark-hadoop

　　MAINTAINER RavenZZ

　　COPY master.sh /

　　ENV SPARK_MASTER_PORT 7077

　　ENV SPARK_MASTER_WEBUI_PORT 8080

　　ENV SPARK_MASTER_LOG /spark/logs

　　EXPOSE 8080 7077 6066

　　CMD ["/bin/bash","/master.sh"]

　　4、编写worker Dockerfile

　　FROM ravenzz/spark-hadoop

　　MAINTAINER RavenZZ

　　COPY worker.sh /

　　ENV SPARK_WORKER_WEBUI_PORT 8081

　　ENV SPARK_WORKER_LOG /spark/logs

　　ENV SPARK_MASTER "spark://spark-master:32769"

　　EXPOSE 8081

　　CMD ["/bin/bash","/worker.sh"]

　　5、docker-compose

　　version: '3'

　　services:

　　spark-master:

　　build:

　　context: ./master

　　dockerfile: Dockerfile

　　ports:

　　- "50001:6066"

　　- "50002:7077" # SPARK_MASTER_PORT

　　- "50003:8080" # SPARK_MASTER_WEBUI_PORT

　　expose:

　　- 7077

　　spark-worker1:

　　build:

　　context: ./worker

　　dockerfile: Dockerfile

　　ports:

　　- "50004:8081"

　　links:

　　- spark-master

　　environment:

　　- SPARK_MASTER=spark://spark-master:7077

　　spark-worker2:

　　build:

　　context: ./worker

　　dockerfile: Dockerfile

　　ports:

　　- "50005:8081"

　　links:

　　- spark-master

　　environment:

　　- SPARK_MASTER=spark://spark-master:7077

　　6、测试集群

　　docker-compose up

　　访问http://localhost:50003/ 结果如图

　　参考链接

　　本例源代码https://github.com/RavenZZ/docker-spark-cluster

• 解决Ctrl+S时Putty或Xterm命令行无返回的问题	• 心脏出血漏洞 Heartbleed 固定大小缓冲区分析
• KVM下用DevStack快速安装和配置OpenStack开发环	• CentOS 6下Webmin无法启动proftpd的解决办法
• WinXP桌面如何才能自动回到经典主题	• WinXP如何安装云端服务 icloud pc客户端
• WinXP笔记本声卡驱动无法成功安装的解决方法	• Win10系统如何打开OneNote云笔记记录生活点滴
• Win10系统更改电源计划比较适合笔记本用户	• Win10如何使用计时器(倒计时)测量时间

如何使用docker快速搭建Spark集群

路由器用户名是什么

linux：文件/目录权限设置