Spark的线上环境通常部署在集群中,同时还依赖Java、Scala以及Hadoop。对于Spark的学习者,或者工作中需要在本机开发测试的同学,在自己工作学习的机器上搭建一套Spark系统是一件相对复杂,而且对本机性能要求比较高的一件事情。
这里推荐两种本机部署Spark开发环境的方法。
Pip安装pySpark
最简单的方法,没有之一:
$ pip install pyspark
就完成了Spark的本地安装。可以开始利用python开发Spark代码,用本地模式运行。对于初学者极为友好。本地机器部署,完全不需要采用常规的先装Java、Scala以及Hadoop,再下载Spark压缩包的方式进行安装。
另外,别看它是装的pySpark,但实际上已经包含了全部Spark的内容。具体可以查看pySpark的安装路径,例如:lib/python3.9/site-packages/pyspark
:
pyspark $ ls
__init__.py broadcast.py examples java_gateway.py profiler.py resultiterable.py statcounter.py util.py
__pycache__ cloudpickle files.py join.py py.typed sbin status.py version.py
_globals.py conf.py find_spark_home.py licenses python serializers.py storagelevel.py worker.py
_typing.pyi context.py install.py ml rdd.py shell.py streaming
accumulators.py daemon.py instrumentation_utils.py mllib rddsampler.py shuffle.py taskcontext.py
bin data jars pandas resource sql traceback_utils.py
其中bin
目录下包含了spark-shell
是Scala的交互式命令行,也包含了spark-submit
可以用来提交jar
包,等等。同样也可以在本地4040
端口打开Web页面监控程序运行情况。
Docker
对于想要体验或者研究Spark集群运行的同学,推荐使用Docker的方式。可以极大降低对本地机器性能的要求。
To do