Spark的线上环境通常部署在集群中,同时还依赖Java、Scala以及Hadoop。对于Spark的学习者,或者工作中需要在本机开发测试的同学,在自己工作学习的机器上搭建一套Spark系统是一件相对复杂,而且对本机性能要求比较高的一件事情。

这里推荐两种本机部署Spark开发环境的方法。

Pip安装pySpark

最简单的方法,没有之一:

$ pip install pyspark

就完成了Spark的本地安装。可以开始利用python开发Spark代码,用本地模式运行。对于初学者极为友好。本地机器部署,完全不需要采用常规的先装Java、Scala以及Hadoop,再下载Spark压缩包的方式进行安装。

另外,别看它是装的pySpark,但实际上已经包含了全部Spark的内容。具体可以查看pySpark的安装路径,例如:lib/python3.9/site-packages/pyspark

pyspark $ ls
__init__.py              broadcast.py             examples                 java_gateway.py          profiler.py              resultiterable.py        statcounter.py           util.py
__pycache__              cloudpickle              files.py                 join.py                  py.typed                 sbin                     status.py                version.py
_globals.py              conf.py                  find_spark_home.py       licenses                 python                   serializers.py           storagelevel.py          worker.py
_typing.pyi              context.py               install.py               ml                       rdd.py                   shell.py                 streaming
accumulators.py          daemon.py                instrumentation_utils.py mllib                    rddsampler.py            shuffle.py               taskcontext.py
bin                      data                     jars                     pandas                   resource                 sql                      traceback_utils.py

其中bin目录下包含了spark-shell是Scala的交互式命令行,也包含了spark-submit可以用来提交jar包,等等。同样也可以在本地4040端口打开Web页面监控程序运行情况。

Docker

对于想要体验或者研究Spark集群运行的同学,推荐使用Docker的方式。可以极大降低对本地机器性能的要求。

To do

results matching ""

    No results matching ""