Windows10 に PySpark環境を構築 メモ ( Spark 2.3.1 Anaconda Hadoop )

1. Spark インストール
https://spark.apache.org/downloads.html

1. Choose a Spark release: 2.3.1 (Jun 08 2018)
2. Choose a package type: Pre-built for Ppache Hadoop 2.7 and later
3. Download Spark: spark-2.3.1-bin-hadoop2.7.tgz
4. Verify this release using the 2.3.1 signatures and checksums and project release KEYS.

spark-2.3.1-bin-hadoop2.7.tgz を解凍して D:\ に置く

D:\spark-2.3.1-bin-hadoop2.7

winutils.exe を ダウンロードして spark-2.3.1-bin-hadoop2.7/bin に置く
https://github.com/steveloughran/winutils/

D:\spark-2.3.1-bin-hadoop2.7/bin/winutils.exe


2. Anaconda の インストール


3. findspark のインストール
Anaconda Prompt から

python -m pip install findspark


4. Javaのインストール


5. 環境変数の設定

SPARK_HOME	D:\spark-2.3.1-bin-hadoop2.7
HADOOP_HOME	D:\spark-2.3.1-bin-hadoop2.7
PYSPARK_DRIVER_PYTHON	jupyter
PYSPARK_DRIVER_PYTHON_OPTS	notebook


6. 起動
コマンドプロンプトから 以下実行

jupyter notebook


7. テスト
jupyter notebook から 以下実行

import findspark
findspark.init()

import pyspark # only run after findspark.init()
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()

df = spark.sql('''select 'spark' as hello ''')
df.show()