Windows10 に PySpark環境を構築メモ ( Spark 2.3.1 Anaconda Hadoop ) - Solr, Python, MacBook Air in Shinagawa Seaside

1. Spark インストール
https://spark.apache.org/downloads.html

1. Choose a Spark release: 2.3.1 (Jun 08 2018)
2. Choose a package type: Pre-built for Ppache Hadoop 2.7 and later
3. Download Spark: spark-2.3.1-bin-hadoop2.7.tgz
4. Verify this release using the 2.3.1 signatures and checksums and project release KEYS.

spark-2.3.1-bin-hadoop2.7.tgz を解凍して D:\ に置く

D:\spark-2.3.1-bin-hadoop2.7

winutils.exe をダウンロードして spark-2.3.1-bin-hadoop2.7/bin に置く
https://github.com/steveloughran/winutils/

D:\spark-2.3.1-bin-hadoop2.7/bin/winutils.exe

2. Anaconda のインストール

3. findspark のインストール
Anaconda Prompt から

python -m pip install findspark

4. Javaのインストール

5. 環境変数の設定

SPARK_HOME	D:\spark-2.3.1-bin-hadoop2.7
HADOOP_HOME	D:\spark-2.3.1-bin-hadoop2.7
PYSPARK_DRIVER_PYTHON	jupyter
PYSPARK_DRIVER_PYTHON_OPTS	notebook

6. 起動
コマンドプロンプトから以下実行

jupyter notebook

7. テスト
jupyter notebook から以下実行

import findspark
findspark.init()

import pyspark # only run after findspark.init()
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()

df = spark.sql('''select 'spark' as hello ''')
df.show()