1. Spark インストール
https://spark.apache.org/downloads.html
1. Choose a Spark release: 2.3.1 (Jun 08 2018) 2. Choose a package type: Pre-built for Ppache Hadoop 2.7 and later 3. Download Spark: spark-2.3.1-bin-hadoop2.7.tgz 4. Verify this release using the 2.3.1 signatures and checksums and project release KEYS.
spark-2.3.1-bin-hadoop2.7.tgz を解凍して D:\ に置く
D:\spark-2.3.1-bin-hadoop2.7
winutils.exe を ダウンロードして spark-2.3.1-bin-hadoop2.7/bin に置く
https://github.com/steveloughran/winutils/
D:\spark-2.3.1-bin-hadoop2.7/bin/winutils.exe
2. Anaconda の インストール
3. findspark のインストール
Anaconda Prompt から
python -m pip install findspark
4. Javaのインストール
5. 環境変数の設定
SPARK_HOME D:\spark-2.3.1-bin-hadoop2.7 HADOOP_HOME D:\spark-2.3.1-bin-hadoop2.7 PYSPARK_DRIVER_PYTHON jupyter PYSPARK_DRIVER_PYTHON_OPTS notebook
6. 起動
コマンドプロンプトから 以下実行
jupyter notebook
7. テスト
jupyter notebook から 以下実行
import findspark findspark.init() import pyspark # only run after findspark.init() from pyspark.sql import SparkSession spark = SparkSession.builder.getOrCreate() df = spark.sql('''select 'spark' as hello ''') df.show()