Apache Spark

Hadoop

Apache Spark はオープンソースのクラスタコンピューティングフレームワークで、もともとカリフォルニア大学バークレー校の AMPLab で開発されていました。 Hadoop の二段式ディスクベース MapReduce パラダイムと比較して、Spark のインメモリ処理はいくつかのアプリケーションにおいて100倍高速なパフォーマンスをもたらします。クラスタのメモリへのデータのロードと、繰り返しアクセスがユーザープログラムに許されているため、Spark は機械学習アルゴリズムに適しています。

インストール

apache-spark^AUR パッケージをインストールしてください。

設定

いくつかの環境変数が /etc/profile.d/apache-spark.sh に設定されています。

変数	値	説明
PATH	`$PATH:/opt/apache-spark/bin`	Spark バイナリ

もしあなたのシェルが /etc/profile.d を読み込まなかったら、PATH 環境変数を調整する必要があるかもしれません:

export PATH=$PATH:/opt/apache-spark/bin

R のサポートの有効化

R パッケージの sparkR が付属していますがインストール時にはビルドされません。R から Spark に接続するには以下のコマンドを実行してビルドする必要があります:

# $SPARK_HOME/R/install-dev.sh

詳しくは $SPARK_HOME/R/README.md を見てください。$SPARK_HOME/R/DOCUMENTATION.md の手順に従うことでパッケージドキュメントもビルドできます。

sparkR R パッケージをビルドしたら /usr/bin/sparkR で接続することが可能です。