Apache Spark
ナビゲーションに移動
検索に移動
関連記事
Apache Spark はオープンソースのクラスタコンピューティングフレームワークで、もともとカリフォルニア大学バークレー校の AMPLab で開発されていました。 Hadoop の二段式ディスクベース MapReduce パラダイムと比較して、Spark のインメモリ処理はいくつかのアプリケーションにおいて100倍高速なパフォーマンスをもたらします。 クラスタのメモリへのデータのロードと、繰り返しアクセスがユーザープログラムに許されているため、Spark は機械学習アルゴリズムに適しています。
インストール
apache-sparkAUR パッケージをインストールしてください。
設定
いくつかの環境変数が /etc/profile.d/apache-spark.sh
に設定されています。
変数 | 値 | 説明 |
---|---|---|
PATH | $PATH:/opt/apache-spark/bin
|
Spark バイナリ |
もしあなたのシェルが /etc/profile.d
を読み込まなかったら、PATH
環境変数を調整する必要があるかもしれません:
export PATH=$PATH:/opt/apache-spark/bin
R のサポートの有効化
R パッケージの sparkR が付属していますがインストール時にはビルドされません。R から Spark に接続するには以下のコマンドを実行してビルドする必要があります:
# $SPARK_HOME/R/install-dev.sh
詳しくは $SPARK_HOME/R/README.md
を見てください。$SPARK_HOME/R/DOCUMENTATION.md
の手順に従うことでパッケージドキュメントもビルドできます。
sparkR R パッケージをビルドしたら /usr/bin/sparkR
で接続することが可能です。