Hadoopのソースを表示

[[Category:分散コンピューティング]]
{{Related articles start}}
{{Related|Apache Spark}}
{{Related articles end}}
[[en:Hadoop]]
[[zh-hans:Hadoop]]
[http://hadoop.apache.org Apache Hadoop] はコモディティハードウェアによる巨大なクラスタ上でアプリケーションを実行するためのフレームワークです。Hadoop フレームワークは透過的にアプリケーションに信頼性とデータモーションを提供します。Hadoop は Map/Reduce という名前の計算パラダイムを実装しています。そこではアプリケーションは多数の小さな欠片に分割して、クラスタ内のノード上でそれぞれを実行・再実行できるようにします。さらに、Hadoop は計算ノード上にデータを保存するための分散ファイルシステム (HDFS) を備えており、クラスタ全体で非常に高い帯域を実現します。MapReduce と Hadoop Distributed File System はどちらもノードでのエラーをフレームワークによって自動的に処理できるように設計されています。

== インストール ==
{{AUR|hadoop}} パッケージをインストールしてください。

== 設定 ==

デフォルトで、hadoop は擬似分散操作ができるように設定されています。{{ic|/etc/profile.d/hadoop.sh}} には伝統的な hadoop とは異なる値が設定されている環境変数があります。

{| class="wikitable"
|-
! scope="col"| 環境変数
! scope="col"| 値
! scope="col"| 説明
! scope="col"| パーミッション
|-
| HADOOP_CONF_DIR
| {{ic|/etc/hadoop}}
| 設定ファイルが保存されるディレクトリ。
| 読み取り
|-
| HADOOP_LOG_DIR
| {{ic|/tmp/hadoop/log}}
| ログファイルが保存されるディレクトリ。
| 読み書き
|-
| HADOOP_SLAVES
| {{ic|/etc/hadoop/slaves}}
| リモートスレーブホストが指定されているファイル。
| 読み取り
|-
| HADOOP_PID_DIR
| {{ic|/tmp/hadoop/run}}
| pid ファイルが保存されるディレクトリ。
| 読み書き
|}

また、以下のファイルを正しく設定する必要があります。

 /etc/hosts
 /etc/hostname 
 /etc/locale.conf

{{ic|/etc/hadoop/hadoop-env.sh}} で {{ic|JAVA_HOME}} を設定する必要があります。デフォルトで使用されるディレクトリは Arch Linux でインストールされるディレクトリと異なっているため必須です:

{{hc|1=/etc/hadoop/hadoop-env.sh|2=export JAVA_HOME=/usr/lib/jvm/java-8-openjdk/}}

== シングルノード設定 ==
{{Note|このセクションは [http://hadoop.apache.org/docs/stable/ Hadoop の公式ドキュメント] に基づいています。}}

=== スタンドアロン操作 ===

デフォルトでは、Hadoop は単一の Java プロセスで動作するように設定されています。デバッグする場合に有用です。

以下は conf ディレクトリを input としてコピーして使用する例で、正規表現にマッチする文字列を全て出力します。出力は output ディレクトリに書き込まれます。

 $ HADOOP_CONF_DIR=/usr/lib/hadoop/orig_etc/hadoop/
 $ mkdir input
 $ cp /etc/hadoop/*.xml input
 $ hadoop jar /usr/lib/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.0.0.jar grep input output 'dfs[a-z.]+'
 $ cat output/*

=== 擬似分散操作 ===

シングルノードでも Hadoop デーモンを複数の Java プロセスで動作させる擬似分散モードを使うことができます。

デフォルトでは、Hadoop は root ユーザーで実行されます。{{ic|/etc/conf.d/hadoop}} でユーザーを変更することができます:

 HADOOP_USERNAME="<your user name>"

==== パスフレーズの要らない ssh の設定 ====

[[sshd]] が有効になっていることを確認してください。有効になっていない場合は {{ic|systemctl enable sshd}} で有効にします。そしてパスフレーズを入力しなくてもローカルホストに接続できることを確認:

 $ ssh localhost

パスフレーズがないとローカルホストに ssh できない場合、以下のコマンドを実行してください:

 $ ssh-keygen -t rsa -P "" -f ~/.ssh/id_rsa
 $ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys2
 $ chmod 0600 ~/.ssh/authorized_keys

また、{{ic|/etc/ssh/sshd_config}} の以下の行がコメントアウトされていることを確認してください:

{{hc|/etc/ssh/sshd_config|
#AuthorizedKeysFile .ssh/authorized_keys}}

==== 実行 ====

新しい分散ファイルシステムをフォーマット:
 $ hadoop namenode -format

次の hadoop の systemd ユニットを[[起動]]してください: {{ic|hadoop-datanode}}, {{ic|hadoop-jobtracker}}, {{ic|hadoop-namenode}}, {{ic|hadoop-secondarynamenode}}, {{ic|hadoop-tasktracker}}。

hadoop デーモンのログ出力は {{ic|<nowiki>${HADOOP_LOG_DIR}</nowiki>}} ディレクトリに書き込まれます (デフォルトでは {{ic|/var/log/hadoop}})。

NameNode と JobTracker のウェブインターフェイスを開いてください。デフォルトでは以下の URL になります:

* NameNode - http://localhost:50070/
* JobTracker - http://localhost:50030/

input ファイルを分散ファイルシステムにコピー:
 $ hadoop fs -put /etc/hadoop input

サンプルを実行:
 $ hadoop jar /usr/lib/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep input output 'dfs[a-z.]+'

output ファイルを確認:

分散ファイルシステムからローカルファイルシステムに output ファイルをコピーして確認:
 $ hadoop fs -get output output
 $ cat output/*

または、分散ファイルシステムから output ファイルを確認:
 $ hadoop fs -cat output/*

テストが完了したら、以下のコマンドでデーモンを停止します:
 # systemctl stop hadoop-datanode
 # systemctl stop hadoop-jobtracker
 # systemctl stop hadoop-namenode
 # systemctl stop hadoop-secondarynamenode
 # systemctl stop hadoop-tasktracker