Hadoop-0.21.0 インストール（4） - ネットワーク管理者の憂鬱な日常

前回の続き．
とりあえず，DataNode増やしたら嬉しいかなぁと思い，DataNode増やしてみた．
というか，NameNodeの負荷は少ないだろうとの想定のもと，
NameNode（とJobTracker）を動作させるsv0を「仮想マシン」上に作成．
仮想化環境の構築は，Windows用VirtualBoxを使用した．

で，結局こういう構成に．

sv0は，VirtualBox上に作った仮想マシン，sv1〜sv4は実機上に
実装したFreeBSD 8.1-STABLE/amd64．

で，また，ベンチマーク走らせてみました．

hadoop@sv0> ./bin/hadoop jar hadoop-mapred-examples-0.21.0.jar randomwriter rand % ./bin/hadoop jar hadoop-mapred-examples-0.21.0.jar sort rand rand-sort
10/09/16 16:34:46 INFO security.Groups: Group mapping impl=org.apache.hadoop.security.ShellBasedUnixGroupsMapping; cacheTimeout=300000
Running 40 maps.
Job started: Thu Sep 16 16:34:47 JST 2010
10/09/16 16:34:48 INFO mapreduce.JobSubmitter: number of splits:40
10/09/16 16:34:48 INFO mapreduce.JobSubmitter: adding the following namenodes' delegation tokens:null
10/09/16 16:34:49 INFO mapreduce.Job: Running job: job_201009161604_0002
10/09/16 16:34:50 INFO mapreduce.Job: map 0% reduce 0%
10/09/16 16:36:43 INFO mapreduce.Job: map 2% reduce 0%
10/09/16 16:36:52 INFO mapreduce.Job: map 5% reduce 0%
10/09/16 16:37:15 INFO mapreduce.Job: map 7% reduce 0%
10/09/16 16:37:22 INFO mapreduce.Job: map 10% reduce 0%
（途中略）
10/09/16 16:47:29 INFO mapreduce.Job: map 89% reduce 0%
10/09/16 16:47:39 INFO mapreduce.Job: map 92% reduce 0%
10/09/16 16:47:44 INFO mapreduce.Job: map 97% reduce 0%
10/09/16 16:47:57 INFO mapreduce.Job: map 100% reduce 0%
10/09/16 16:47:59 INFO mapreduce.Job: Job complete: job_201009161604_0002
10/09/16 16:47:59 INFO mapreduce.Job: Counters: 16
FileSystemCounters
HDFS_BYTES_READ=3350
HDFS_BYTES_WRITTEN=43091315836
org.apache.hadoop.examples.RandomWriter$Counters
BYTES_WRITTEN=42949940116
RECORDS_WRITTEN=4085920
Job Counters
Total time spent by all maps waiting after reserving slots (ms)=0
Total time spent by all reduces waiting after reserving slots (ms)=0
SLOTS_MILLIS_MAPS=5759487
SLOTS_MILLIS_REDUCES=0
Launched map tasks=43
Map-Reduce Framework
Failed Shuffles=0
GC time elapsed (ms)=13112
Map input records=40
Map output records=4085920
Merged Map outputs=0
Spilled Records=0
SPLIT_RAW_BYTES=3350
Job ended: Thu Sep 16 16:47:59 JST 2010
The job took 792 seconds.

ってな感じで，792秒（13分12秒）で終了．
DataNodeが3ノードの時の結果（814秒）に比べると，劇的に速くなったワケではない．
理想的には543秒くらい（＝814*2/3）位にはなって欲しかったのだが．

まだ，あまりHadoopのアーキテクチャを深く理解しているワケではないのだが，
DataNode数を増やして，それなりにスケールアウトする報告が多いので，
やはり，NameNodeとなるマシンもそれなりのパフォーマンスがないと，
NameNode自体がボトルネックになるということか．

ま，当然っちゃ当然なのだろうけど，NameNodeはそれなりにDataNodeと
入出力やってんのね，と（苦笑）．

んー，ま，分かってる人には当たり前なんだろうけど，これも
ひとつの知見ということでｗ