ネットワーク管理者の憂鬱な日常

とある組織でネットワーク管理に携わる管理者の憂鬱な日常を書いてみたりするブログ

Hadoop-0.21.0 インストール(4)

前回の続き.
とりあえず,DataNode増やしたら嬉しいかなぁと思い,DataNode増やしてみた.
というか,NameNodeの負荷は少ないだろうとの想定のもと,
NameNode(とJobTracker)を動作させるsv0を「仮想マシン」上に作成.
仮想化環境の構築は,Windows用VirtualBoxを使用した.

で,結局こういう構成に.


sv0は,VirtualBox上に作った仮想マシン,sv1〜sv4は実機上に
実装したFreeBSD 8.1-STABLE/amd64.

で,また,ベンチマーク走らせてみました.

hadoop@sv0> ./bin/hadoop jar hadoop-mapred-examples-0.21.0.jar randomwriter rand % ./bin/hadoop jar hadoop-mapred-examples-0.21.0.jar sort rand rand-sort
10/09/16 16:34:46 INFO security.Groups: Group mapping impl=org.apache.hadoop.security.ShellBasedUnixGroupsMapping; cacheTimeout=300000
Running 40 maps.
Job started: Thu Sep 16 16:34:47 JST 2010
10/09/16 16:34:48 INFO mapreduce.JobSubmitter: number of splits:40
10/09/16 16:34:48 INFO mapreduce.JobSubmitter: adding the following namenodes' delegation tokens:null
10/09/16 16:34:49 INFO mapreduce.Job: Running job: job_201009161604_0002
10/09/16 16:34:50 INFO mapreduce.Job: map 0% reduce 0%
10/09/16 16:36:43 INFO mapreduce.Job: map 2% reduce 0%
10/09/16 16:36:52 INFO mapreduce.Job: map 5% reduce 0%
10/09/16 16:37:15 INFO mapreduce.Job: map 7% reduce 0%
10/09/16 16:37:22 INFO mapreduce.Job: map 10% reduce 0%
(途中略)
10/09/16 16:47:29 INFO mapreduce.Job: map 89% reduce 0%
10/09/16 16:47:39 INFO mapreduce.Job: map 92% reduce 0%
10/09/16 16:47:44 INFO mapreduce.Job: map 97% reduce 0%
10/09/16 16:47:57 INFO mapreduce.Job: map 100% reduce 0%
10/09/16 16:47:59 INFO mapreduce.Job: Job complete: job_201009161604_0002
10/09/16 16:47:59 INFO mapreduce.Job: Counters: 16
FileSystemCounters
HDFS_BYTES_READ=3350
HDFS_BYTES_WRITTEN=43091315836
org.apache.hadoop.examples.RandomWriter$Counters
BYTES_WRITTEN=42949940116
RECORDS_WRITTEN=4085920
Job Counters
Total time spent by all maps waiting after reserving slots (ms)=0
Total time spent by all reduces waiting after reserving slots (ms)=0
SLOTS_MILLIS_MAPS=5759487
SLOTS_MILLIS_REDUCES=0
Launched map tasks=43
Map-Reduce Framework
Failed Shuffles=0
GC time elapsed (ms)=13112
Map input records=40
Map output records=4085920
Merged Map outputs=0
Spilled Records=0
SPLIT_RAW_BYTES=3350
Job ended: Thu Sep 16 16:47:59 JST 2010
The job took 792 seconds.

ってな感じで,792秒(13分12秒)で終了.
DataNodeが3ノードの時の結果(814秒)に比べると,劇的に速くなったワケではない.
理想的には543秒くらい(=814*2/3)位にはなって欲しかったのだが.

まだ,あまりHadoopのアーキテクチャを深く理解しているワケではないのだが,
DataNode数を増やして,それなりにスケールアウトする報告が多いので,
やはり,NameNodeとなるマシンもそれなりのパフォーマンスがないと,
NameNode自体がボトルネックになるということか.

ま,当然っちゃ当然なのだろうけど,NameNodeはそれなりにDataNodeと
入出力やってんのね,と(苦笑).

んー,ま,分かってる人には当たり前なんだろうけど,これも
ひとつの知見ということでw

スポンサーリンク