Hadoop Conference Japan 2011に参加した

Hadoop Conference Japan 2011 - Eventbriteに参加してきました。

場所は豊洲にあるNTT DATAの本社ビルの36階セミナールームでした。さすがの絶好の景色ですね。

詳細な内容は登壇者の方や他の方のブログにもまとまってるので、簡単に感想だけ。

Hadoop on クラウド / Amazon Elastic MapReduceの真価

スライド: Amazon Elastic MapReduceの紹介(英語)


Amazon Elastic MapReduce(Hadoopクラスター Amazon EMR) | アマゾン ウェブ サービス(AWS 日本語)の紹介です。

  • 簡単に使えそうな感じ
  • Hadoopで処理するようなジョブを回した場合、いくら位かかるのか怖いですね
  • 一度くらい試してみたい
  • Hadoop上でRを実行するRHIPEも使えるらしい

MapReduceによる大規模データを利用した機械学習

Hadoop上で機械学習を使うお話。

モバゲーの大規模データマイニング基盤におけるHadoop活用

スライド: 『モバゲーの大規模データマイニング基盤におけるHadoop活用』-Hadoop Conference Japan 2011- #hcj...


モバゲーでのデータ分析のためのHadoopプラットフォームと行動データの分析の話。

  • すでに社内でデータを活用するためのHadoopプラットフォームがしっかり整っている印象
  • ログ形式の統一等社内の他の部署でも結構データ分析への理解があるんですね
  • ユーザの感情に着目してマイニング、即座にサービスに反映させる

Enterprise Batch Processing Framework for Hadoop

基幹業務向けのHadoopフレームワークの紹介。

  • プレスリリース出てたやつですね
  • 個人的に基幹業務というやつを分かっていないので、イマイチ凄さがわからず
  • Hadoopはテストや運用がしにくいのは同意
  • 見た感じフレームワークというより、HiveやPigのような基幹業務用のDSLという感じ?
  • 「数学知らなくてもHadoop書けます!」っていうのはちょっと同意できないかな

Hiveを用いたAmebaサービスのログ解析共通基盤

AmebaでのHadoopやHiveを使ったログ解析基板の話。

  • Hiveを使ってみての紹介
  • 社内ツール的なものも結構あったようなので詳細はちょっとわからず
  • 現状を聞く限り、現在ログ解析の基板を作っている最中という感じかな?

ライトニングトーク

  • 藤川さんの「Sneak Preview of "Hapyrus" ~ Hadoopアプリ開発&共有サービス on the CLOUD」がちょっと気になった。
  • Hapyrus
  • Hadoop版のAppStoreみたいなの作ります、という話。
  • Hadoopに限らず、こういうコードを取引できる場ができるというのは面白いかも

マルチユーザーでHadoop環境を利用するためのポイント

Hadoopを複数人で使う場合のよくある問題とそれを回避する方法。

  • Hadoopクラスタに勝手に入って触られるのは困るため、基本的にはゲートウェイ経由以外入れない
  • 他の人のデータを勝手に見ることができるのも問題
  • 特定のジョブが占有してしまうのも問題

Hadoopと分析統計ソフトKNIMEを用いた効率的データ活用

Hadoopを使う人が技術者だけでなく、分析者も使うため、GUIツールと連携させた話。

  • 社内でHadoopを扱える技術者だけでなく、分析者も直にデータを見ることが出来るようにする必要がある
  • KNIME | Konstanz Information MinerというGUIツールがあるので、それとHadoopを連携させる
  • HadoopをMapReduceを知らない人や非技術者にも使えるようにしよう、という話は結構あるけど、やっぱり難しそうですよね

総括

Hadoopといっても、Hadoop上でのアルゴリズムの話から、Hadoopを使ったログ解析プラットフォームやHadoop周辺ライブラリなどの話、Hadoopチューニングの話などかなり多領域の話が聞けて、非常に面白かったですね。


ただ、Hadoopを使う上でこれだけ幅広い知識が求められるというのは、実際に活用するのは結構難しい、という印象ですね。