Hadoop Conference Japan 2011に参加した
Hadoop Conference Japan 2011 - Eventbriteに参加してきました。
場所は豊洲にあるNTT DATAの本社ビルの36階セミナールームでした。さすがの絶好の景色ですね。
詳細な内容は登壇者の方や他の方のブログにもまとまってるので、簡単に感想だけ。
Hadoop on クラウド / Amazon Elastic MapReduceの真価
スライド: Amazon Elastic MapReduceの紹介(英語)
Amazon Elastic MapReduce(Hadoopクラスター Amazon EMR) | アマゾン ウェブ サービス(AWS 日本語)の紹介です。
- 簡単に使えそうな感じ
- Hadoopで処理するようなジョブを回した場合、いくら位かかるのか怖いですね
- 一度くらい試してみたい
- Hadoop上でRを実行するRHIPEも使えるらしい
MapReduceによる大規模データを利用した機械学習
Hadoop上で機械学習を使うお話。
- 機械学習のタスクの多くは、明示的な並列性があるので、MapReduceの計算パラダイムと割と相性がいいアルゴリズムが多い。
- Apache Mahout: Scalable machine learning and data mining で活発に機械学習タスクが実装されている
- 計算時間はマシン数に応じて線形
- ただし実装の質はアルゴリズムごとに異なる
- 最適化問題の並列化方法はIterative Parameter Mixture使っとけ
- MapReduceが不得意なshort term queryみたいなもので使われるDremelの紹介
モバゲーの大規模データマイニング基盤におけるHadoop活用
スライド: 『モバゲーの大規模データマイニング基盤におけるHadoop活用』-Hadoop Conference Japan 2011- #hcj...
モバゲーでのデータ分析のためのHadoopプラットフォームと行動データの分析の話。
- すでに社内でデータを活用するためのHadoopプラットフォームがしっかり整っている印象
- ログ形式の統一等社内の他の部署でも結構データ分析への理解があるんですね
- ユーザの感情に着目してマイニング、即座にサービスに反映させる
Enterprise Batch Processing Framework for Hadoop
基幹業務向けのHadoopフレームワークの紹介。
Hiveを用いたAmebaサービスのログ解析共通基盤
AmebaでのHadoopやHiveを使ったログ解析基板の話。
- Hiveを使ってみての紹介
- 社内ツール的なものも結構あったようなので詳細はちょっとわからず
- 現状を聞く限り、現在ログ解析の基板を作っている最中という感じかな?
ライトニングトーク
- 藤川さんの「Sneak Preview of "Hapyrus" ~ Hadoopアプリ開発&共有サービス on the CLOUD」がちょっと気になった。
- Hapyrus
- Hadoop版のAppStoreみたいなの作ります、という話。
- Hadoopに限らず、こういうコードを取引できる場ができるというのは面白いかも
マルチユーザーでHadoop環境を利用するためのポイント
Hadoopを複数人で使う場合のよくある問題とそれを回避する方法。
- Hadoopクラスタに勝手に入って触られるのは困るため、基本的にはゲートウェイ経由以外入れない
- 他の人のデータを勝手に見ることができるのも問題
- 特定のジョブが占有してしまうのも問題
Hadoopと分析統計ソフトKNIMEを用いた効率的データ活用
Hadoopを使う人が技術者だけでなく、分析者も使うため、GUIツールと連携させた話。
- 社内でHadoopを扱える技術者だけでなく、分析者も直にデータを見ることが出来るようにする必要がある
- KNIME | Konstanz Information MinerというGUIツールがあるので、それとHadoopを連携させる
- HadoopをMapReduceを知らない人や非技術者にも使えるようにしよう、という話は結構あるけど、やっぱり難しそうですよね
総括
Hadoopといっても、Hadoop上でのアルゴリズムの話から、Hadoopを使ったログ解析プラットフォームやHadoop周辺ライブラリなどの話、Hadoopチューニングの話などかなり多領域の話が聞けて、非常に面白かったですね。
ただ、Hadoopを使う上でこれだけ幅広い知識が求められるというのは、実際に活用するのは結構難しい、という印象ですね。