IIR輪講 第20回

今週もIIR輪講でした。最後3章は一気にやる、とのことなので、今日で一通りこの本は読み終わります。

19章はWeb search basicsということで、ウェブの検索周りの若干細かい話をいくつか紹介するといった感じの章です。20章はWeb crawling and indexesということでクローラーを作る、という話です。最後21章はLink analysisということで、Page Rankのようなハイパーリンク自体の質を評価して、ウェブ検索の結果に役立てましょう、というお話です。


Introduction to Information Retrieval
Introduction to Information Retrieval
Christopher D. Manning (著)
Prabhakar Raghavan (著)
Hinrich Schutze (著)
¥ 7,198 (税込)


本日はちょっと順番を変えてまず20章です。この章ではクローラーをどう設計するのか、というのがメインの話題。ただ単にウェブページを取ってくればいいじゃん、ではなく、ちゃんとRobust(頑健)でPolite(誠実)なクローラーを作るためにはどうすればいいかが紹介されています。

続いては19章のウェブ検索周りの雑多な話です。ウェブのハイパーリンク構造が有向グラフに見なせる、というような基本的な部分や、スパムサイトの問題、検索広告の扱い、類似ページ判定などが紹介されています。今まではテキストの質をうまく評価するような部分が中心だったのに対して、本章以降はこの有向グラフの質をうまく評価する、という部分の導入的な感じの章です。

最後の21章はそのままリンクの質の評価です。かの有名なPage Rankやそれがなぜ正しいのか、というマルコフ連鎖を用いた説明、さらにはこれを実際に計算する方法、といった内容です。さらには、汎用的なPage Rankだけでなく、特定分野に偏らせたPage Rankの作り方、HITSと呼ばれるモウ一段ノードの役割付けも意識した方法も紹介されています。

本日の輪講は一気にやるため長丁場でしたが、やっぱり最後は打ち上げ懇親会です。近くの飲み屋にて、かなーりくっちゃべってました。このメンバーでIIR本の翻訳とかできたらスゲーなーとか。デジイチが結構はやっているらしい。

一年以上参加しての感想ですが、個人的には相当役に立ちました。何となく知っているくらいの情報検索の分野でしたが、一応にわか専門家としては話せるくらいの知識はできました。あと、かなり硬派な英語の本ですが、一応読み通せたという自信ができました。なにより、ここのメンバーにいろいろ刺激されて、良い感じに勉強できた一年でした。

残念なのは、はっきりとしたアウトプットができなかったこと。これは今後がんばります・・・。