IntroIR輪講 第14回

Introduction to Information Retrievalの第14回目の講義でした。

今回の内容は「Text Classification」です。テキストを内容に応じて分類して、検索のときに利用しよう、という手法になります。


Introduction to Information Retrieval
Introduction to Information Retrieval
Christopher D. Manning (著)
Prabhakar Raghavan (著)
Hinrich Schutze (著)
¥ 7,198 (税込)


これはこのあと出てくる、Clusteringと間違えやすいので注意です。Classificationは分類ありきで、どの分類に属するか決めていく、いわゆる「教師あり学習」による方法、Clusteringは、分類は特にない状態でいくつかに分ける「教師なし学習」による方法になります。

この本では、その応用例として、たとえばスパムページ判定や、評判分析などが紹介されています。その手法としては、ナイーブベイズを用いる方法、ベルヌーイモデルを使い方法が紹介されています。ナイーブベイズは、スパム判定でよく用いられている手法ですね。ベルヌーイモデルは、まだ理解できていないため、これから理解します。。。

続いては素性選択です。素性選択とは、有用な特徴量を抜き出すこと、つまりここでは、テキスト分類をするときに、その分類の目安となりやすい単語を選んでくる手法になります。これも2種類、相互情報量と、カイ二乗を用いた方法が紹介されています。両方とも、特徴(単語)間の類似度を測る方法です。

この後も評価の話が出てくるのですが、時間切れのため終了。続きは次回です。