グーグルの日本語N-gramデータ公開

どうも最近グーグルさんの動きが活発なようですね。自分のメモ的意味合いも込めて紹介。まずはグーグルが日本語N-gram自社データを公開したという話。

グーグルの巨大データベース

まず、N-gramとは

N-gram自然言語処理の領域で、単語同士の結びつきを統計的に処理する計算モデル。「グーグルで検索」「グーグルで調べる」「グーグルで探す」のように特定の単語(例では"グーグル")と、他の単語の結びつきを予測できる。 - グーグルが日本語N-gramデータを公開 − @IT

というものです。グーグルがウェブサイトから収集したデータをもとに1?7-gramまで公開したそうです。

グーグルのような超巨大データベースを持っているところが、このように実用的にも研究的にも非常に貴重なデータを出してくれるというのは、非常に意義深いことだと思います。