お薦め ページ


メニュー

ハワイ島 遊覧飛行ツアー

ハワイ島 B&B・ホテル

ハワイ島 不動産情報

ハワイ島 情報・観光ガイド

ブログ(Blog)

その他

関連サイト

: 個別エントリー・アーカイブ :

2006年8月 4日

JTPAサロン: 工藤拓氏による形態素解析器 MeCab について

形態素解析ツール MeCab の開発者である 工藤 拓 氏においでいただき、 MeCabについての技術解説、開発の経緯などについて語っていただいた。

形態素解析って、IT系の人でも よほどこの分野に精通していないと なかなか理解できない世界。 ということで まずは、ウィキペディアでお勉強。 「形態素解析」のページには、
形態素解析(けいたいそかいせき、Morphological Analysis)とは、 コンピューター等の計算機を用いた自然言語処理の基礎技術のひとつで、 自然言語で書かれた文を形態素(Morpheme, おおまかにいえば、 言語で意味を持つ最小単位)の列に分割し、 品詞を見分ける作業である。 参照する情報源として対象言語の文法の知識(ここでは文法のルールの集まり)と 辞書(品詞等の情報付きの単語リスト)を用いるものが多い。
と ある。 工藤氏が開発されておられる、「MeCab」も この形態素解析を行うソフトウェアである。

「MeCab」には、いくつかの特徴があるが、 例えば、辞書検索のためのデータ構造としてツリー構造である「TRIE」を採用し、 その実装として高速な「Double Array(ダブル配列)」を用いている。 また、文章を解析する際の曖昧性の解消には最小コスト法(Viterbiアルゴリズム)を用い、 そのコスト決定には統計的手法を採用している。 その学習モデルとしては 従来の 隠れマルコフモデル (HMM, Hidden Markov Model) に代わり、 CRF(Conditional Random Fields)を採用している。

また、この MeCab は非常に汎用的な設計になっており、 システムとしては 言語や文法、辞書の内容からは完全に独立している。 そのため辞書の定義の方法いかんによっては 応用の範囲をかなり広げられそうだ。

結局、このレクチャー、デモを交えて2時間以上続いた。 工藤氏のお話が終わった後は フリー・ネットワーキングということにしたのだが、 これだけ濃いギークの方々がお集まりになると、 話に花が咲いて、皆さんなかなかお帰りにならない。 最終的に お開きになったのは ほとんど夜中の12時であった。

【参考リンク】

カテゴリー: JTPA     2006年8月 4日 23:57

トラックバック

このエントリーのトラックバックURL:
http://www.skymerica.com/blog/yotsumoto/mt/mt-tb.cgi/516


コメント

コメントしてください




保存しますか?


 
ハワイ島での遊覧飛行ツアーとB&Bのスペシャリスト、スカイメリカ
Copyright © 2003,2009 Skymerica Corp. All rights reserved.