形態素解析

0pt

ざっくり言うと

文章を形態素に分割すること。形態素とは、言語で意味を持つ最小単位。Wikipediaを読みながら、ざっくりとまとめる。

日本語の形態素解析の手法

英語は単語区切りが明確だが、日本語は単語区切りが明確ではないという特徴がある。そんな日本語の形態素解析には、大まかに2つの方法がある。

  • 規則による方法
  • 確率的言語モデル

日本語の形態素解析の4つの問題

単語の境界判別の問題

「うらにわにはにわとりがいる」

  • 裏庭 / には / 鶏 / が / いる
  • 裏庭 / には / 二 / 羽 / トリ / が / いる
  • 裏 / に / ワニ / は / 鶏 / が / いる
  • 裏庭 / に / 埴輪 / 取り / が / いる

「埴輪取り」なるものが存在しないことは人間は経験的に分かるが、存在しないことをコンピュータに網羅的に教えることはできない。

品詞判別の問題

日本語よりも英語で問題になる。

未知語の問題

固有名詞、限られた企業内の固有表現、新語に対応できないという問題。「固有表現抽出」で対応する必要あり。

ルーズな文法の問題

話し言葉や電子メール、チャットなどの表現。

形態素解析エンジン

形態素解析辞書

辞書の課題

IPAdicの最終更新日は2007年、UniDicの最終更新日は2013年。未知語問題への対応ができておらず、別途「固有表現抽出」が必要ということ、かな。

編集履歴

  • 2018.05.02 初版

「形態素解析」について友人に書いてもらう。

あなたにとって「形態素解析」とは?

ログインするとワンクリックでキーワードを投稿できます

ログインする 新規登録する

お気に入りの説明

0 pt
MeCab MeCabの辞書にはてなキーワードを追加しよう - 不可視点 Yahoo Yahoo!デベロッパーネットワーク - テキスト解析 - 日本語形態素解析 KH Coder KH Coder Index Page
もっと読む

他の人の「形態素解析」を見る