さとー/日本語への遠い道

日本語への遠い道

さとーに戻る

Category:仕様メモ


目次


これは何?

ゴーストで日本語を「理解してるっぽく」扱う際のあれやこれやを書く場所。

何で日本語を扱いたい?

  • どこいつ用の単語集めは、かなり大変。可能なら自動化したい。それには日本語理解が…。
  • Webから単語、名文句を自動で集められたら、アイデア出しが楽になる。そのために。
  • デンパじゃないどこいつトークを作るには、多少でも日本語文法を踏まえないと厳しい。
  • そこに日本語があるから。

使えそうなツール

  • 葉梨…かなを喋る事ができる。漢字は読めない。漢字を読ませたい時は、読みを教える必要がある。
  • かしこ/MicCom…マイク入力を音声認識する。漢字をかなに変換した出力もしてくれる。中でJuliusを使ってる。
  • 拳志郎…WindowsのIME関係APIを使って、かな/漢字の相互変換が出来る。
  • kakasi…比較的ローコストに漢字混じり文をかなのみの文にしたり、単語ごとに分解できる。後述の茶筅等よりは精度が低いがお手軽。
  • ChaSen(茶筅)…日本語の文章を単語ごとに分解し、品詞も教えてくれる。この種の処理の定番。
  • MeCab(和布蕪)…茶筅と同種のソフトだが、より高速。
  • CaboCha…日本語の文章を解析し、単語・品詞のみならず単語間の係り受けを教えてくれる。ペルソナ「春菜」が実験的に採用したこともある。
  • 睦月…ChaSenをSAORIとして使うためのラッパー。ChaSenのインストールが必要。
  • 真絵…品詞分解が強力なSHIORIの一種。単語ごとに価値観(重み付け)を持つなど、本格的な日本語の扱いを考えている。
  • フリーのかな漢字変換辞書たち…ChaSen等を使う場合はあまり意識しないが、独力で品詞分解したい場合、品詞はいらなくて単語だけ欲しい場合、ここにリンクされた辞書群が有用だろう。

課題

とりあえずoverviewだけ書く。

日本語を扱う精度

うまくネタと混ぜて昇華すれば、現状でもゴーストの強い武器になるだろう。

インストールの手間

  • ひたすらめどい。しかもゴースト業界外のツールはファイルがでかい。でも、努力と根性で何とかなる。たぶん。
    • 実例:ミストさんはChaSenのインストールの手間があっても、試す人が結構居る。
  • ゴースト作者が自分の環境でデータ化を行い、通常のネットワーク更新に乗せる手もある。
  • サーバ側にソフトをインストールし、サーバである程度データを加工。ゴーストはhttpc.dll等で加工済みデータを取り出すという手も。ネットワーク更新で全手動よりは楽…だろう。

プラットフォーム間の違い

PLUGIN/2.0を巡ってWindows上ですらベースウェア間の違いがある。他のOSでは当然。 ただ、「十分に面白ければプラットフォームの違いは壁では無くなる」のは確か。 面白ければ、協力者は現れるものだ。

権利関係の扱い

はっきり言って一番厄介。再配布前提で作られてるゴースト系ツールはともかく、GPLやらLGPLやらのオープンソース系ライセンスが絡むと、「筋を通すためには何をするべきか」を知る手間が結構ある。しかもゴーストは、「ツールは再配布前提、プログラムと絵と文章の混合物で、辞書とスクリプトとバイナリがリンクして動くことも多々ある」という、GPLの一番あいまい*1な部分*2を直撃してるシステム。メモっとかなきゃ私はたぶん間違える。

話す内容がデンパだ

これはゴーストが人口無脳である以上、どうしようもない。 が、ユーザの属するコミュニティのネタが含まれていると、案外気にならない。 「当たり」の反応がそこそこ得られれば、デンパな応答の方が多くても人間は気にしなくなる。 反応が完全に定型であることの方が、「これはパターンを繰り返している」という印象を与える。 ちょっとでも日本語断片が分かれば、定型から外れるヒントとして使えるメリットが大きい。

現状での解

TBD

  • とりあえず「睦月」でSAORIとしてChaSenを利用しやすくしてみた。漢字を含めた単語の発音取得、単語への分解が出来るので、本当の意味での「しりとり」を容易に実装できるようになった筈だ。
  • SAORIにさえなれば、あとはAYA5を使ってプラグインにラッピングすることは容易。
  • 気になっていたライセンス周りも、ラッパーSAORIがChaSen無しでも「機能」すること、LGPLを添付すること、ドキュメントとしてLEGALを添付することでLGPLを満足するとの見解に達した。
  • サーバ側にソフトをインストールして、そちらで動かすという手が、ユーザサイドインストール問題の解の一つだろう。サーバ負荷との相談になるが。

*1 と私が思っている。
*2 リンクの解釈とか、同梱と結合の違いって何?とか。

リロード   新規 編集 凍結 差分 ファイルUp コピー 名前変更   ホーム 一覧 検索 最終更新 バックアップ   ヘルプ
feed rss feed rdf feed rss20 feed lirs emily4 inside marble note
Last-modified: Sat, 09 Dec 2006 22:52:02 JST (3791d)