日本語への遠い道†
さとーに戻る
Category:仕様メモ
目次
これは何?†
ゴーストで日本語を「理解してるっぽく」扱う際のあれやこれやを書く場所。
何で日本語を扱いたい?†
- どこいつ用の単語集めは、かなり大変。可能なら自動化したい。それには日本語理解が…。
- Webから単語、名文句を自動で集められたら、アイデア出しが楽になる。そのために。
- デンパじゃないどこいつトークを作るには、多少でも日本語文法を踏まえないと厳しい。
- そこに日本語があるから。
使えそうなツール†
- 葉梨…かなを喋る事ができる。漢字は読めない。漢字を読ませたい時は、読みを教える必要がある。
- かしこ/MicCom…マイク入力を音声認識する。漢字をかなに変換した出力もしてくれる。中でJuliusを使ってる。
- 拳志郎…WindowsのIME関係APIを使って、かな/漢字の相互変換が出来る。
- kakasi…比較的ローコストに漢字混じり文をかなのみの文にしたり、単語ごとに分解できる。後述の茶筅等よりは精度が低いがお手軽。
- ChaSen(茶筅)…日本語の文章を単語ごとに分解し、品詞も教えてくれる。この種の処理の定番。
- MeCab(和布蕪)…茶筅と同種のソフトだが、より高速。
- CaboCha…日本語の文章を解析し、単語・品詞のみならず単語間の係り受けを教えてくれる。ペルソナ「春菜」が実験的に採用したこともある。
- 睦月…ChaSenをSAORIとして使うためのラッパー。ChaSenのインストールが必要。
- 真絵…品詞分解が強力なSHIORIの一種。単語ごとに価値観(重み付け)を持つなど、本格的な日本語の扱いを考えている。
- フリーのかな漢字変換辞書たち…ChaSen等を使う場合はあまり意識しないが、独力で品詞分解したい場合、品詞はいらなくて単語だけ欲しい場合、ここにリンクされた辞書群が有用だろう。
とりあえずoverviewだけ書く。
日本語を扱う精度†
うまくネタと混ぜて昇華すれば、現状でもゴーストの強い武器になるだろう。
インストールの手間†
- ひたすらめどい。しかもゴースト業界外のツールはファイルがでかい。でも、努力と根性で何とかなる。たぶん。
- 実例:ミストさんはChaSenのインストールの手間があっても、試す人が結構居る。
- ゴースト作者が自分の環境でデータ化を行い、通常のネットワーク更新に乗せる手もある。
- サーバ側にソフトをインストールし、サーバである程度データを加工。ゴーストはhttpc.dll等で加工済みデータを取り出すという手も。ネットワーク更新で全手動よりは楽…だろう。
プラットフォーム間の違い†
PLUGIN/2.0を巡ってWindows上ですらベースウェア間の違いがある。他のOSでは当然。
ただ、「十分に面白ければプラットフォームの違いは壁では無くなる」のは確か。
面白ければ、協力者は現れるものだ。
権利関係の扱い†
はっきり言って一番厄介。再配布前提で作られてるゴースト系ツールはともかく、GPLやらLGPLやらのオープンソース系ライセンスが絡むと、「筋を通すためには何をするべきか」を知る手間が結構ある。しかもゴーストは、「ツールは再配布前提、プログラムと絵と文章の混合物で、辞書とスクリプトとバイナリがリンクして動くことも多々ある」という、GPLの一番あいまい*1な部分*2を直撃してるシステム。メモっとかなきゃ私はたぶん間違える。
話す内容がデンパだ†
これはゴーストが人口無脳である以上、どうしようもない。
が、ユーザの属するコミュニティのネタが含まれていると、案外気にならない。
「当たり」の反応がそこそこ得られれば、デンパな応答の方が多くても人間は気にしなくなる。
反応が完全に定型であることの方が、「これはパターンを繰り返している」という印象を与える。
ちょっとでも日本語断片が分かれば、定型から外れるヒントとして使えるメリットが大きい。
現状での解†
TBD
- とりあえず「睦月」でSAORIとしてChaSenを利用しやすくしてみた。漢字を含めた単語の発音取得、単語への分解が出来るので、本当の意味での「しりとり」を容易に実装できるようになった筈だ。
- SAORIにさえなれば、あとはAYA5を使ってプラグインにラッピングすることは容易。
- 気になっていたライセンス周りも、ラッパーSAORIがChaSen無しでも「機能」すること、LGPLを添付すること、ドキュメントとしてLEGALを添付することでLGPLを満足するとの見解に達した。
- サーバ側にソフトをインストールして、そちらで動かすという手が、ユーザサイドインストール問題の解の一つだろう。サーバ負荷との相談になるが。