*日本語への遠い道 [#eaa314f8]

[[さとー]]に戻る

Category:[[仕様メモ]]

-----
目次
#contents
-----
*これは何? [#t4de3a53]
ゴーストで日本語を「理解してるっぽく」扱う際のあれやこれやを書く場所。

*何で日本語を扱いたい? [#ab73cc67]
-どこいつ用の単語集めは、かなり大変。可能なら自動化したい。それには日本語理解が…。
-Webから単語、名文句を自動で集められたら、アイデア出しが楽になる。そのために。
-デンパじゃないどこいつトークを作るには、多少でも日本語文法を踏まえないと厳しい。
-そこに日本語があるから。

*使えそうなツール [#j786d59d]
-[[葉梨:http://members.jcom.home.ne.jp/umeici/]]…かなを喋る事ができる。漢字は読めない。漢字を読ませたい時は、読みを教える必要がある。
-[[かしこ/MicCom:http://members.jcom.home.ne.jp/umeici/miccom/miccom.html]]…マイク入力を音声認識する。漢字をかなに変換した出力もしてくれる。中でJuliusを使ってる。
-[[拳志郎:http://reangaya.hp.infoseek.co.jp/zatsu/]]…WindowsのIME関係APIを使って、かな/漢字の相互変換が出来る。
-[[kakasi:http://kakasi.namazu.org/]]…比較的ローコストに漢字混じり文をかなのみの文にしたり、単語ごとに分解できる。後述の茶筅等よりは精度が低いがお手軽。
-[[ChaSen(茶筅):http://chasen.naist.jp/hiki/ChaSen/]]…日本語の文章を単語ごとに分解し、品詞も教えてくれる。この種の処理の定番。
-[[MeCab(和布蕪):http://chasen.org/~taku/software/mecab/]]…茶筅と同種のソフトだが、より高速。
-[[CaboCha:http://chasen.org/~taku/software/cabocha/]]…日本語の文章を解析し、単語・品詞のみならず単語間の係り受けを教えてくれる。[[ペルソナ「春菜」が実験的に採用した:http://www.praesens.co.jp/pws/member/munou/munoutest.html]]こともある。
-[[睦月:http://shobu.hp.infoseek.co.jp/#Saori]]…ChaSenをSAORIとして使うためのラッパー。ChaSenのインストールが必要。
-[[真絵:http://efasus.sakura.tv/mae.htm]]…品詞分解が強力なSHIORIの一種。単語ごとに価値観(重み付け)を持つなど、本格的な日本語の扱いを考えている。
-[[フリーのかな漢字変換辞書たち:http://homepage2.nifty.com/baba_hajime/free-dic/]]…ChaSen等を使う場合はあまり意識しないが、独力で品詞分解したい場合、品詞はいらなくて単語だけ欲しい場合、ここにリンクされた辞書群が有用だろう。

*課題 [#k78a6426]
とりあえずoverviewだけ書く。

**日本語を扱う精度 [#w91af538]
うまくネタと混ぜて昇華すれば、現状でもゴーストの強い武器になるだろう。

**インストールの手間 [#i61fe78e]
-ひたすらめどい。しかもゴースト業界外のツールはファイルがでかい。でも、努力と根性で何とかなる。たぶん。
--実例:[[ミストさん:http://mistnar.hp.infoseek.co.jp/End_mist/aimist.html]]はChaSenのインストールの手間があっても、試す人が結構居る。
-ゴースト作者が自分の環境でデータ化を行い、通常のネットワーク更新に乗せる手もある。
-サーバ側にソフトをインストールし、サーバである程度データを加工。ゴーストはhttpc.dll等で加工済みデータを取り出すという手も。ネットワーク更新で全手動よりは楽…だろう。

**プラットフォーム間の違い [#t1bf9bed]
PLUGIN/2.0を巡ってWindows上ですらベースウェア間の違いがある。他のOSでは当然。
ただ、「十分に面白ければプラットフォームの違いは壁では無くなる」のは確か。
面白ければ、協力者は現れるものだ。

**権利関係の扱い [#a6157cab]
はっきり言って一番厄介。再配布前提で作られてるゴースト系ツールはともかく、GPLやらLGPLやらのオープンソース系ライセンスが絡むと、「筋を通すためには何をするべきか」を知る手間が結構ある。しかもゴーストは、「ツールは再配布前提、プログラムと絵と文章の混合物で、辞書とスクリプトとバイナリがリンクして動くことも多々ある」という、GPLの一番あいまい((と私が思っている。))な部分((リンクの解釈とか、同梱と結合の違いって何?とか。))を直撃してるシステム。メモっとかなきゃ私はたぶん間違える。

**話す内容がデンパだ [#r5b56129]
これはゴーストが人口無脳である以上、どうしようもない。
が、ユーザの属するコミュニティのネタが含まれていると、案外気にならない。
「当たり」の反応がそこそこ得られれば、デンパな応答の方が多くても人間は気にしなくなる。
反応が完全に定型であることの方が、「これはパターンを繰り返している」という印象を与える。
ちょっとでも日本語断片が分かれば、定型から外れるヒントとして使えるメリットが大きい。

*現状での解 [#s70ba8b5]
TBD
-とりあえず「[[睦月:http://shobu.hp.infoseek.co.jp/#Saori]]」でSAORIとしてChaSenを利用しやすくしてみた。漢字を含めた単語の発音取得、単語への分解が出来るので、本当の意味での「しりとり」を容易に実装できるようになった筈だ。
-SAORIにさえなれば、あとはAYA5を使ってプラグインにラッピングすることは容易。
-気になっていたライセンス周りも、ラッパーSAORIがChaSen無しでも「機能」すること、LGPLを添付すること、ドキュメントとしてLEGALを添付することでLGPLを満足するとの見解に達した。
-サーバ側にソフトをインストールして、そちらで動かすという手が、ユーザサイドインストール問題の解の一つだろう。サーバ負荷との相談になるが。

トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS