さとー/日本語への遠い道
の編集
index.php?%E3%81%95%E3%81%A8%E3%83%BC/%E6%97%A5%E6%9C%AC%E8%AA%9E%E3%81%B8%E3%81%AE%E9%81%A0%E3%81%84%E9%81%93
[
トップ
] [
編集
|
差分
|
履歴
|
添付
|
リロード
] [
新規
|
一覧
|
検索
|
最終更新
|
ヘルプ
]
-- 雛形とするページ --
殊海夕音/FINE/template
*日本語への遠い道 [#eaa314f8] [[さとー]]に戻る Category:[[仕様メモ]] ----- 目次 #contents ----- *これは何? [#t4de3a53] ゴーストで日本語を「理解してるっぽく」扱う際のあれやこれやを書く場所。 *何で日本語を扱いたい? [#ab73cc67] -どこいつ用の単語集めは、かなり大変。可能なら自動化したい。それには日本語理解が…。 -Webから単語、名文句を自動で集められたら、アイデア出しが楽になる。そのために。 -デンパじゃないどこいつトークを作るには、多少でも日本語文法を踏まえないと厳しい。 -そこに日本語があるから。 *使えそうなツール [#j786d59d] -[[葉梨:http://members.jcom.home.ne.jp/umeici/]]…かなを喋る事ができる。漢字は読めない。漢字を読ませたい時は、読みを教える必要がある。 -[[かしこ/MicCom:http://members.jcom.home.ne.jp/umeici/miccom/miccom.html]]…マイク入力を音声認識する。漢字をかなに変換した出力もしてくれる。中でJuliusを使ってる。 -[[拳志郎:http://reangaya.hp.infoseek.co.jp/zatsu/]]…WindowsのIME関係APIを使って、かな/漢字の相互変換が出来る。 -[[kakasi:http://kakasi.namazu.org/]]…比較的ローコストに漢字混じり文をかなのみの文にしたり、単語ごとに分解できる。後述の茶筅等よりは精度が低いがお手軽。 -[[ChaSen(茶筅):http://chasen.naist.jp/hiki/ChaSen/]]…日本語の文章を単語ごとに分解し、品詞も教えてくれる。この種の処理の定番。 -[[MeCab(和布蕪):http://chasen.org/~taku/software/mecab/]]…茶筅と同種のソフトだが、より高速。 -[[CaboCha:http://chasen.org/~taku/software/cabocha/]]…日本語の文章を解析し、単語・品詞のみならず単語間の係り受けを教えてくれる。[[ペルソナ「春菜」が実験的に採用した:http://www.praesens.co.jp/pws/member/munou/munoutest.html]]こともある。 -[[睦月:http://shobu.hp.infoseek.co.jp/#Saori]]…ChaSenをSAORIとして使うためのラッパー。ChaSenのインストールが必要。 -[[真絵:http://efasus.sakura.tv/mae.htm]]…品詞分解が強力なSHIORIの一種。単語ごとに価値観(重み付け)を持つなど、本格的な日本語の扱いを考えている。 -[[フリーのかな漢字変換辞書たち:http://homepage2.nifty.com/baba_hajime/free-dic/]]…ChaSen等を使う場合はあまり意識しないが、独力で品詞分解したい場合、品詞はいらなくて単語だけ欲しい場合、ここにリンクされた辞書群が有用だろう。 *課題 [#k78a6426] とりあえずoverviewだけ書く。 **日本語を扱う精度 [#w91af538] うまくネタと混ぜて昇華すれば、現状でもゴーストの強い武器になるだろう。 **インストールの手間 [#i61fe78e] -ひたすらめどい。しかもゴースト業界外のツールはファイルがでかい。でも、努力と根性で何とかなる。たぶん。 --実例:[[ミストさん:http://mistnar.hp.infoseek.co.jp/End_mist/aimist.html]]はChaSenのインストールの手間があっても、試す人が結構居る。 -ゴースト作者が自分の環境でデータ化を行い、通常のネットワーク更新に乗せる手もある。 -サーバ側にソフトをインストールし、サーバである程度データを加工。ゴーストはhttpc.dll等で加工済みデータを取り出すという手も。ネットワーク更新で全手動よりは楽…だろう。 **プラットフォーム間の違い [#t1bf9bed] PLUGIN/2.0を巡ってWindows上ですらベースウェア間の違いがある。他のOSでは当然。 ただ、「十分に面白ければプラットフォームの違いは壁では無くなる」のは確か。 面白ければ、協力者は現れるものだ。 **権利関係の扱い [#a6157cab] はっきり言って一番厄介。再配布前提で作られてるゴースト系ツールはともかく、GPLやらLGPLやらのオープンソース系ライセンスが絡むと、「筋を通すためには何をするべきか」を知る手間が結構ある。しかもゴーストは、「ツールは再配布前提、プログラムと絵と文章の混合物で、辞書とスクリプトとバイナリがリンクして動くことも多々ある」という、GPLの一番あいまい((と私が思っている。))な部分((リンクの解釈とか、同梱と結合の違いって何?とか。))を直撃してるシステム。メモっとかなきゃ私はたぶん間違える。 **話す内容がデンパだ [#r5b56129] これはゴーストが人口無脳である以上、どうしようもない。 が、ユーザの属するコミュニティのネタが含まれていると、案外気にならない。 「当たり」の反応がそこそこ得られれば、デンパな応答の方が多くても人間は気にしなくなる。 反応が完全に定型であることの方が、「これはパターンを繰り返している」という印象を与える。 ちょっとでも日本語断片が分かれば、定型から外れるヒントとして使えるメリットが大きい。 *現状での解 [#s70ba8b5] TBD -とりあえず「[[睦月:http://shobu.hp.infoseek.co.jp/#Saori]]」でSAORIとしてChaSenを利用しやすくしてみた。漢字を含めた単語の発音取得、単語への分解が出来るので、本当の意味での「しりとり」を容易に実装できるようになった筈だ。 -SAORIにさえなれば、あとはAYA5を使ってプラグインにラッピングすることは容易。 -気になっていたライセンス周りも、ラッパーSAORIがChaSen無しでも「機能」すること、LGPLを添付すること、ドキュメントとしてLEGALを添付することでLGPLを満足するとの見解に達した。 -サーバ側にソフトをインストールして、そちらで動かすという手が、ユーザサイドインストール問題の解の一つだろう。サーバ負荷との相談になるが。
タイムスタンプを変更しない
*日本語への遠い道 [#eaa314f8] [[さとー]]に戻る Category:[[仕様メモ]] ----- 目次 #contents ----- *これは何? [#t4de3a53] ゴーストで日本語を「理解してるっぽく」扱う際のあれやこれやを書く場所。 *何で日本語を扱いたい? [#ab73cc67] -どこいつ用の単語集めは、かなり大変。可能なら自動化したい。それには日本語理解が…。 -Webから単語、名文句を自動で集められたら、アイデア出しが楽になる。そのために。 -デンパじゃないどこいつトークを作るには、多少でも日本語文法を踏まえないと厳しい。 -そこに日本語があるから。 *使えそうなツール [#j786d59d] -[[葉梨:http://members.jcom.home.ne.jp/umeici/]]…かなを喋る事ができる。漢字は読めない。漢字を読ませたい時は、読みを教える必要がある。 -[[かしこ/MicCom:http://members.jcom.home.ne.jp/umeici/miccom/miccom.html]]…マイク入力を音声認識する。漢字をかなに変換した出力もしてくれる。中でJuliusを使ってる。 -[[拳志郎:http://reangaya.hp.infoseek.co.jp/zatsu/]]…WindowsのIME関係APIを使って、かな/漢字の相互変換が出来る。 -[[kakasi:http://kakasi.namazu.org/]]…比較的ローコストに漢字混じり文をかなのみの文にしたり、単語ごとに分解できる。後述の茶筅等よりは精度が低いがお手軽。 -[[ChaSen(茶筅):http://chasen.naist.jp/hiki/ChaSen/]]…日本語の文章を単語ごとに分解し、品詞も教えてくれる。この種の処理の定番。 -[[MeCab(和布蕪):http://chasen.org/~taku/software/mecab/]]…茶筅と同種のソフトだが、より高速。 -[[CaboCha:http://chasen.org/~taku/software/cabocha/]]…日本語の文章を解析し、単語・品詞のみならず単語間の係り受けを教えてくれる。[[ペルソナ「春菜」が実験的に採用した:http://www.praesens.co.jp/pws/member/munou/munoutest.html]]こともある。 -[[睦月:http://shobu.hp.infoseek.co.jp/#Saori]]…ChaSenをSAORIとして使うためのラッパー。ChaSenのインストールが必要。 -[[真絵:http://efasus.sakura.tv/mae.htm]]…品詞分解が強力なSHIORIの一種。単語ごとに価値観(重み付け)を持つなど、本格的な日本語の扱いを考えている。 -[[フリーのかな漢字変換辞書たち:http://homepage2.nifty.com/baba_hajime/free-dic/]]…ChaSen等を使う場合はあまり意識しないが、独力で品詞分解したい場合、品詞はいらなくて単語だけ欲しい場合、ここにリンクされた辞書群が有用だろう。 *課題 [#k78a6426] とりあえずoverviewだけ書く。 **日本語を扱う精度 [#w91af538] うまくネタと混ぜて昇華すれば、現状でもゴーストの強い武器になるだろう。 **インストールの手間 [#i61fe78e] -ひたすらめどい。しかもゴースト業界外のツールはファイルがでかい。でも、努力と根性で何とかなる。たぶん。 --実例:[[ミストさん:http://mistnar.hp.infoseek.co.jp/End_mist/aimist.html]]はChaSenのインストールの手間があっても、試す人が結構居る。 -ゴースト作者が自分の環境でデータ化を行い、通常のネットワーク更新に乗せる手もある。 -サーバ側にソフトをインストールし、サーバである程度データを加工。ゴーストはhttpc.dll等で加工済みデータを取り出すという手も。ネットワーク更新で全手動よりは楽…だろう。 **プラットフォーム間の違い [#t1bf9bed] PLUGIN/2.0を巡ってWindows上ですらベースウェア間の違いがある。他のOSでは当然。 ただ、「十分に面白ければプラットフォームの違いは壁では無くなる」のは確か。 面白ければ、協力者は現れるものだ。 **権利関係の扱い [#a6157cab] はっきり言って一番厄介。再配布前提で作られてるゴースト系ツールはともかく、GPLやらLGPLやらのオープンソース系ライセンスが絡むと、「筋を通すためには何をするべきか」を知る手間が結構ある。しかもゴーストは、「ツールは再配布前提、プログラムと絵と文章の混合物で、辞書とスクリプトとバイナリがリンクして動くことも多々ある」という、GPLの一番あいまい((と私が思っている。))な部分((リンクの解釈とか、同梱と結合の違いって何?とか。))を直撃してるシステム。メモっとかなきゃ私はたぶん間違える。 **話す内容がデンパだ [#r5b56129] これはゴーストが人口無脳である以上、どうしようもない。 が、ユーザの属するコミュニティのネタが含まれていると、案外気にならない。 「当たり」の反応がそこそこ得られれば、デンパな応答の方が多くても人間は気にしなくなる。 反応が完全に定型であることの方が、「これはパターンを繰り返している」という印象を与える。 ちょっとでも日本語断片が分かれば、定型から外れるヒントとして使えるメリットが大きい。 *現状での解 [#s70ba8b5] TBD -とりあえず「[[睦月:http://shobu.hp.infoseek.co.jp/#Saori]]」でSAORIとしてChaSenを利用しやすくしてみた。漢字を含めた単語の発音取得、単語への分解が出来るので、本当の意味での「しりとり」を容易に実装できるようになった筈だ。 -SAORIにさえなれば、あとはAYA5を使ってプラグインにラッピングすることは容易。 -気になっていたライセンス周りも、ラッパーSAORIがChaSen無しでも「機能」すること、LGPLを添付すること、ドキュメントとしてLEGALを添付することでLGPLを満足するとの見解に達した。 -サーバ側にソフトをインストールして、そちらで動かすという手が、ユーザサイドインストール問題の解の一つだろう。サーバ負荷との相談になるが。
テキスト整形のルールを表示する