[Pkg-nlp-ja-devel] [Kakasi-dev 190] Re: [Pkg-訓令式kakashi と ティ → tei
NOKUBI Takatsugu
knok @ daionet.gr.jp
2014年 4月 8日 (火) 07:22:50 UTC
pkg-nlp-jaとkakasi-devの両方に投げています。青木さんも
できれば両方にリプライしていただけると幸いです。
状況が複雑なので、Trac wikiに整理してみました。
http://www.namazu.org/trac-namazu/trac.cgi/wiki/KAKASI/roman
KAKASIの出自は、junet時代に日本語が扱えない環境を支援するため
のものだと認識しています。現状そういう用途で使うことはおそらく少ない
でしょう。ただ、たとえば日本語ファイル名を全部英字に変換するといった
使い方をしている人はwebでみたことがあります。あとは日本語の学習の
支援として使える(小学校学年別の学習漢字情報を持っている)、という
あたりでしょうか。
そういえば、KAKASIにUTF-8対応をしようと考えたきっかけは
Wikipedia方面でそういう要望があったことを思い出しました。
今後あるべき姿としては、世間的によく利用されている形式をデフォルト
にするのがよいのだと思います。Unicode, Wikipediaで利用されている
modified Hepburnが妥当と思われます。
後方互換性に関しては、Perl bindingのText::Kakasiがテストに
以下のようなデータをもっているので、デフォルトを変更するならそちらも
修正してもらう必要があります。
--
konotabiha(kakasiforWin32)wodaunro^doshiteitadakiarigatougozaimasu.
korehakakasiv2.2.5+wakachikakiwocygwin,mingw32dekonpairudekiru
younishitapatchwokonpairukankyounonaihounimotsukatteitadakeruyouWindowsno
jikkoukeishikinishitematometamonodesu.
saishinbanhaikanoWebPage
<URL:http://www.tama.or.jp/%7Ekenzo-/Namazu/>
dekoukaishiteimasu.(takashi,konope^jihahitsuyounioujitekoushinsaremasu.)
--
そして三浦さんもご指摘のあったように、現状のKAKASIはローマ字
変換テーブル(に限らないですが)をソースの一部として埋め込んでいるので
メンテナンス性がよくありません。これもなんとかしたいと思っています。
ただ、メンテナンス性を考えると他にもどうにかしたい点はたくさんあるので
(K&Rコードが残っているとか設計全般とか)、そこは今のコードベースでは
踏み込まないで置きたいと思っています。
つまるところ、KAKASIの再実装をC++あたりでやりなおして、構造を
もっとすっきりさせたいと思っています。何度かトライしては頓挫して、を
繰り返しているのでなかなかうまくいっていませんが…
ともかく、今後の方針としてはまず以下のようにしたいと思います。
* 現状のヘボン、訓令はKAKASI独自の形式と定義する
* modified Hepburn, ISO 3602を追加する
* 変換テーブル埋め込みは今のところ踏襲する
More information about the Pkg-nlp-ja-devel
mailing list