たまりば

パソコン・インターネット パソコン・インターネット三鷹市 三鷹市

ローマ字入力考
2008年09月30日 03:28

※今回の日記はJIS2004の文字を使っています。
読むにはメイリオや新しいMSゴシックなどのフォントが必要です。

なお、InternetExplorerでこのページの表示フォントを変更するときは「日本語」ではなく「ラテン語基本」のフォントを変える必要があるので注意。
どうやらページの文字コードがUTF-8だと日本語扱いされないようだ。


-----

最近UnicodeやJISコードに仮名が増えた。
まず、アイヌ語用のカナ。
ㇰㇱㇲㇳㇴㇺㇷ゚
ㇵㇶㇷㇸㇹ
ㇻㇼㇽㇾㇿ
セ゚ツ゚ト゚
そして鼻濁音のかな・カナである。
か゚き゚く゚け゚こ゚カ゚キ゚ク゚ケ゚コ゚

これに対するローマ字を考えたい
ことえりにはアイヌ語変換モードがあるようだが、どうも自分の思っているものとはコンセプトが違う。
http://sapporo.cool.ne.jp/kumanesir/kotoeri4_kanahenkan.htm
これはアイヌ語の音韻体系になるべく忠実に変換できることを目指しているようである。
きっと生粋のアイヌ語ネイティブにはそっちの方が使いやすいのだろうけど、旧来のローマ字入力に慣れた身には非常に使いづらく感じる。

そこでここでは旧来のローマ字との互換性を第一に考える。
つまり、
1. 既存のローマ字にかぶらないこと
を絶対条件とする。
またその他の条件として、
2. 文字の音に合っていること
3. 打ちやすいこと
も重要である。
この条件で考えていこう。

◆鼻濁音◆
普通に考えると、
nga→か゚、ngi→き゚、ngu→く゚、nge→け゚、ngo→こ゚
が自然である。
しかしこれでは旧来の「んが」とかぶってしまうため第1の条件を満たさない。残念ながらこれは使えない。

・gna→か゚
このローマ字は使われていないので第1の条件は満たす。
第2の条件だが、nとgを使っているのである程度は分かりやすいと考えられる。
もっとも、gnaを普通に読むとすれば「ニャ」になってしまうのであまり好ましくはない。

・gha→か゚
第1条件を満たすのは同じ。
gnaより優れている点として、ghaはどう頑張っても「ガ」以外には読めないという点がある。
ヒンドゥー語あたりだと区別があるみたいだけどカナにすれば同じ「ガ」。gnaはカナ表記からして「ガ」でない。
また、翻字の不文律「困ったらhを使え」(*)にも適合する。

*持論。
ローマ字入力で例を挙げれば、
「てゃ」はtyaにしたいところだが「ちゃ」とかぶるのでtha
「でゃ」も同様
「てぃ」はtiにしたいところだが「ち」とかぶるのでthi
「うぉ」はwoにしたいところだが「を」とかぶるのでwho
さらに、世界の言語でhほど多様な使われ方をされる文字はない。
aspiratedの bh, dh, gh, kh, ph, th, ch
中国語拼音のsh, zh, chとあと拼音じゃない中国語翻字にはhsなんてのも
ニャの nh
ギリシャ語翻字のph, rh, th,
おなじみのsh, ch, wh,
と何でもござれの様相である。

◆アイヌ語カナ◆
これは3つのグループに分けられる。
音節末の子音を表す文字
・ㇰㇱㇲㇳㇴㇺㇷ゚
音節末の子音を表すが、その前の母音の影響も受ける文字
・ㇵㇶㇷㇸㇹㇻㇼㇽㇾㇿ
普通に子音+母音を表す文字
・セ゚ツ゚ト゚

簡単な最後のグループから考えよう。
【セ゚】
発音は、普通のカナ表記ではチェに対応するらしい。
チェは既存のローマ字ではche、tye、cyeに割り当てられており、これを使えないとすると選択肢が少ない。
あまり使われなさそうなところで
・cye→セ゚
としてしまってもあまり問題は起こらなそうだ。
その他にチェと読めそうなローマ字を考えてみると、
・ce→セ゚
が一番適切だと思う。
実はceでは「せ」が出るのだが、使っているやつはまずいないだろう。
いや「ce→せ」は使ってるぜという珍しい方には、
・the→セ゚
をお勧めする。
まあ実はtheでは「てぇ」が出るのだが。
…うーむ、どうやっても既存のローマ字にかぶってしまうなあ。発音が同じというのはつらいものがある。
ここはもういっそのこと、チェ≒ツェということで
・tze→セ゚
としてしまってもいいかもしれない。

【ツ゚】
発音は「トゥ」に相当する。
これは困った。トゥのあたりは
tu→つ
thu→てゅ
tyu→ちゅ
twu→とぅ
とめぼしい所が全部押えられてしまっている。
tu系統で空きを探すとすれば
・txu→ツ゚
くらいだろうか。大分無理がある。
個人的には
tsu→つ
chu→ちゅ
tu→とぅ
thu→ツ゚
としたいところだが、tsuは打ちづらいのであまり人には勧められない。
文字的にツなのでtsu系統で考えてみると、
・tzu→ツ゚
がいいだろう。ドイツ語を考えればツとは読める。
いっそのことt-すらも諦めて、
・cu→ツ゚
・qu→ツ゚
あたりの空きに入れるという手もなきにしもあらず。
txuやtzuという指泣かせな配置より音に無理があっても打ちやすいcuやquの方が便利だろう。
ちなみにcuもquも「く」に割り当てられているが、まず使われないだろう。

【ト゚】
困ったことにこいつの発音も「トゥ」だ。
仕方ないので便宜的に母音をoにするほか無かろう。
つまりツ゚のローマ字のuをoにした
・txo→ト゚
・tzo→ト゚
・co→ト゚
・qo→ト゚
が候補である。

【小カナグループ1】
ㇰㇱㇲㇳㇴㇺㇷ゚
これはとりあえず打てるようにするだけなら簡単である。
旧来の小カナの記法に倣って、通常の文字のローマ字の頭にlまたはxを付けるようにすればよい。
例:
lshi→ㇱ
xto→ㇳ
2つ目のグループも同様だ。
lru→ㇽ
lha→ㇵ
しかしこれは音節末の子音を表すものなので、
例えば
koropokkur→コロポックㇽ
のように語尾に子音だけを打った場合に変換できるのが望ましい。

ここで一つの問題が生じる。
促音と区別がつかないのだ。
例えば「コロポックㇽらが」と打とうとすると「ころぽっくっらが」となってしまう。

これを解消する方法を探していく。
ㇴは「ん」と区別するのが大変なのでひとまず後回しにして、まずはㇰㇱㇲㇳㇺㇷ゚を考えよう。
それぞれ発音は
・ㇰ : k
・ㇱ/ㇲ : sh/s
・ㇳ : t
・ㇺ : m
・ㇷ゚ : p
の子音を表している。
ちなみにアイヌ語にはsとshの区別がないので普通語尾にsが付いたら「ㇱ」で表記する。
が、「ㇱ」と「ㇲ」を表記し分けなければいけない都合上
・ㇱ : sh
・ㇲ : s
としておく。
s→ㇱ
を優先するなら
z→ㇲ
とでもすればよいだろう。

さて、日本語唯一の子音字「ん」のローマ字入力を参考にしてみる。
・an→あn
・ann→あん
・ana→あな
・anna→あんあ
・annna→あんな
・anka→あんか
・annka→あんか

と、nには促音がないからうまくできている。
これを促音のある文字でやろうとすると、
・ak→あk
・akk→あㇰ
・aka→あか
・akka→あㇰあ
・akkka→あっか
・akkkka→あㇰか
・akta→あㇰた
・akkta→あㇰた
とでもするしかなくなる。
そもそも「あっか」と「あㇰか」って同じ発音じゃないのか。チェ/セ゚で見たように同じ発音で別の文字というのは翻字泣かせである。

とりあえずこれでは条件1を満たしていないのでちょっと変えて、
・ak→あk
・akk→あㇰ
・akka→あっか
・akkka→あㇰあ
・akkkka→あㇰか
とすれば少なくとも条件1は満たす。

しかし考えてみると
・ann→あん
・anna→あんあ
なのに
・akk→あㇰ
・akka≠あㇰあ
なのは変な気もする。
その辺の整合性を重視するとなると、

・ak→あk
・akk→あkk (ATOK「あっk」)
・akkk→あㇰ
・akka→あっか
・akkka→あㇰあ
・akkkka→あㇰか
か。
しかし「ㇰ」の一文字を打つのにkkkと3キーも使っている。
そんなんじゃlkuと変わらない。
ならばせめて
・ak→あㇰ
にしておけば語尾で即確定する必要があるものの楽に入力できる。
確定前の問題なので既存のローマ字とはかぶっていないと考えても良いだろう。


「ん」を参考にすると、実は他にも「ん」の打ち方がある。
・xn→ん
参考にしてみよう。
・axk→あㇰ
・axka→あㇰあ
・axkka→あㇰか
おっ、これはいいかもしれない。

…と思ったが、これでは
・xku→ㇰ
と両立できない。

そればかりか、
・xt→ㇳ
なので
「ㇳう」のつもりでxtuと打つと既存の「っ」とかぶってしまう。これは没だ。

・n'→ん
ほとんどの人が知らないと思われる「ん」の入力法である。
MSIMEで可能なので嘘だと思うなら試してみるとよい。
ただし、一度でもこの変換を行うと次から「ん」の変換候補に全半角・大小文字の「N'」が追加されて邪魔であるので注意が必要である。
これを参考にすると、
・ak→あk
・ak'→あㇰ
・ak'a→あㇰあ
・ak'ka→あㇰか
となる。
分かりやすいが、「'」が絶望的に打ちにくいのが欠点である。

上の2つを合わせてみよう。
・kx→ㇰ
だ。
すると、
・ak→あk
・akx→あㇰ
・akxa→あㇰあ
・akxka→あㇰか
おっ、これはなかなかいいのではないだろうか。
kxの時点でㇰが確定しているので、次の文字と混じる心配がない。
それに、今までの方法では打てなかったㇴもnxで問題なく打てる。

なお、次の子音と混ざる心配がないときはk一発で出せるようにする。
・akta→あㇰた

【小かなグループ2】
ㇵㇶㇷㇸㇹㇻㇼㇽㇾㇿ
これは音節末のh,rの子音だが、前の母音の色を帯びる性質がある。
ドイツ語系のchみたいなものである。
bach→バッハ、ich→イッヒ、buch→ブーフ、gogh→ゴッホ
別扱いしてみたが、よく考えてみると打ち方としては上と変わらない。
単に内部処理が面倒になるだけである。
ahx→あㇵ
ihx→いㇶ
のように同じキーでも前の文字を見て処理を変える必要がある。長音符号の後も考えると複雑だ。
前に文字がないときは標準でウ段にしておけば良いだろう。
ちなみにこれでは例えば「あㇶ」や「えㇽ」のように前の母音と違う小文字が一発で打てなくなるが、多分文法的に存在しない組み合わせなのであろうから気にする必要はない。
例えばローマ字入力で「もょ」を一発で打つ方法がないのと同じことである。

…とは言ったものの、外国語の表記で使いたくなることもあるかもしれない。
というのも、個人的にこのアイヌ用小カナは韓国語表記のためにあるように感じてならないのだ。
韓国語用に使うためには前の母音にかかわらず「ㇽ」は出したい。ついでに「ㇷ」も同じように出せる。
さてどうしたものか…。
hhxとrrxが妥当な線かな。また3文字になってしまったが。
あとは「'」で区切るのが見た目的に分かりやすい。
…これを「x」で区切るわけにはいかないだろうか。
xhだけだとxha,xhiなどと区別がつかないのでそういうときにはxhx。

例:シㇽレ
shire→シレ
shirre→シッレ
shirxre→シㇼレ

shirrxre→シㇽレ
shi'rxre→シㇽレ
shixrre→シㇽレ
なおxrreは最初のxのおかげで「っれ」とかぶる心配がない。


暇があったらこれで変換プログラム作ってみようかな…。