たまりば

  パソコン・インターネット パソコン・インターネット  三鷹市 三鷹市

新しいGoogle翻訳は日本語からドイツ語に翻訳が出来る(場合がある)
2016年11月17日 00:17

Google翻訳がニューラルネットワークを使用した新しい翻訳システムを導入したというのでちょっとしたテストをしてみた。これがとても興味深い結果だった。
なんと新しいGoogle翻訳は日本語からドイツ語に翻訳が出来るのだ。
今までも出来ていたって?
そうではない。今まで、中・韓・英以外言語と日本語との間の機械翻訳は「日↔英」と「英↔X」の2段階の翻訳であった。
Google翻訳だけでなく、ExciteもYahooもInfoseekもそうだった。おそらく今まで実用的な翻訳機は存在していなかったと思う。
そのぼやきと、同綴異義語を使ったテスト方法については2年ほど前にブログに書いたので読んでもらいたい。→Yahoo翻訳が残念だ ~ついでに機械翻訳考~

それが今回同綴異義語テストを試してみると、日本語からドイツ語への直接翻訳が出来ることもあるという結果が出た。
まず英訳して同一の文章に翻訳されることを確認。
Google翻訳_英語同綴異義語テスト_英語
続いてドイツ語に翻訳してみると、以下の通り。
Google翻訳_英語同綴異義語テスト_ドイツ語
蝙蝠/バットを正しく翻訳できている。これは間に英語を挟んでいてはまず不可能なので、直接翻訳していることを強く示唆する。
一方で、鱗/秤と軽い/光は訳し分けられず、お辞儀/弓に至っては真逆に訳している(Bogen: 弓、Verbeugung:お辞儀)。これは非常に興味深い。
この誤訳は間に英語が介在していない限りありえない誤訳である。それでいて英語に訳してしまっては失われる違いを残している。
中で何が起こっているのだろう。日本語からドイツ語へ直接通じるネットワークもあり、途中に英語を介して通じるネットワークもあるといったところだろうか。
最近のWebサービスは日を追うごとに変化していってしまうのでこの不思議な状態になっている期間も長くないだろう。今のうちに色々試してみると面白いと思う。

なおドイツ語で試したが他の言語でも同様だと思う。単にドイツ語が英語以外の欧米語の中で一番私が理解しやすい気がするからテスト対象に選んだだけである。  

  • 点字の特殊音の規則性について
    2016年11月06日 03:34

    ふと「ディ(ティ)」の点字が思い出せず「点字 特殊音」あたりでググって見つけた。
    それはよいのだが、見つけたページの大半がただ並べているだけで、規則性についての説明がない。
    更には「規則性は無いので覚えよう」とか「覚えられません助けて」「頑張れ」のようなものもあった。

    いや規則性めっちゃあるよね。

    不規則な部分もあるにはあるが、大半は普通の点字や日本語の音韻体系から類推できる。
    ちょっと解説してみよう。

    まず点字の通常の音の表記は既に理解していることを前提とするが、特殊音の説明の下準備として軽くまとめる。

    日本語の点字はローマ字に対応させると分かりやすい。
    まずは清音の点字と墨字の対応をローマ字とあわせて表にしよう。
     ∅a∅i∅u∅e∅o 
     KaKiKuKeKo 
     SaSiSuSeSo 
     TaTiTuTeTo 
     NaNiNuNeNo 
     HaHiHuHeHo 
     MaMiMuMeMo 
    -- Ya--Yu--Yo ----
     RaRiRuReRo 
    - WaWi--WeWo --
    (∅は子音なしを表す)

    点字の拗音は、対応する清音の前に拗音符「⠈」を付ける。
    ⠡ Ka カ → ⠈⠡ Kya キャ
    「⠡」が「Ka」に相当し、「⠈」が「y」に相当する。
    表にしよう。
    ⠈⠁⠈⠃⠈⠉⠈⠋⠈⠊ ∅ya∅yi∅yu∅ye∅yo ×××イェ×
    ⠈⠡⠈⠣⠈⠩⠈⠫⠈⠪ KyaKyiKyuKyeKyo キャ×キュキェキョ
    ⠈⠱⠈⠳⠈⠹⠈⠻⠈⠺ SyaSyiSyuSyeSyo シャ×シュシェショ
    ⠈⠕⠈⠗⠈⠝⠈⠟⠈⠞ TyaTyiTyuTyeTyo チャ×チュチェチョ
    ⠈⠅⠈⠇⠈⠍⠈⠏⠈⠎ NyaNyiNyuNyeNyo ニャ×ニュニェニョ
    ⠈⠥⠈⠧⠈⠭⠈⠯⠈⠮ HyaHyiHyuHyeHyo ヒャ×ヒュヒェヒョ
    ⠈⠵⠈⠷⠈⠽⠈⠿⠈⠾ MyaMyiMyuMyeMyo ミャ×ミュミェミョ
    ⠈⠑⠈⠓⠈⠙⠈⠛⠈⠚ RyaRyiRyuRyeRyo リャ×リュリェリョ
    表の「×」は、規則性から考えてその位置に対応する墨字が無いことを示す。(未定義のものと、規則から外れる墨字に対応するものがある)
    灰色で示した墨字は、本来未定義なのだが、規則性を分かりやすくするため、規則から想定される墨字を埋めた。
    というのも、どうも日本点字表記法の特殊音は国語審議会の示す『外来語の表記』に含まれる仮名と対応するように作られているらしく、これの第1・2表および
    特別な音の書き表し方については、取決めを行わず、自由とすることとしたが、その中には、例えば、「スィ」「ズィ」「グィ」「グェ」「グォ」「キェ」「ニェ」「ヒェ」「フョ」「ヴョ」等の仮名が含まれる。
    と示された例のみが含まれ、それ以外は規則的に表せる文字でも含まれていない。
    規則性を考える上であえてこれらの不規則に抜けている箇所を覚える必要性は薄いだろう。

    濁音・半濁音は文字の前に濁音符「⠐」・半濁音符「⠠」を付ける。
    ⠐⠡ ガ
    ⠠⠥ パ
    説明の都合上、ローマ字を変形した次のような表記をする。
    ⠐⠡ Ka゛ ガ
    ⠠⠥ Ha゜ パ
    表にしよう。
    ⠐⠁⠐⠃⠐⠉⠐⠋⠐⠊ ∅a゛∅i゛∅u゛∅e゛∅o゛ ××××
    ⠐⠡⠐⠣⠐⠩⠐⠫⠐⠪ Ka゛Ki゛Ku゛Ke゛Ko゛ 
    ⠐⠱⠐⠳⠐⠹⠐⠻⠐⠺ Sa゛Si゛Su゛Se゛So゛ 
    ⠐⠕⠐⠗⠐⠝⠐⠟⠐⠞ Ta゛Ti゛Tu゛Te゛To゛ 
    ⠐⠥⠐⠧⠐⠭⠐⠯⠐⠮ Ha゛Hi゛Hu゛He゛Ho゛ 
    ⠠⠥⠠⠧⠠⠭⠠⠯⠠⠮ Ha゜Hi゜Hu゜He゜Ho゜ 

    そして拗音符と濁音符・半濁音符は合体して1マスになる。
    ⠘⠡ Kya゛ ギャ
    ⠨⠥ Hya゜ ピャ
    表にしよう。
    ⠘⠡⠘⠣⠘⠩⠘⠫⠘⠪ Kya゛Kyi゛Kyu゛Kye゛Kyo゛ ギャ×ギュギェギョ
    ⠘⠱⠘⠳⠘⠹⠘⠻⠘⠺ Sya゛Syi゛Syu゛Sye゛Syo゛ ジャ×ジュジェジョ
    ⠘⠕⠘⠗⠘⠝⠘⠟⠘⠞ Tya゛Tyi゛Tyu゛Tye゛Tyo゛ ヂャ×ヂュヂェヂョ
    ⠘⠥⠘⠧⠘⠭⠘⠯⠘⠮ Hya゛Hyi゛Hyu゛Hye゛Hyo゛ ビャ×ビュビェビョ
    ⠨⠥⠨⠧⠨⠭⠨⠯⠨⠮ Hya゜Hyi゜Hyu゜Hye゜Hyo゜ ピャ×ピュピェピョ

    ここまでが点字の基本だ。
    特殊音に分類されるヴおよびイェ段が入っているが規則的なので説明は不要だろう。

    次に特殊音で導入された新たな記号を紹介しよう。
    ⠢⠡ Kwa クァ
    「⠈」が次の文字を拗音にするのに対し、「⠢」は次の文字を合拗音にする。
    合拗音とは/w/音の入った音のことで、古くは火事(くゎじ)などの日本語に使われたが現代では外来語にしか使われない。
    この記号に正式な名前は無いようだが、それでは説明しづらいのでここでは便宜的に「合拗音符」と呼ぶことにしよう。

    新たな記号はこの1つだけだ。

    合拗音符を使った規則的な点字を表にしよう。
    ⠢⠁⠢⠃⠢⠉⠢⠋⠢⠊ ∅wa∅wi∅wu∅we∅wo ×ウィ×ウェウォ
    ⠢⠡⠢⠣⠢⠩⠢⠫⠢⠪ KwaKwiKwuKweKwo クァクィ×クェクォ
    ⠲⠡⠲⠣⠲⠩⠲⠫⠲⠪ Kwa゛Kwi゛Kwu゛Kwe゛Kwo゛ グァグィ×グェグォ
    濁音符と合拗音符が合体するのはいいだろう。

    さてこれ以降はローマ字との対応が不規則になる。とはいえ大半はそこまで突拍子のない墨字に割り当てられるわけではない。十分理解可能だ。

    ⠢⠥⠢⠧⠢⠭⠢⠯⠢⠮ HwaHwiHwuHweHwo ファフィ×フェフォ

    ファは普通/fa/音に対応するものだが、外国語に含まれる/hwa/をファで表記する(そして/fa/で読む)ことも一般的だ。
    例えば、
    ファーウェイ (華為; Huawei)
    ファン・ウソク (황우석; Hwang U Sŏk)
    パブロ・ディエゴ・ホセ…ファン…ルイス・イ・ピカソ (…Juan…)
    などの例がある。
    またローマ字入力でも、Fが無くAIUEO,KSTNHMYRW,「゛゜小」の15キーで入力するものではファ行がHWAに割り当てられていたり、Google日本語入力のローマ字テーブルでもHWAでファが打てたりする。
    ファ行がHwaになるのはそう不思議なことではないだろう。

    ⠲⠥⠲⠧⠲⠭⠲⠯⠲⠮ Hwa゛Hwi゛Hwu゛Hwe゛Hwo゛ ヴァヴィ×ヴェヴォ

    Hwaが/fa/なのに対し、濁音符を足すと有声音の/va/になる。無声音有声音の対応から考えて自然である。合拗音符を無視すればバビベボに読めるのも嬉しいところだ。
    ここで規則性からいけば「⠲⠭(Hwu゛)」は「ヴ」になりそうなところだ。
    実際に1980年の改正前はそうだったのだが、現在は単純にウに濁音符を付けた「⠐⠉(∅u゛)」に割り当てられている。

    ⠢⠕⠢⠗⠢⠝⠢⠟⠢⠞ TwaTwiTwuTweTwo ツァツィ×ツェツォ

    /twa/でなく/tsa/なのは不規則で、これは覚えるほかない。
    ただ、記号を増やすのも覚えにくいので、余っている記号を使ったと考えれば仕方なくはある。

    ⠈⠗ Tyi ティ
    ⠢⠝ Twu トゥ
    これはチャ行とツァ行の隙間に入れられていることが分かる。
    ⠈⠕⠈⠗⠈⠝⠈⠟⠈⠞ TyaTyiTyuTyeTyo チャティチュチェチョ
    ⠢⠕⠢⠗⠢⠝⠢⠟⠢⠞ TwaTwiTwuTweTwo ツァツィトゥツェツォ

    不規則だが、日本語の音韻の不規則さからタ行イ段が/ti/でなく/tʃi/、タ行ウ段が/tu/でなく/tsu/になっている中、余りがそこしか無かったということだろう。
    これを日本点字表記法では「子音の取り替え」「行の補正」と表現している。
    つまり、タ行にはチャ行ツァ行の子音をもつ音が紛れ込んでいるので、それで追い出された音をチャ行ツァ行と交換するというわけだ。
    ⠢⠕⠢⠗⠢⠝⠢⠟⠢⠞ /tsa//tsi//tu//tse//tso/
     /ta//tʃi//tsu//te//to/
    ⠈⠕⠈⠗⠈⠝⠈⠟⠈⠞ /tʃa//ti//tʃu//tʃe//tʃo/
    ところでPCのローマ字入力でもティ・トゥについては同じ問題に直面し、こちらではトゥは同じくTWUだが、ティに関してはいわば第3の拗音というべき「H」を用いてTHIとすることで解決している。

    さて混乱させるようだが、1980年の改定以前はティ・トゥの点字は
    ⠠⠗ Ti゜ ティ
    ⠠⠝ Tu゜ トゥ
    と半濁音符を使っていた。
    アイヌ語表記でセ゚・ツ゚・ト゚と半濁点を使うこともあり、半濁音符の用法としてそこまでおかしいものではない。さらに子音の同じティとトゥで同じ規則が使える、なかなかよい表記だったように思う。
    ではなぜ変更されてしまったのか。この理由については「日本の点字 第6号」に解説されているが、外字符との衝突のせいである。
    ティ・トゥはよいのだが濁音のディ・ドゥでは半濁音符+濁音符をつけることになり、これが外字符と同一なのである。
    ⠰⠗ Ti゜゛ ディ → 外R
    ⠰⠝ Tu゜゛ ドゥ → 外N
    これを変更することで単語中で外字を使うことが可能になったらしい。語頭の外字とディ・ドゥも文脈で判断する必要があったことになるし、変更もやむなしというところか。

    ⠨⠝ Tyu゜ テュ
    これは、旧表記のトゥ「⠠⠝(Tu゜)」に拗音符を足したものだ。
    ティ・トゥが変更されてこれだけ残ったせいで不規則になってしまっているが、旧表記を知れば規則的だったことが分かる。
    なお現表記のトゥ「⠢⠝(Twu)」に拗音符を足そうと「拗音符+合拗音符」を作ると「⠪(コ)」になってしまう。

    ⠈⠳ Syi スィ
    墨字のスィは、特に/ʃi/と区別して/si/を表す場合(例: スィー(C))と、/swi/を表す場合(例: スィーツ)がある。
    点字の表記は墨字のカナに対応付けて定義されているためこれを区別することはないだろうが、この点字表記の由来を考えると/si/の方のようだ。
    これは「日本の点字 第15号」p9にある1990年の改定の素案で発音記号表記として「si」となっていることから伺える。
    よって/ti/・/tu/のときと同様に、シャ行との交換と見ることができる。
     /sa//ʃi//su//se//so/
    ⠈⠱⠈⠳⠈⠹⠈⠻⠈⠺ /ʃa//si//ʃu//ʃe//ʃo/
    この表記は1990年の改正で導入されたものだが、もし1980年以前に存在したならきっと「⠠⠳(Si゜)」で表記されていたことだろう。

    以上4つ、濁音符を足せば対応する濁音になる。
    ⠘⠗ Tyi゛ ディ
    ⠲⠝ Twu゛ ドゥ
    ⠸⠝ Tyu゜゛ デュ
    ⠘⠳ Syi゛ ズィ

    さて最後だ。
    ⠨⠌⠨⠬⠨⠜ Yya゜Yyu゜Yyo゜ フャフュフョ
    ⠸⠌⠸⠬⠸⠜ Yya゜゛Yyu゜゛Yyo゜゛ ヴャヴュヴョ

    …これは怒っていい。
    子音は合ってないし、ローマ字に対応させると「Yy」なんて意味の分からない表記だし、更に半濁点まで付いている。
    ただ、まあ、他に思いつかなくはある。
    これらは1990年の改定で追加されたものだが、その時点でH系には既に
    ⠐⠥⠐⠧⠐⠭⠐⠯⠐⠮ Ha゛Hi゛Hu゛He゛Ho゛ 
    ⠠⠥⠠⠧⠠⠭⠠⠯⠠⠮ Ha゜Hi゜Hu゜He゜Ho゜ 
    ⠈⠥⠈⠧⠈⠭⠈⠯⠈⠮ HyaHyiHyuHyeHyo ヒャ×ヒュヒェヒョ
    ⠘⠥⠘⠧⠘⠭⠘⠯⠘⠮ Hya゛Hyi゛Hyu゛Hye゛Hyo゛ ビャ×ビュビェビョ
    ⠨⠥⠨⠧⠨⠭⠨⠯⠨⠮ Hya゜Hyi゜Hyu゜Hye゜Hyo゜ ピャ×ピュピェピョ
    ⠢⠥⠢⠧⠢⠭⠢⠯⠢⠮ HwaHwiHwuHweHwo ファフィ×フェフォ
    ⠲⠥⠲⠧⠲⠭⠲⠯⠲⠮ Hwa゛Hwi゛Hwu゛Hwe゛Hwo゛ ヴァヴィ×ヴェヴォ
    があり、
    ⠸⠥⠸⠧⠸⠭⠸⠯⠸⠮ Hya゜゛Hyi゜゛Hyu゜゛Hye゜゛Hyo゜゛
    を残し全ての行を使い切ってしまっている。
    ここでフャ行ヴャ行の2つをどこに入れるかと考えると、別の子音の行に入れるしかなかったのだろう。
    フュ・ヴュだけならまだHwuとHwu゛に入れることもできた。実際「日本の点字 第15号」の案ではそうなっていたのだが、おそらくは国語審議会の答申に「例えば」としてフョ・ヴョも含まれたために変更されたのだろう。
    (11/12追記)なお半濁音符まで使っている理由だが、「⠈⠬(Yyu)」「⠈⠜(Yyo)」「⠘⠬(Yyu゛)」「⠘⠜(Yyo゛)」としてしまうと、濁音符+拗音符「⠘」が小文字符と衝突するためである。

    以上まとめると、点字の特殊音に関して覚えることは、
    ・合拗音符が追加
    ・hw行はファ行
    ・tw行はツァ行
    ・日本語の音韻体系の不規則性のために収まらない音は行を交換する
    ・ティ・トゥに昔は半濁音符を使っていた名残りがテュ
    ・フャ行ヴャ行だけは本当に不規則
    といったところである。フャ行ヴャ行を除けばさほど不規則でもないことが分かっていただけただろうか。


    ところで余談だが、墨字ではヤ行イ段/ji/やワ行ウ段/wu/の仮名が無い。
    またハ行ウ段「フ」は/fu/音のため、/hu/の表記法もない。
    このため、yearとear、fooとwhoの区別がつかなかったり、/u/と/wu/も単語は思いつかないが表記し分けられず困ることがある。
    しかし点字ではこれらの音に規則的に対応付けられるパターンが残っている。
    ⠈⠃ ∅yi /ji/
    ⠢⠉ ∅wu /wu/
    ⠢⠭ Hwu /hu/
    外国語学習者は使うと便利かもしれない。

    (ツイート表示用画像→Yyo゜゛)