機械翻訳の使用を控えるべき言語や文書とは？（2023年1月現在）

Acima Corp.
2023年1月12日
読了時間: 7分

近年、機械翻訳は大きく進歩しており、日々その精度は高まっていますが、まだまだ人間による翻訳ほど正確で信頼できるものにはなっていません。特に、言語ペア（オリジナル言語とターゲット言語のペア）によっては、機械翻訳を使用することによって、内容の混乱を招いたり、不正確な表現が発生する事態となる可能性が高くなる場合があります。

今回は、どのような場合に機械翻訳の使用を控えるべきかをお伝えしていきたいと思います。

1. リソースの少ない言語

機械翻訳のアルゴリズムは、「学習」するために多くのデータを必要とします。つまり、最小限のリソースしか得ることができていない言語については、他の言語に比べて十分なデータが確保されていないため、訳出が困難になります。これは、絶滅の危機に瀕している言語や、小さなコミュニティで使用されているいわゆる希少言語（マイナー言語）と呼ばれている言語です。機械翻訳システムは、これらの言語を理解し、再現することが困難であると言えます。なぜなら、機械翻訳システムに学習させるための相当なテキストコーパス（テキストコーパスとは、個別言語や、個別の作家のテキスト、母語話者の発話記録などを網羅的に集めたものを指す。）がない場合があるからです。当然、そのような言語については、辞書や文法書などの言語学的な補助ツールが存在しないため、人間の翻訳者が翻訳作業を行う際にも困難が伴いますので、機械翻訳であるのならなおさらです。よって、希少言語などのリソースの少ない言語については、人間の翻訳者に頼るべきであると言えます。

2. 複雑な言語

アラビア語、ロシア語、中国語など、特に複雑な文法を持つ言語は、機械翻訳には対応できない場合がよくあります。このような言語には、独特の文法構造、口語的な慣用句、文化的な言及があり、機械翻訳システムが理解し翻訳するのが困難な場合があります。例えば、アラビア語は右から左へ書く独特の書き方をしており、名詞や動詞に多くの形式を含む複雑な文法があります。また、中国語は声調言語であるため、発音の仕方によって単語の意味が異なる場合があります。

それでは、私たちの母国語である日本語の場合はどうでしょうか？

日本語もまた、翻訳するのが最も難しい言語の1つであると広く考えられています。日本語が翻訳しにくい言語とされる理由は以下の通りです。

複雑な文字体系：日本語は、漢字、ひらがな、カタカナという3つの文字体系の組み合わせで成り立っています。漢字は言葉や概念を表す漢字の集合体であり、非ネイティブ話者がその意味や使い方を理解するのは難しいことです（日本人でも難しいと考える言葉がいくつも存在するほどですね）。ひらがなとカタカナは、漢字で表せない言葉を書くのに使われる音節文字であると言えます。これら3つの文字体系を合わせなければならない日本語は読み書きが複雑であり、理解が困難な言語だと言えます。

独特な文の構造：日本語には独特の文型があり、それらは非ネイティブや外国人には理解しにくい場合があります。動詞が文末に来ることが多い日本語は、文脈を知らないと文意を理解するのが難しいのです。日本語では、更に主語や目的語が省略されることがとても多く、場合によっては日本人であっても文の意味を理解するのが難しいことがあります。

習慣的（広く一般的）に用いられている表現：日本語には英語に訳出するのが難しい慣用的な表現がたくさんあります。これらの表現は、それを構成している個々の単語の意味とは異なる意味を持つ場合が多くあります。例えば、「夏が好き」は、「I like Summer（私は夏が好き）」と訳出されますが、「夏」と「好き」はそれぞれ「夏(summer)」と「好き(like)」と訳出できますが、「（私は）」に相当する「I」は「夏が好き」という文章には存在していませんが、「私は」という意味であると考えるのが一般的です。しかし、機械翻訳の場合は、「一般的」であるということを理解できない場合があるということです。（※実際に、機械翻訳が「夏が好き」をI like Summerと訳せないというお話をしているのでありません。あくまでも「一般的な表現」についての説明する際にわかりやすい例として挙げています。）

文化の違い： 日本の文化は、西洋文化とは大きく異なり、日本語の多くの単語や表現は英語では直接的に対応するものがありません。例えば、日本語の「積読（つんどく）」は本を買って読まない習慣を指しますが、英語には直接相当するものがないため、翻訳が難しい場合があります。ちなみに「積読」をgoogle翻訳を使うとextensive readingと訳出されますが、extensive reading は、「多読（本をたくさん読むこと）」を意味するため誤訳となります。

敬語：日本語には複雑な敬語体系があり、丁寧さの程度や形式が異なります。このため、翻訳者は英訳する際に適切な形式と丁寧さのレベルを選択し、対応する言葉を選び、訳出する必要がありますので、日本語の文章を英語に訳すのが難しくなります。

つまり、日本語はその複雑な文字体系、独特の文章構造、慣用表現、文化の違い、敬語などの理由から、英語に翻訳するのが難しい言語であると言えるでしょう。日本語の文章を英語に翻訳するには、両言語の高度な流暢さに加え、日本文化や慣用表現への深い理解が必要ですので、2023年現在存在する機械翻訳システムでは、正確な訳出は非常に困難（または不可能）であると言えます。それでもどうしても機械翻訳を使用する場合は、必ずプロ翻訳者による確認作業が不可欠であるとお考え下さい。

少し脱線してしまいましたので、軌道修正いたします（失礼いたしました）。

3. 技術的・専門的な文書

機械翻訳には、専門的な文書や技術用語のニュアンスを理解することはできません。これらの文章には、一般的な文書にはない特殊な用語、専門用語、概念が含まれていることがよくあります。そのため、法律、医学、科学、金融などの技術文書や専門的な文書を翻訳する場合、不正確な表現が生じたり、混乱が生じたりする可能性があります。例えば、医学文書では、一つの単語が複数の意味を持つことがあり、ちょっとした翻訳ミスが重大な医療ミスにつながる可能性があります。また、法律関係の文書においては、たった一つの単語やフレーズの違いで文書全体の意味が変わってしまうことがあり、それが法律上の問題に発展してしまうことがあります。よって、専門分野の文書については人間の翻訳者を使うことが非常に重要です。

4. 慣用句の多い言語

英語やドイツ語など、慣用句の多い言語は、機械翻訳ではうまく対応できない場合があります。これらの言語には、慣用的な表現、口語表現、文化的な言及が多く、機械翻訳システムが理解し、再現することが困難な場合があります。慣用表現とは、それを構成する個々の単語の意味とは異なる意味を持つフレーズや表現です。例えば、英語では「to spill the beans」という慣用表現は「秘密を暴露する（ちなみに、直訳は、「豆をこぼす」です）という意味ですが、ドイツ語には「to spill the beans」という慣用表現は存在しません。このような慣用表現や口語表現は、機械翻訳システムにとって理解や再現が難しく、翻訳の不正確さや混乱につながる可能性があります。したがって、慣用的な言語には人間の翻訳者を使うべきと言えるでしょう。

いかがでしたでしょうか？機械翻訳システムは日々進化を遂げてはいるものの、使用にはまだまだ注意が必要です。人力翻訳にするか、機械翻訳を使ってもいいのかという点については、目的やニーズにもよるかと思いますが、2023年1月現在においては、特に私たちの母国語である日本語がかかわる翻訳については、やはり文脈、文化的参照、慣用的表現を理解する能力を持つ人間の、プロの翻訳者による翻訳を依頼されるほうがよいと思います。そして、もし事情があり機械翻訳を使うことになった場合には、必ず人間の翻訳者による修正（校正）の工程をお忘れなく！

それは、今回は、機械翻訳に向いていない翻訳の言語ペアについて書いてみました。

ーーーーーーーーーーーーー

翻訳に関するご質問等ありましたら、お気軽にアシーマまでお問い合わせください！

機械翻訳の使用を控えるべき言語や文書とは？（2023年1月現在）

最新記事

コメント