2020年10月09日

文字起こしのツボ「同音異義語」を数学的に考察する

文字起こしは時間との勝負でもあり、聞き間違いや入力ミスも許されないので、聴覚を研ぎ澄まして一心不乱に作業するのですが、ふと一息ついたとき、「言葉の不思議」についての思いが駆け巡るものです。そんなものの一つが同音異義語です。

 

文字起こしを数学的に考察する 

 

目次

1. 反訳実務家のささやかな欲求

同音異義語は、特にワープロソフトを使った文字起こしにおいて、誤変換を誘発する最大の要素といえます。耳では間違いなく聞き取れているし、頭でも適切な単語を思いついているというのに、キーボード操作の手もとが狂っただけで誤変換となってしまうため、反訳者にとって「要注意」の存在といえます。

そのように厄介な同音異義語があるのはなぜなのか。同音異義語をなくせないなら、せめて発生のメカニズムを知りたい――。こうした欲求に密かに駆られている反訳実務家は、私だけではないと思います。

 

そんな中、言語の起源に詳しい東京大学大学院総合文化研究科の岡ノ谷一夫教授による「『言葉』はどのようにして生まれたのか」という論考が目に留まりました。岡ノ谷教授はその冒頭で次のように指摘しています。

言葉とは、心の中に概念としてイメージできる要素をさまざまに組み合わせて、新しい概念を構成し、自分や他人に伝達することのできる道具だ。心に浮かぶ要素の一つひとつは、単語に相当する。だから、いろいろな単語を一定の規則で組み合わせて新しい表現、無限の表現ができるのが言葉だ

大雑把な解釈が許されるならば、「概念=言葉」であり、「概念としてイメージできる要素=単語」である、ということになるでしょうか。論考は「概念としてイメージできる要素」、すなわち「単語」の数的限界には触れていませんが、ものごとの変化や進化が加速している現代、新語や造語が日常的に生み出されているのを見ても分かるように、概念とともに、それに対応する単語も、限りなく増え続けていくのでしょう。

 

 

2. 同音異義語の数学的考察に挑戦

現在の日本語の場合、単語の仮名書きは発音のしかたと一致しています。すなわち、単語の仮名書きは、その単語をどう発音するかという「音韻の並び順」であるといえます。

 

だとすると、同音異義語が生じてしまうのは、単語として言い表される「概念」の数に比べて、「音韻の並び順」のバリエーションが少なすぎるからなのではないかと、素人である私は考えたくなります。

そして、「音韻」の数が少ない言語の場合には、「音韻の並び順」のバリエーションがより少なくなるため、同音異義語が多くなるという、反比例の関係が成り立つのでは……。そんなことも、初歩的な数学で解明できそうな感じもしないではありません。

 

……が、果たしてそれは本当でしょうか。

 

初歩的な数学で解明できるか?

 

3.「あ/か/さ/た/な……」の並び順は何通り? 単語の数とどちらが多い?

「音韻の並び順」が何通りあるかは、数学でいうと「順列」を計算することになります。「機器」「危機」のように、単語の中には同じ音韻が重なるものも存在するので、より正確には「重複順列」でしょうか。

そして、日本語におけるそうした「音韻の並び順」が何通りあるかは、そもそも日本語に幾つの音韻があるかによります。

 

日本語の母音は「あ・い・う・え・お」の5つです。母音を単独で、もしくは「か行~わ行」の子音に続けて、さらにはそれらを濁音・半濁音としたものや「ん」などによって、日本語のすべての音韻は成り立っています。その総数は、研究者による差はありますが、一般的に百余りといわれています。

 

やや乱暴ですが、ここでは仮に、日本語の音韻の数を100とします。異なる「n」個のものから重複を許して「r」個取ってできる順列の総数は「nのr乗」になりますから、

  • 音韻は一つだけでも  100の1乗 =      100とおり
  • 音韻を二つ使うなら  100の2乗 =    10,000とおり
  • 音韻を三つ使うなら  100の3乗 =   1,000,000とおり
  • 音韻を四つ使うなら  100の4乗 =  100,000,000とおり

の仮名書きが、理論上は可能ということになります。

 

ちなみに、

  • 岩波書店『広辞苑』第七版の収録語数=   約250,000語

とされています。ということは、「同音異義語は認めない」という世の中になったとしても、広辞苑に収録されている単語で表される概念は、音韻三つの重複順列(100万とおり)の範囲内で十分にカバーできることになってしまいます。

 

よって、同音異義語が発生するのは、単語あるいは概念の数に比べて、「音韻の並び順」のバリエーションが少なすぎるから、と考えるのは、数学的に無理がありそうです。

 

並び順は何通り?

 

4. 日本語の成り立ちの奥深さを知る

それにしても、不思議です。当サイトのコラム「単語登録を使いこなそう 文字起こしを効率化してスピードアップ」でも言及しましたが、たとえば「こうしょう」と仮名書き・発音する単語の場合、「交渉」「鉱床」「厚相」「考証」「工廠」……など、一般名詞だけで約50もの同音異義語があったりするのは、なぜなのでしょう。

 

音韻としては「こ/う/しょ/う」の四つから成る言葉なので、同様に四つの音韻から成る「音韻の並び順」としては、約1億とおりもの選択肢が理論上はあり得たわけです。

にもかかわらず、その中からわざわざ「こ/う/しょ/う」という並び順が選ばれ、しかも約50もの異なる概念に割り当てられてしまっている。素人の目には、同音異義語の乱発にしか見えず、合理的とは思えません。

 

ただ、改めて考えてみると、

  • 「ん」「っ」「ー」などで始まる単語はそうそう思いつかない → ランダムに「音韻の並び順」を発生させてみたところで、その相当数は生理的に不快な響きになってしまう?
  • 新しい概念に合わせて新たな言葉が生まれる場合でも、それが既存の概念から派生したり、既存の概念に近かったりすると、その音韻に引きずられてしまうし、まったく新しい「音韻の並び順」を割り当てることの方が現実的でなくなる?
  • 特に、その新しい概念が特定の漢字・漢語で表記される既存の概念と紐づいてしまっていると、「音韻の並び順」もその漢字・漢語の読みの制約を受ける?

――等々、日本人の感性や日本語の成り立ちに関する奥深い事情があるからこそ、同音異義語が生じると考えた方がよいかも知れません。

 

日本語の成り立ちの奥深さを知る

 

同音異義語を数学的に考察することの適否や、なぜ同音異義語が発生するのかについては、専門家の御研究に改めて学ぶこととし、次回は文字起こしの実務家の立場から、同音異義語とどう向き合うかについて掘り下げたいと思います。