エンフトル・ムンフウチラル氏は、2003年にモンゴル国立大学国語学部を卒業し、2005年に国語学修士号を取得しました。モンゴル国立大学国語アルタイ研究科教授、ボン大学モンゴルチベット研究科、ユニバーシティ・カレッジ・ロンドン人類学部客員研究員、檀国大学校外国学部モンゴル語研究科教授を歴任しました。2019年からチメゲシステムズ株式会社データチームリーダー、モンゴル国立大学モンゴル語研究科准教授を務めています。

ジャルガルサイハン:  こんにちは。私は最近、チメゲシステムを使い始めました。モンゴル語で音声自動文字変換システムができるとは思いもしませんでした。チメゲは音声を文字に変換し、また文字を音声に変換します。このシステムがいつ、どのように生まれたのか、これを開発する目的は何だったのかについて話を始めたいと思います。

E. ムンフウチラル: まずチメゲ・テクノロジーは、音声自動文字変換テクノロジーです。このテクノロジーがなぜ重要かというと、モンゴル語に関するあらゆる技術の発展において、これが最も困難だったからです。そしてさらに上級であるAI技術を開発する上で、音声認識、音声対話は必要不可欠です。例えば、まずスマホに話しかけ、スマホがこれを認識し、対応してから次のプロセスが可能となることからも分かっていただけるでしょう。

ジャルガルサイハン: モンゴル人がモンゴル語を使って機械、テクノロジーと対話できるようにするわけですか?

E. ムンフウチラル: そうです。

ジャルガルサイハン: 21世紀前半に各民族がしなければならない仕事の一つなのですね。国民全員が英語を習得してからテクノロジーと対話させようと思ったら時間がかかります。ですから、あなたと私が話している言語、モンゴル語を機械が認識できるようにするという難問を解いたわけですね。

E. ムンフウチラル: その通りです。世界にはこれからのデジタル時代の到来でも、それぞれの言語が存在し、対応するために真っ先に行うことが母語によるデジタル化です。私たちは今までモンゴル語を人に教えていました。チメゲは機械にモンゴル語を教えています。最初にこれを試した結果、認識率85%でした。

ジャルガルサイハン: それは何年のことですか?

E. ムンフウチラル: 2019年です。85%ということは、私たちの会話の85%を認識し、文字に変換するということです。しかしこれはテクノロジーとして使用される上では十分ではありません。国際水準は90%以上です。ですから私たちは改善に務めました。そして2020年9月24日に発表した時には97%の認識率でした。

ジャルガルサイハン: モンゴル語の方言にはどう対応していますか?

E. ムンフウチラル: このシステムは主にはハルハ方言に基づいていますが、開発にはなるべく多くの方言を含めることを目指しました。80歳のバヤド方言の女性が話しても認識します。

ジャルガルサイハン: ボリアド方言はどうですか?

E. ムンフウチラル: ボリアド方言、ウブス県など西部方言なども含まれています。しかし、音声自動文字変換システムにとって最も重要なのは音声の質です。周辺音がない音声であればあるほど正確に変換できます。

ジャルガルサイハン: 10分間の話が文字に変換された際、そのわずか3%に間違いがあり得るということですね。

E. ムンフウチラル: その精度の可能性があるということです。

ジャルガルサイハン: モンゴル語での人と人との交流、人と機械との交流において革新的な進歩だと思います。実際の使用について話を進めていきたいと思います。チメゲは国家大会議、裁判での記録などでも使われていますか?

E. ムンフウチラル: 公式発表前の2019年から有償で使用したいという依頼が来ていました。しかし、私たちは認識度を上げてから使用してもらいたいと思っていたので、少し待ってもらいました。そして2020年から徐々に使用されていきました。今では国家大会議事務局を始め、テクノロジーを使って費用と時間を削減し、効率を上げたいと考える全ての企業がこれを使っています。

ジャルガルサイハン: 国家大会議での1時間の話を人が文字に変換するのに、何人でどれくらいの時間をかけていたことが、どう変わりましたか?

E. ムンフウチラル: チメゲ・テクノロジーを使って頂きたい一番の理由が時間です。国家大会議には記録部という部署があります。20年以上会議の録音を文字に起こす仕事をしてきた専門家がいます。彼らは1時間の録音を3時間〜5時間で文字に起こします。

ジャルガルサイハン: では、私たち素人では10時間〜20時間ほどかかりそうですね。

E. ムンフウチラル: 専門家は1時間の録音の音声文字変換に3時間〜5時間を要し、一般人は3時間〜8時間を要するという国際的な平均値があります。チメゲ・テクノロジーは1時間の録音を4分で文字に変換します。人より45倍〜120倍の速度で仕事をこなすということです。

ジャルガルサイハン: あなたのような教授であれば一つの講義を文字に変換し、読んでもらいたいと思えば4分の作業となるわけですね。

E. ムンフウチラル: そうです。

ジャルガルサイハン: 音声を文字に変換するのは分かりました。では文字を音声に変換するのはどうですか?

E. ムンフウチラル: テキスト・トゥ・スピーチというテクノロジーがあります。まず、文章を読み込み、それをAIが読み上げるという機能です。

ジャルガルサイハン: 誰かが読み上げるのではなく、AIが読み上げるのですね。AppleのSiriのようなものですね。

E. ムンフウチラル: そうです。聞き取りは人と同じです。私たちは人と同じように書き、人と同じように話すテクノロジーを作ろうとしています。人々は「これは誰かが読んでいるんじゃないか」と言います。人の音声と聞き違えるぐらいだと良い結果と言えます。

ジャルガルサイハン: 声の性別は変えることができますか?

E. ムンフウチラル: できます。男性と女性という選択肢があります。

ジャルガルサイハン: 文字音声変換はどこで良く使われますか?

E. ムンフウチラル: チメゲ・テクノロジー発表前に使用されたのがバス内のバス停の読み上げでした。

ジャルガルサイハン: バス内で「次のバス停は…」と言っていたのが人ではなく機械だったということですか?

E. ムンフウチラル: そうです。

ジャルガルサイハン: 不思議ですが、これは機械が人の労働に代わることの一例です。今、小学校に入学している子どもが大学を卒業した際、今ある職業の65%が無くなっているという研究結果があります。その理由は、機械が人間に代わって話をし、仕事をし、管理するようになるからと言われています。

E. ムンフウチラル: そうです。AI技術の発展に関して、世界中で2つのことが言われます。一つは、AI技術の発展は人の労働、費用、時間のロスを省き、生産性を向上するということです。もう一つは、人がどうなるかということです。これについて言っておきたいことがあります。モンゴルは1億人、10億人の人口を有する国ではありません。何億人もの人口の国と同レベルまで発展し、同じような生活を望んでいます。そのためにはモンゴル人一人に割り当てられる負担が、他の国の国民一人の何倍にもなるということです。ですから、モンゴル人はこの技術の進化を可能な限り使うべきです。

ジャルガルサイハン: モンゴル国内にいるモンゴル人、モンゴル国外に住むモンゴル人を合わせても2000万人に達しないでしょう。2000万人が2億人の人口の国と技術的には何ら変わらない状況となりましたね。

E. ムンフウチラル: そうです。

ジャルガルサイハン: 労働生産性において、モンゴル語で話すのが原因で他の人から遅れたり、あるいは外国語を強いられたりするのは納得いきませんからね。しかし、例えばモンゴル語のみ分かる男性が英語を学ぼうとする際に、チメゲ・テクノロジーを使って何かメリットはありますか?

E. ムンフウチラル: 言語とはコミュニケーションツールです。コミュニケーションとは基本的に対話することです。対話の場にとりあえずモンゴル語を備えて置いたということです。次に、他の言語をそこに加え、対話ができるようになります。

ジャルガルサイハン: 実際、例えばwikipedia、googleにアクセスする際に音声マイクのアイコンがあります。そこを押すと発音を教えてくれます。アメリカ英語、オーストラリア英語で異なる発音をします。ボロル・ソフト社はモンゴル初となる「ボロル・トリ」電子辞書を作りました。今、「ボロル・トリ」では言葉を発音してくれますか?

E. ムンフウチラル: します。チメゲ・テクノロジーを追加したので、今は英語とモンゴル語の発音をします。ですからモンゴル語学習者は、発音してくれる人を探す必要なく勉強できることになります。

ジャルガルサイハン: それはもう出来ましたか?

E. ムンフウチラル: 出来ました。それが「チメゲ・ウンシグチ(リーダー)」です。

ジャルガルサイハン: 先ほどは「チメゲ・ビチェーチ(タイピスト)」の話をしました。他にどういう商品がありますか?

E. ムンフウチラル: 商品としてリリースしているものが4つあります。まず、会議などの議事録を4分で文字に変換できる「チメゲ・ビチェーチ(タイピスト)」です。次に、テキストを読み上げる「チメゲ・ウンシグチ(リーダー)」です。さらに、「チメゲ・ガル(キーボード)」というのがあります。これによって、スマホなどでメッセージを手で打つ必要がなくなりました。

ジャルガルサイハン: どうやって使いますか?

E. ムンフウチラル: 例えば、メールを書こうと思えば、メールの内容を話すだけでそれを文字に変換します。

ジャルガルサイハン: 生産性に大きな変化をもたらしますね。一般的な使用はどれくらいですか?

E. ムンフウチラル: 「チメゲ・ガル(キーボード)」に関しては、アンドロイド携帯使用者10万人以上、iOS携帯使用者10万人以上となっています。これがなぜ時間の節約になるかというと、人が話す速さは、書く速さよりもおよそ7倍のスピードだからです。

ジャルガルサイハン: あなたは言語学の博士号を持っており、さらに中国語、ドイツ語を習得しています。今も変わっていませんが、以前マイクロソフトのIMEでモンゴル語を探してもありませんでした。iPhoneでもモンゴル語のキーボードを入れるためにはikonというアプリをダウンロードしなければなりません。モンゴル語をマイクロソフトなどの大手企業に採用してもらうためには、どのような問題がありますか?

E. ムンフウチラル: 言語追加は終わりつつあります。今は文字の追加が課題となっています。文字を機械にて使用するにはエンコーディングをする必要があります。これを決めるのはユニコード・コンソーシアムという非営利団体です。文字符号化方式を定めます。ユニコードから出された文字コードの業界規格は民間企業でも厳守されます。モンゴルはキリル文字に関して一時期、ロシア語の符号を使っていました。だから、ロシア語のアルファベットにないөүが記入出来ませんでした。Arial Mon式で書いたテキストを、別の場所にコピー&ペーストした場合、文字がごちゃごちゃになってしまうことがしばしばありました。

ジャルガルサイハン: 今もそうですよ。2000年以前の電子書類は読めません。運が良かったら、Ctrl+Aで「すべて選択」をして、フォント(字体)を変えることで読めるようになります。しかし、それをするには時間がかかります。その原因は何なのですか?

E. ムンフウチラル: モンゴル文字のユニコード規格がないからです。それが出たら規格に準拠すれば済むことです。

ジャルガルサイハン: では、そのユニコードがモンゴル文字を認め、өүを追加して符号化するのに何が問題なのですか?

E. ムンフウチラル:  өүは2000年代初期に追加されました。これに関して、ボロル・ソフト社創業者、チメゲ・システムズのバドラル社長が熱心に取り組みました。次の問題はモンゴル縦文字の問題です。モンゴル縦文字のユニコードに関する問題も解決しなければなりません。

ジャルガルサイハン: 10年以上前に私はバドラル社の社長にインタビューしたことがあります。その時、問題は内モンゴル人がモンゴル縦文字のユニコードを規格する際に何かしらの問題があったとのことでした。今はどうなっていますか。内モンゴル人とモンゴル人の意見が合わないのですか?

E. ムンフウチラル: さまざまな原因があるようですが、じきに解決されるだろうと思います。モンゴル人は、80年間使用してきたキリル文字の歴史だけではなく、1000年以上モンゴル人が創り上げた全ての作品の表記に使われ、今日まで使われ続けたモンゴル縦文字を失ってはならないと考えれば、これは必ず解決されることです。またこういう問題があります。モンゴル縦文字は教育の問題に過ぎないということです。実際に使用されません。

ジャルガルサイハン: もう使われないのでは? 

E. ムンフウチラル: 使うようにすることはできますし、使うべきです。

ジャルガルサイハン: では、モンゴル縦文字を使うようになった後にキリル文字、80年の歴史はどうすれば良いのですか?

E. ムンフウチラル: 同時に活用することができます。それにテクノロジーを使えば良いのです。キリル文字をモンゴル縦文字に、モンゴル縦文字をキリル文字にというようにテキストを変換すれば良いのです。

ジャルガルサイハン: すごいですね。では、それをするには何が問題となっていますか。ユニコードの中に、Times New Romanモンゴルというのが本来あるべきですが無いですよね。

E. ムンフウチラル: そのため、私たちは2017年から解決方法を考えてきました。それがモンゴル縦文字の音素表記モデルトンガーマルです。

ジャルガルサイハン: では、内モンゴルはなぜモンゴル縦文字を型表記として捉えているのですか?

E. ムンフウチラル: それは私には分かりません。

ジャルガルサイハン: しかしこれは、影響がこれからの1000年に伴うことになると思われます。モンゴル縦文字が2つの異なるものになってしまいます。

E. ムンフウチラル: テクノロジー的な考え方と一般人の考え方が違っているからかもしれません。テクノロジー的には全て可能です。なぜなら、彼らは2020年にモンゴル縦文字の表記規格を変えました。辞書も出版しています。つまり私たちとは少し違っています。でも問題ありません。相互に変換はいくらでもできるのですから。

ジャルガルサイハン: しかし、ユニコード・コンソーシアムが出す文字符号化方式規格に関しては、他の民族も統一させています。2000万人にも達しないモンゴル民族が別々のものを使うのはどうかと思いますが。

E. ムンフウチラル: 2つのモデルがあります。音素表記と型表記です。決断は私たちには出せません。

ジャルガルサイハン: 相互に読み込みは出来ませんか?

E. ムンフウチラル: 2つとも定められたら別ですが、2020年6月から内モンゴルにおいては民族語と漢語の二言語教育が実施され始めました。言語は政府政策に関する事柄です。ですから、それぞれの政府決定に委ねられるだろうと思います。話がモンゴル縦文字になったので、チメゲ・テクノロジーの4つ目の商品を言いますと、これはモンゴル語で言葉を言うと、モンゴル縦文字でどう書くかを教えてくれる辞書です。

ジャルガルサイハン:  デファクトガゼットは中国語でも出されます。内モンゴルとコミュニケーションするのに文字を使うことは出来ません。キリル文字が分からないためです。この相互のコミュニケーションを図るためにどうすれば良いか。あなたが今言ったテクノロジーを使って、モンゴル語で話しかけてモンゴル縦文字で見せるかですね。

E. ムンフウチラル: それも可能です。方法はいくつかあると思います。

ジャルガルサイハン: 私は内モンゴル人向けにモンゴル縦文字を使ったアプリを作ってみました。うちのウェブサイトにもあります。しかし、モンゴル縦文字を記入した後に、他に貼り付けたりすると形が崩れてしまいます。

E. ムンフウチラル: そうですね。あなたがずっと言っている問題はそれですね。私たちは最良なモデルを開発しました。今後もそれに基づいて商品を出していきます。

ジャルガルサイハン: チメゲ・テクノロジーの開発には何人が関わっていますか。どのような人たちですか?

E. ムンフウチラル: テクノロジーの開発には主に3つのチームがあたりました。データチーム、AIチーム、プログラム開発チームの3チームです。プログラム開発チームのリーダーはバドラル、AIチームのリーダーはトゥグルドゥルです。二人はドイツに住んでいます。

ジャルガルサイハン: アメリカからも参加している国際チームが活躍していますね。もう20年になるのではないでしょうか。

E. ムンフウチラル: 始めたのが17年、18年前になりますね。

ジャルガルサイハン: これはつまり、モンゴルは人口の少ない、小さな国ですが、一人の男性、女性がそのアイデアを生み出し、今まで一貫してこれを続けてきて商品発表に漕ぎ着けたことは、同じモンゴル人として誇りに思い尊敬すべきことだと思います。なぜなら、誰かが提案し、やり始めないと、政府は考えずに時間だけが進んでしまいますからね。おめでとうございます。

E. ムンフウチラル: チメゲ・テクノロジー開発には、多くの方々から音声データを提供して頂きました。この場を借りて協力してくださった方にお礼を申し上げます。ありがとうございました。

E. ムンフウチラル * ジャルガルサイハン