インタプリタかなくぎ流

いつか役に立つことがあるかもしれません。

音声認識の進化と人間の役割

人工知能(AI)の技術が進化するなかで、機械翻訳の精度も向上しつつあります。そうした文字ベースの言語変換は実用に耐えうるようになってきた一方で、音声ベースの変換はまだまだ難しいという認識がありました。

特に生身の人間は必ずしも明瞭な発話をするわけではないので、そうした曖昧さを含んだ音声の認識にはまだまだ困難が伴うのではないかと。またその発話された音声の内容には明確に含まれていない背景知識や暗黙知みたいなものまで織り込んで別の言語で発話を紡ぎ出すのもかなり困難ではないかと想像していたわけです。

ただ、昨年あたりからChatGPTに代表されるAIの技術が格段の進歩を遂げ、音声通訳の精度も急激に上がっていくのではないかという予想がなされるようになりました。例えば昨年の5月ごろに報じられていたこのニュース。Googleが動画の自動吹替と「リップシンク」を行うAIを開発中というニュースです。

gigazine.net

そういえば昨年はいわゆるディープフェイクという形で、例えば政治家が普段とは真逆の主張をするような映像が取り沙汰されていたような記憶があります。またその少しあとには、YouTubeがAIによる「自動翻訳吹き替え」機能を搭載するというニュースが報じられました。

gigazine.net

つまり機械翻訳ではなく「機械通訳」が早晩実現するというお話です。こうなると、あとはどれくらいの精度でそれらが実現できるのかという話です。こうした技術は各国がその開発にしのぎを削っているようですから、最初は多少ぎこちなくても、技術の進歩でどんどん「洗練」されていくかもしれません。

先日は、勤務先の学校の留学生(スペイン語母語です)から、こんな動画を教えていただきました。Luisito Comunicaという、スペイン語圏では非常に有名なYoutuberだそうで、彼がサンパウロの街を紹介している動画なのですが……なんと上掲の記事でも紹介されていた「自動翻訳吹き替え」らしい音声トラックが7つもついていて、その中にはなんと日本語もあるのです(動画の下にある歯車マークから選べます)。


www.youtube.com

言語をいくつか選んで視聴してみて驚きました。オリジナル音声であるスペイン語で話しているLuisito Comunica(Luis Arturo Villar Sudek)氏の口調の雰囲気を残しつつ他の言語で話していることがその理由です。もちろんよく聞いてみると、例えば日本語ではかなり奇妙なところがたくさんあります。「大通り(おおどおり)」を「だいどおり」と言っているようにへんてこりんな日本語が頻出しますし、数字のところは意味が通らないほどに無茶苦茶だったりします。これはYoutubeの自動字幕機能で翻訳された日本語をそのまま音声に変換して流しているのかな?

でも英語の方はものすごく自然に話しているように聞こえます(私の英語力による判断はあまりあてになりませんが)。スペイン語からは「距離」の離れた日本語はちょっとまだ難があるにしても、スペイン語と英語くらいの距離であれば、もうこれくらいのレベルで自動通訳ができるのか! と衝撃を受けました。くだんのスペイン語母語の留学生も「すごい!」と驚いていました。

でも私はこの英語のあまりの自然さにちょっと疑問を持って(言語を学ぶ人間の立場としてはちょっぴり悔しさもあって?)、少しネットで調べてみました。そうしたらこんな記事がありました。

isamarcial.com.mx

記事の最後にある「まとめ」部分をGoogle翻訳で読んでみたのですが……

• El trabajo de doblaje está hecho por él mismo, es decir, es él hablando en inglés
吹き替え作業は彼自身が行っており、英語で話しています。

なるほど、英語はAIによる機械通訳ではなく、吹き替えだったのですね。機械通訳が現段階ではまだ実用に耐えうるほどではないのかなと確認できたわけですが、そんなことで溜飲を下げている場合ではありません(だいたいスペイン語を読むのだってGoogle翻訳に頼ってる)。上述したように、こうした技術は今後もますます進歩していくでしょう。翻訳者のみならず通訳者の役割もかなり限定されたものになっていくかもしれません。

今のところの私の予想としては、生身の人間による翻訳や通訳はおそらく「ハイエンド」の需要については今後も残っていくだろうけれど、ミドルレンジの部分は壊滅的に淘汰が進むのではないかと思います。つまり私のような中途半端な二流や三流の通訳者・翻訳者はその波をモロにかぶるということですね。

ハイエンドというのは、きわめて複雑で精緻な内容を訳すというシーンに加えて、生身の人間によるサービスが何らかの付加価値を持つシーンが考えられるでしょうか。例えば観光案内などはやはり人間にやってもらったほうが楽しいよね、といったような。AIが進化すればするほど、わざわざ人間が行うサービスがより「贅沢」なものになっていくのかもしれません。