新しい取引先様のこと 第三話 「機械翻訳は電気羊の夢を見るか」

本日(2020年2月3日)は東大和市の創業支援施設BusiNestにやって来ました。 天気は快晴。 外気温はAIスピーカーによると、10℃くらいです。

BusiNestの「交流コーナー」には、Google製のAIスピーカーがあって、機能などを実際に試して体験できるのです。 これは何というデバイスなのか、私はよく知りません。 SiriとかAlexaとか、なんかそんなものです。

「おーけいぐーぐる、ヴァンゲリスの曲をかけてよ。」とコマンドを出してみました。 AIスピーカーは復唱したのでコマンドの意味は理解したようですが、かかった曲は全然ヴァンゲリスっぽくない音楽でした。 ダメじゃんAI。(笑) まあ、無料のSpotifyですからね。

でも、かろうじてシンセサイザーを使ったエレクトロポップの曲ではあったようです。

さて、今話題の人工知能(AI)です。

Artificial Intelligence

昨年(2019年のこと)から外注請負業者登録していただいた新しい取引先様(いわゆる翻訳会社、米国で言うLanguage Service Provider a.k.a. LSPです。 本社は米国のNYCだそうです。)は、ありがたいことに大手なのでオンライン研修やトレーニングの手段を提供してくれます。 それから、ソースクライアント様の要望に合わせてニューラル機械翻訳も導入しています。 私のような若輩者のフリーランスには機械翻訳のポストエディットの仕事を経験するチャンスもあるわけです。 手取り足取りは教えてくれませんが、自分から行動すれば経験を積むことができます。 (ときどき、ですけれどね。)行動しなければ、何も起きません。 

明らかに供給過剰で、実績がないとトライアルも受けさせてもらいない日本国内のフリーランス翻訳者の世界とはちょっと違います。 日本の翻訳業界は、参入障壁が低いのだか高いのだか、わけがわからないです。

フィットネススタジオのモバイルアプリのローカリゼーションの仕事で、念願かなって機械翻訳のポストエディットを経験しました。 ベテランの先輩方には機械翻訳を毛嫌いされている向きも少なくないようですが、私はそんな既得権益とは縁がない若輩者です。 チャンスがあればやってみるのです。 そうでなければ、せっかく会社員を辞めたのにつまらないじゃないですか。 3年B組金八先生じゃないですが、「負けたと言わない限り勝っている」です。 上司も部下も同期の仲間も有給休暇も人事考課もない個人事業主、フリーランスなのですから、まだ廃業していなくて今日も生きていれば、あいにくですが私の勝ちです。 (笑)

AI(小池百合子のような自称じゃなくて、本当の人工知能ですよ。)が翻訳した結果を受けて、それを編集するのが「機械翻訳のポストエディット」という仕事です。 AIの素性がよく、学習ができていると結構自然な翻訳が実現しています。 が、機械翻訳用の本物の人工知能は、時々小池百合子のように不可解なことを予測不能に言い出すようです。 ポストエディット担当の人間は、そういう機械翻訳特有のエラーを見逃さずに編集しなければなりません。 (それを見逃すようでは、クライアント様やLSPがポストエディットに報酬を払っている意味がありません。)

具体的に例を挙げると、機械翻訳は何故か結構な頻度で数字を間違えるようです。 (人工知能の出来不出来にもよる、個体差があるのでしょうけれど。) 「いや、機械が数字を間違えてどうするんだよ。 数字は数字だろ。 アラビア数字なら、翻訳ですらないだろう。 注意深ければ中学生だって間違えないよ。 どうかしてるんじゃないのか?」と思うでしょう。 でも、実際にAIは数字を間違えます。 少なくとも、2020年現在の翻訳用人工知能は、数字を間違えます。 不思議だが本当です。

これは、21世紀の日本でも性懲りもなくPETボトルやハイタッチやSNSやアンダーバーのようなモダンな和製英語が創り出され、流通しているのと似ているのじゃないでしょうか。

それでいいとは別に思いませんが、多様性が大嫌いな「アクタ共和国」国歌みたいな世の中も息苦しいだけなので願い下げです。

不思議ですが、これは人工知能が一度原文を要素に分解して構造を認識して、再構成するときにディテールを落としてしまうクセがあるからだという説があります。 あるいは、人工知能が過去に処理したことのある類似した文章に飛び付いてしまい、その類似した文章のディテールに引っ張られてしまうためだという説もあるそうです。 ディープラーニングに全力投球していて学習ばかりしているので判断力が腐ってしまっているのかもしれません。

それから、次に気がついたのは、人工知能が割と不適切なことを言い出すことがあるという現象です。 フィットネススタジオのマーケティング資料だというのに、ボート漕ぎ運動のマシンエクササイズの「ストローク」という言葉を、私が担当したAIはよりによって「脳卒中」と翻訳していました。 フィットネススタジオの資料で、誤訳するに事欠いて脳卒中はないだろう、と驚きました。 これも学習に熱中しているので価値判断ができないのでしょうか。 チャットボット用のAIが突然人種差別的な、反社会的な言葉を連発したことは実際にあるそうです。

恐ろしいですね。 「炎上」でもしたら目も当てられません。

機械翻訳のポストエディット業務については、例の新しい取引先様が導入教育をしてくれました。 (ありがたいことです。 感謝しています。)

クライアント様やLSPは、プロジェクトのコストを下げるために機械翻訳に投資して機械翻訳を導入していることを忘れるな、という主旨です。 overeditingというか、ポストエディットのやり過ぎは本末転倒だから意識して慎めと指示を受けました。 わかりやすく言うと、「これは編集した方がいいのかな?と迷ったら編集するな。放っておけ」ということです。

件のフィットネススタジオの資料のポストエディットの仕事には後日談があります。 納品してから2週間後くらいに、クライアント様からの結構な量のフィードバック(というか修正)があったのです。 修正箇所はかなりの数だったので昔からのクセで思わず「次からはもっと上手くやります」と反省して、ちょっとへこんでしまいました。 でも、よく考えて修正を見直してみたら、笑っちゃうような誤訳やシャレにならないミスはひとつもありませんでした。 しかも、翻訳したのは私ではなく機械というかAIだったのです。 LSPの担当プロジェクトマネージャーさん(人工知能ではなくて人間です)も、決して「お前の翻訳」と言いません。 「我々の翻訳」と言います。

やっと「ポストエディットのやり過ぎは禁物」「迷ったらいじるな」という指導の意味がわかりました。 人工知能による機械翻訳の結果が気に入らないからと言ってあれこれ手を入れてしまうと、どんどん「自分の翻訳」になってしまうのです。 そうなったら、ポストエディット担当のあんた、責任を取れるのですか? 積極的に責任を取る覚悟があるのですか? ということです。 最悪の場合、責任の所在があいまいになってしまうだけです。

これでは、クライアント様も、翻訳会社も、私のようなフリーランスの専門職も、誰も得をしません。 みんながちょっとずつ不幸になるだけです。

まあ、色々と恐ろしかったり課題が山積している気配があるAI、人工知能と人間の仕事の周辺の諸事情です。 でも、私はAIの大化けにより既得権益や利権構造が壊れていくのはひとまず良いことだと思っています。 AIがのさばり出して来るのが面白くないという人は、既得権益や利権構造でメシを食っているのでしょう。 震えて眠ればいいんですよ。

もっとも、AIが固有のAI利権になりつつあること、新しい利権構造をうみだす温床になりかねないということには注意が必要です。

これで筆を置こうとしたら、放っておいたBusiNestのAIスピーカーがついにヴァンゲリスのBlade Runner Bluesをかけました。 恐るべし、時間をかけてやれば出来るじゃんAI。