プライムデー23日に消す

「数千人のAmazon従業員がAlexa利用者の音声を聞いていた」と報道した日本メディアが伝えなかった部分

この一週間ほど、アレクサの音声録音のことがネットメディアで話題になっている。Amazonの従業員が、アレクサに録音されたユーザーの声を聞いているというんだ。それは事実なんだけど、ほかに日本のメディアが報道し忘れている大事なことがある。今回のブログでは、それを紹介しようと思う。

『数千人のAmazon従業員がAlexa利用者の音声を聞いていた』—— livedoor NEWS

『Amazon、「Alexa」の音声記録の一部を従業員が聞いていると認める』—— IT media

『アマゾンがAIスピーカーの音声に「聞き耳」、社内に専任チーム』——  MIT Technology Review

『Alexaに話した声はAIではなく人間が解析している事が判明 社内チャットで共有も』—— カミアプ(ブログ)

『アマゾン『Alexa』に盗聴問題。録音した会話を顧客情報と紐付け&面白い内容は従業員で共有とヤバい』—— Yahoo! news

こんな記事を読むと、自分の声の録音が、数千人もの従業員に、熱心に回し聞きされているようなイメージを持つんじゃないかな。

だけど、そのイメージは正しくない。メディアが嘘をついているとは言わないよ。確かに、Alexaは、ユーザーが命令した二言三言の言葉を、その都度録音している。そして、数千人の従業員がそれを聴いているというのも確かなこと。Amazonも、別に否定してはいない。

なぜ録音するかというと、それをもとに、人工知能Alexaを教育するため。Alexaが上手く聴き取れない言葉を、人間が聞いて、解釈して、Alexaに「これはこういう意味だよ」と教えてやっている。Alexaには、確かに自分で学習する能力があるけど、それだと進歩が限られてしまう。人間が外から助けてやらないと、Alexaは自分の限界を超えられないんだ。

例えば、発音がすごく悪い人の言葉は、Alexaは上手く判別できない。でも、人間が聞くと、勘を働かせて、何と言ってるのかが分かる。そして、人間が「これはこういう言葉だよ」とAlexaに教えてやると、Alexaは次回からその言葉が分かるようになる。

もう1つよく知られた例を挙げると、例えば「テイラー・スウィフト」と言ってもAlexaは誰のことか分からない。テイラー・スウィフトが歌手だってことを知らないんだね(今はもう分かってると思うけど)。だから、誰かが教えてやらなきゃいけない。教えてやれば、次からは、ちゃんと歌手だと分かって応対するようになる。

こんなふうに、Amazonの従業員は、Alexaに与えられた命令の録音を聴いて、Alexaが分からない部分を人の頭脳で解釈し、Alexaを教育している。多くのメディアはそれを取り上げて、「従業員が盗聴している」というような見出しをつけているんだ。

でもね、これについて、日本のメディアが報じていないことがある。その部分を知ると、誰でも、メディアの報道とは違ったイメージを持つはずだよ。

ブルームバーグの記事

今回のメディア報道は、たった1つのニュースソースを元にしている。各メディアが独自に取材したわけじゃなく、アメリカの経済紙「Bloomberg(ブルームバーグ)」の記事が情報源になっている。(「Bloomberg」は一流の経済紙と言っていい)

その記事には、Amazonの従業員が、どんな環境で問題の「録音」を聴いているかが書かれている。僕がこれから紹介するのはそれ。読むと、決して「解析」しているわけでなく、「聞き耳」を立てているわけでもなく、情報を盗み出そうと「盗聴」しているわけでもないことが分かると思う。

まず、担当従業員は、Alexaがランダムに選んだ「録音」ファイルを聴いてチェックしている。ここで「録音」といっているのは、ユーザーがAlexaに何かを命令した数秒間の録音のこと。(Alexaは短い録音しかできない)Alexaの記憶装置の中には、その細切れ録音が何千万と入っているわけだけど、全部を従業員が聴くわけじゃない。ランダムに抜き出したものだけを聴いているんだ。

Amazon’s review process for speech data begins when Alexa pulls a random, small sampling of customer voice recordings and sends the audio files to the far-flung employees and contractors, according to a person familiar with the program’s design. (Bloombergの記事より抜粋)

(ちなみにこの「録音」は、ユーザーが自分でも聴ける。ただし自分のものだけ。Alexaアプリを使うんだけど、詳しい方法はAmazonヘルプ「AlexaおよびAlexa対応端末に関するFAQ」の、上から4番目「4. 録音内容を確認したり削除することはできますか?」で回答されている)

従業員が1人でチェックする「録音」の数は、1回のシフト当たり 1,000本ほど。1,000本! 何時間のシフトかは分からないけど、ぶっ続けで約1,000本の「録音」を聴いていることになる。1,000本を聴き続け、休んで、次のシフトでまた聴き続け、1日9時間聴き続ける。メディアが言っているような「聞き耳」を立てているイメージとは、ちょっと違うんじゃないだろうか。

They work nine hours a day, with each reviewer parsing as many as 1,000 audio clips per shift, according to two workers based at Amazon’s Bucharest office, which takes up the top three floors of the Globalworth building in the Romanian capital’s up-and-coming Pipera district.(Bloombergの記事より抜粋)

大量の録音の中には、ユーザーが命令した声以外のものが入っていることがある。例えば子供の泣き声とか、テレビのうるさい音とか、正体不明のノイズとか……。Alexaは、ユーザーが「アレクサ」と呼びかけた時だけ、その後の言葉を録音することになっているけど、アレクサと似た発音の言葉や、時には雑音なんかでも反応して録音を始める場合があるんだ。

そういうとき、変な音声やノイズが録音されてしまう。時には「人の名前や、銀行口座の詳細など、プライベートなことを話している声」が録音されていることもある、とブルームバーグは書いている。

それを聴いた従業員はどうするか、というと、「クリティカルデータ(重要データ)」というチェックボックスに✔️するよう指示されている。チェックを入れた後は次の録音に進む。1,000本をこなさなきゃいけないから休んでいる暇はないと思う。

Sometimes listeners hear users discussing private details such as names or bank details; in such cases, they’re supposed to tick a dialog box denoting “critical data.” They then move on to the next audio file.(Bloombergの記事より抜粋)

ブルームバーグが、ルーマニアでこの作業に携わる従業員に取材したところ、2人が「性的暴行現場と思われる録音」を聴いたことがあるそうだ。だが、上司に報告しても、「介入するのはAmazonの仕事ではない」と言われたらしい。従業員の仕事は、その録音を文字に起こしてAlexaにフィードバックするだけ。こういうとき、従業員たちは、どうにもできない苛立ちを晴らすために、社内のチャットルームを使うそうだ。誰かに話さなきゃやりきれない、という気持ちだと思う。当然、どんな録音だったかも話題になるだろう。それを日本のメディアは、「面白い内容は従業員で共有」と言っているみたいなんだ。でも本当にそういうことなのかな?

Sometimes they hear recordings they find upsetting, or possibly criminal. Two of the workers said they picked up what they believe was a sexual assault. When something like that happens, they may share the experience in the internal chat room as a way of relieving stress.(Bloombergの記事より抜粋)

日本のメディアは、今回のことについて、嘘は書いていない。従業員は確かに聴いている。でも、こんな聴き方を「盗聴」と言ってしまうのはちょっと違うと思う。

あなたがアレクサのユーザーで、絶対に絶対に絶対に録音を聴かれたくないなら、Alexaアプリをタップして、Alexaの中に残っている録音を消去できる。やり方は、Amazonヘルプ「AlexaおよびAlexa対応端末に関するFAQ」の、上から4番目「4. 録音内容を確認したり削除することはできますか?」に説明されている。