「Alexa、サミュエル・L・ジャクソンの声を手に入れる」 Amazon新製品発表会 現地レポ(西田宗千佳)

米Amazonは、9月25日(現地時間)、米ワシントン州シアトルにある本社にて、同社スマートスピーカー「Echo」シリーズの最新モデルを中心としたハードウェア製品に関する発表会を開催した。 ▲会場となった、Amazon本社隣にある施設「The Spheres」。球状のかなり変わった建物で、シアトルの新しいランドマークのひとつ すでにニュースにもなっているように、メガネ型のEchoデバイスである「Echo Frames」が出たり、指輪型のEchoデバイスである「Echo Loop」だったりと、Amazonは24時間365日どこでもAlexaと生活するための環境を着々と推し進めているのだが、現地発表会での驚きはこれだけに留まらない。 ▲メガネ型のEchoデバイスである「Echo Frames」 ▲指輪型のEchoデバイスである「Echo Loop」 むしろすごいのは、音声アシスタントとしてのAlexaの進化だ。 Alexaの声をセレブリティのものに変える 今回の発表会のなかで会場が一番沸いたのが、Alexaの声を現在のものから「サミュエル・L・ジャクソン」のものに変える、というもの。本人の声を収録して利用しているそうだ。「音声アシスタントを好きな声優の声に変えられたら──」「あの人の声で語りかけてくれたら──」そんなふうに思っている人は多いかもしれないが、それがついに実現する。 ▲Alexaがサミュエル・L・ジャクソンの声でしゃべるように。追加コンテンツ扱いで、年末からアメリカでスタートする 収録の様子は以下の動画をご覧いただきたい。 もちろんこれは広告ならではのフェイクで、単にフレーズを録音しているわけではない。それでは音声アシスタントの柔軟な返答には使えないからだ。 AmazonはAlexaのために、独自にテキストから音声を読み上げる「Text to Speech」技術を開発している。その技術は常に進化しており、現在は「Neural Text to Speech」になっている。これは、音声を機械学習することで、言葉と言葉のつながりや音の変化をより自然なものにしていく技術だ。この積み重ねで音質が変わり、より自然な話し方になっている。 今回、サミュエル・L・ジャクソンの声でしゃべれるようになったのは、この「Neural Text to Speech」の進化による賜物だ。さまざまな音声を収録し、そこからText to Speechのデータを作り、Alexaが発声に利用している。今後Amazonは、セレブリティの声の提供をいくつか予定しており、その第一弾がサミュエル・L・ジャクソン、というわけだ。 ▲Alexaの音声合成は、機械学習を使った「Neural Text to Speech」でより自然なものに。サミュエル・L・ジャクソンの声で応答できるのはその応用だ ▲Amazonは、Alexaがセレブリティの声で話す、という機能の準備を進めており、その第一弾がサミュエル・L・ジャクソン サミュエル・L・ジャクソンといえば4文字のアレな言葉を含むフランクな語り口(穏当表現)も持ち味なので、「ちょっと過激な表現を含む」バージョンと、「そうでないバージョン」が用意されるそうだ。提供開始は2019年末で、0.99ドルの有料コンテンツとなる。 「ドル表記」というところでおわかりのように、日本では提供されない予定。Neural Text to Speechという技術そのものは日本にも導入済みなのだが、日本で「Alexaの声を他人に変える」技術が提供されるかどうかもコメントがなく、現状不明だ。 実は他社でも開発中、アメリカでは来年以降ビジネスがスタート 音声アシスタントの声を別のものに変える、という研究開発は、意外と色々な企業で進められている。 LINEはディープニューラル・ネットワークを使ったText to Speech技術を「少量の学習から音声を作り出す技術」として2018年に発表済み。Microsoftも「特定人物の声のトーン」を使ってText to Speechを合成する技術を発表している。Microsoftの技術の場合、「特定の人物の声のトーン」の利用は言語に依存していないので、英語で喋っている人物の声を日本語に変え、「日本語が話せない人物なのに(その人の声で)日本語を喋る」なんてことまでが可能になっている。 今年5月に東京で開催した技術者向け会議「de:code 2019」では、来場したHoloLensの産みの親であるアレックス・キップマン氏が「日本語で、アバターとして喋る」というデモが行われていた。ようするに技術的には、「吹き替えでなく、サミュエル・L・ジャクソンが本人の声で日本語を喋る」的なこともできるわけだ。 どこのやり方も技術的手法は似通っている。特定の人物にトレーニング用の音声を喋ってもらったうえで、さらにいくつかのフレーズを収録し、その人の調子や声色を機械学習でデータ化していく......というやり方である。 今回のAlexaでのサミュエル・L・ジャクソンの声がどうなるのかは、実際のデモが行われていないのでわからない。しかし、本人と似ても似つかない音声ではお金にならないだろうから、それなりの自信はあるのだろう。 この種のビジネスでは、「どんなフレーズをどこまでしゃべらせるか」という許諾と管理の問題の方が大きく、Amazonもきっとそこになんらかの制限をかけている可能性がある。Akexaがまるっとサミュエル・L・ジャクソンになるのではなく、多くの反応をサミュエル・L・ジャクソンの声で行うが一部はAlexaの声、つまり両者が共存するところに落ち着くのではないかと筆者は予想している。 どちらにしろ、アメリカでは来年以降、「Alexaの追加ボイス」というコンテンツビジネスが立ち上がることになるわけだ。トーク番組が人気のアメリカだからか、「セレブリティ・ボイス」という切り口になっているが、日本で展開されるとしたら、俳優・声優の声にして「あの人が、あのキャラがあなたと暮らす」というパターンになるのかもしれない。 プライバシー配慮や「意思疎通確認」機能も これ以外にも、Alexaは進化している。 プライバシーに配慮し、「3か月もしくは18か月が経過すると、記録されたデータが自動的に消える」機能が10月中に世界中で利用可能になる。 また、Wi-Fiアクセスポイントの制御も可能になる。例えば「Alexa、ゲスト用のWi-Fiをオンにして」とか、「Alexa、ゲーム機のWi-Fi接続を一時的に止めて」といった命令ができる。これには、Amazonが規定したAPIに対応するアクセスポイントが必要になる。ASUSやTP-LINK、LINKSYSなどの日本でもお馴染みのメーカーの他、AriisやAmazon自身のWi-Fiアクセスポイントブランドであるeeroなどが対応に賛同しており、即日対応を開始した。 ▲Wi-Fiのコントロールを音声で。遊んでばかりの子供を叱るため、「プレステのWi-Fiを切って」といった命令をすることもできる また、「なぜそういう動作をする」という音声アシスタントのイライラに対応するため、「なんて聞き取ったのか教えて(tell me what you heard)」「なんでそんなことしたの?(why did you do that?)」というコマンドが追加される。 ▲音声アシスタントととも「意思疎通」が重要。「なんでそんなことしたの?」と、聞き取った内容の確認もできるようになった。 そもそも間違えなければいいのに、というのはその通りだが、人間ですら聞き間違いは日常茶飯事。お互いの意思疎通が確認できることは、人間だけでなく音声アシスタントでも必要なこと、という話のようだ。 アマゾン、時計が付いた新型Echo Dot発表、無印Echoも第3世代に。10月16日発売 アマゾンがEcho Studio日本版発表。Dolby Atmos対応の高音質スピーカー Alexaがサミュエル・L・ジャクソンの声に。アマゾンがAlexaの音声データ拡張計画を発表 Alexa搭載メガネ「Echo Frames」をアマゾンが海外発表。ディスプレイは非搭載 次のAlexaデバイスは指輪型!? アマゾンが「Echo Loop」を海外発表

from Engadget Japanese RSS Feed https://japanese.engadget.com/2019/09/26/alexa-l-amazon/
via IFTTT

コメント

このブログの人気の投稿

【Amazonサイバーマンデー】iPad(第8世代)用のSmart Keyboardが10%OFFとか珍しくない?

ESTメールマガジン 第71号

Googleクラウドに小売業向けに特化した新サービス