声をクローンする時代 — ElevenLabsが変える音声AI

AI Latest News

ポーランドで生まれた音声AIスタートアップ、Eleven Labs

声がコピーできるようになる時代に、何が問われるのか。Eleven Labsはその入り口に、いま誰よりも深く踏み込んでいる。

ポーランド発のEleven Labsは、2022年に立ち上がったばかりのスタートアップだ。それなのに、評価額は早くも30億ドルに達した。a16z^※1やSequoia^※2、Nvidia^※3が投資家に名を連ねている。対応言語はすでに29、ユーザー数は100万を超えた。

特徴はとにかく音声の自然さだ。これまでのAI音声につきまとっていた棒読み感がほとんどなく、息継ぎや感情の揺らぎまで再現してくれる。最近では、音声機能を持つアプリやプロダクトの裏側にEleven Labsが入っているケースも一気に増えてきた。

※1 a16z:米国を代表するVC
※2 Sequoia:世界トップクラスのVC
※3 Nvidia:AI半導体の世界的大手

必要なのは、数分の音声サンプル

同社の代名詞ともいえる機能が「Voice Cloning（声のクローニング）」。数分の音声サンプルがあれば、その人の声でテキストを読み上げてくれる。

用意されているのは2タイプある。

ひとつはInstant Clone。数秒〜30秒ほどの音声サンプルから、ボタンひとつで即座にクローンが立ち上がる。声色やトーンの大まかな再現はできるが、感情表現や微妙な息遣いまではまだ拾いきれない。試作や下書きでさっと使うのに向いている。

もうひとつはProfessional Clone。3分以上の高品質録音をアップロードし、数時間ほどの学習を経て完成する。声色だけでなく、抑揚、感情、息継ぎといった「その人らしさ」まで再現できる。本人と聞き比べても判別が難しいレベルで、商用ナレーションやオーディオブックなど本格的な制作向きだ。

これは、試してみたいだけか、本気で作り込みたいかで使い分けられる。

さらに多言語対応で、日本語で吹き込んだ自分の声を英語のナレーションに変換することもできる。声を一度預ければ、世界中の言語で話せる感覚に近い体験と言えるだろう。

音声は誰のものか？問われる”声”の権利

便利さの一方で、扱いを間違えれば一気にリスクになるのも音声AIの特徴だ。「声」は誰のものか。法律はまだ追いついていない。

2024年、アメリカのテネシー州が「ELVIS Act」を制定し、無断の音声クローンを違法化した。声優の労働組合SAG AFTRAも権利保護の合意を勝ち取っている。それでもグローバルなルールは整備中で、Eleven Labs自身も本人確認や生成音声への透かし、使用禁止リストなどの対策を重ねている段階だ。

プロダクトに音声AIを組み込もうとしているなら、「誰の声を、どんな許諾で使っているのか」を初期の設計から決めておくこと。あとで火種にしないための、最低限のルールと言えるだろう。

「音声コンテンツはコストがかかる」の常識を変えるAI

この技術は、人手の少ないチームほど恩恵が大きい。

「声を使ったコンテンツは時間もお金もかかる」という前提が、この数年で完全に書き換わりつつあるのだ。

これは制作の世界にとって、たしかに大きな転換点になりつつある。一方で、声はその人そのものだ。だからこそ、AIで声を扱う責任は極めて重い。声のクローニングが実現した今、私たちは新しい可能性と責任を同時に手にしている。この力をどう使い、どこまでコントロールするのか。その線引きを決めていくのは、やはり私たち人間に他ならない。

1
動画・ポッドキャストのナレーション内製化収録スタジオに行かなくても、自分の声で量産できる。
2
多言語コンテンツの拡大一つの録音から29言語に展開。海外マーケットへの一歩がぐっと近づく。
3
オーディオブック制作のコスト圧縮従来は数十時間のスタジオ録音が前提。それが数時間で形になり、コストは9割減。
4
ゲーム・教育コンテンツのキャラクターボイス少人数のチームでもボイスありの体験を作れる。

新たに挑むのは、リアルタイム翻訳

Eleven Labsが次に仕込んでいるのがリアルタイム音声翻訳だ。日本語で話せば、相手にはあなたの声で英語が届く。声質も感情も保ったまま、言語の壁を越えられる未来が、もう目の前まで来ている。

あわせて読みたい

「声」は誰のもの？Eleven Labsが生んだ音声AIという武器

ポーランドで生まれた音声AIスタートアップ、Eleven Labs

必要なのは、数分の音声サンプル

音声は誰のものか？問われる”声”の権利

「音声コンテンツはコストがかかる」の常識を変えるAI

新たに挑むのは、リアルタイム翻訳