前回、動画生成AI Runwayを使って”推しぬい”(推してるぬいぐるみ)を動かす方法をご紹介しました。
その結果、ぬいぐるみが動いて喋っている(ように見えなくもない程度のクオリティーの)動画を生成することができました。
今回は、音声AIでこのぬいぐるみに声をつけようと思います!
音声生成AI ElevenLabsとは
ElevenLabsは、音声合成技術に特化したAIです。
入力したテキストを、人間らしい自然な声で読み上げたり、本人そっくりの声を生成できる「音声クローニング」技術が特徴です。
多言語に対応しており、個人から企業まで幅広く利用されています。
ElevenLabsで音声を生成しよう
ではさっそく、ElevenLabsで音声を生成してみましょう。
ElevenLabsにログインする
まずはElevenLabs公式サイトにアクセスし、アカウントを作成します。
【ElevenLabs公式】
https://elevenlabs.io/app/sign-in
GoogleもしくはAppleアカウントでもログインできます。
ライトモードかダークモード、どちらか好きな方を選んでContinueボタンをクリック。

名前と生年月日を入力して、Nextボタンをクリックします。

ここはスキップして大丈夫です。

Creative Platformを選択します。
(後で変更できます)
Continueボタンをクリック。

こちらもスキップして大丈夫です。

これもスキップ。

どれくらい金を出せるか聞かれますが、ここもスキップ。

先ほど聞かれたプラットフォームの切り替えの説明です。
Got itをクリックして、閉じます。

動画を編集しよう
プロンプトを入力する
こちらに生成するセリフのテキストを入力します。

セリフを入力できたら、Generate speechボタンをクリックします。
まずはデフォルトの設定で音声を生成してみましょう。

生成が完了したら再生ボタンを押して確認しましょう。
音声データをダウンロードしたいときは右下のダウンロードアイコンをクリックします。

ちなみに私が生成した音声データはこちら。
「おい、もっと酒持ってこんかい。飲まねえとやってられねえんだよ。ヒック」
さすがに酔っ払いのしゃっくりまでは再現できませんでしたが、自然な話し方ですね。
音声の設定を変えてみよう
声の種類やスピードなども画面右側の設定で変えることができます。
Voice(ボイス)
音声の種類やキャラクターを選びます。声の性別や年齢、口調などを決める基本設定です。
Model(モデル)
音声合成の技術やアルゴリズムのバージョン。新しいモデルほど自然で多彩な感情表現が可能です。
Speed(スピード)
話す速さの調整。数字を小さくするとゆっくり、大きくすると速く話します。
Stability(安定性)
声の安定感の調整。高くすると声のブレが少なく落ち着いた印象に、低くすると感情豊かですが不安定になりやすいです。
Similarity(忠実度)
元の声にどれだけ似せるかの度合い。高いほど元の話者の声に近くなりますが、ノイズも再現される場合があります。
Style Exaggeration(スタイル強調)
話し方や感情表現のクセを強調する設定。上げすぎると不自然になることもあり、通常は控えめに使います。
Speaker Boost(スピーカーブースト)
話者の特徴をより強調する機能。声の個性を際立たせたいときに使います。
右側のメニューの設定が、リアルタイムで音声に反映されます。
下の再生ボタンを押して音声を聞きながら、設定を調整してみましょう。

ちなみに、漢字はまだ読み間違えが起こりやすいみたいです。
うまく読み上げてもらえなかった時はひらがなで入力し直してみましょう。
設定を調整して、再生成した音声がこちら。
「おい、もっと酒持ってこんかい。飲まねえとやってられねえんだよ。金?ねえに決まってんだろ。」
最低なセリフが最新の技術で流暢に読み上げられていますね。
動画を編集しよう
では、先ほど生成した音声を動画に追加してみましょう。
動画編集ソフトはなんでも構いません。
ここではMacユーザーなら無料で使えるiMovieを使います。
まずは、この赤枠部分に作成した動画と音声データをドラッグ&ドロップします。

動画と音声の長さが合わないので、調整します。
音声データの方を右クリックして、「速度エディタを表示」をクリックします。

赤丸部分をドラッグして、動画の長さに合わせます。

右上のシェアアイコンをクリックします。

「ファイルを書き出す」をクリックします。

「次へ」をクリックします。

そして、書き出した動画がこちら。
(この記事用に軽量化したので実際にはもっと綺麗な動画になります)
イメージではゆるキャラが喋ってるかわいい動画にするつもりだったけど、
音声がリアルすぎて、モザイクかけないと画面に映せない人の供述みたいになっちゃったな。
まとめ
音声生成AIはリアルなナレーションや朗読の音声データを生成できるAI。
動画生成AIを組み合わせれば、オリジナルキャラクターや推しに声を吹き込める…はず!