コラボレーター
SELECK

「声優並み」の音声生成AIが登場！？感情まで再現する「ElevenLabs」の使い方を徹底解説！

公開日：2025 年 8 月 19 日

近年、生成AIの進化はテキストや画像といった領域にとどまらず、音声分野にも拡大しています。

しかし、「機械的な読み上げで、イントネーションがおかしい」「日本語の抑揚や間の取り方が不自然」といった課題を感じられている方も多いのではないでしょうか。

そこで今回ご紹介するのが、音声生成AIツールの「ElevenLabs（イレブンラボ）」です。高精度なテキスト読み上げから声のクローン化、AIによる多言語吹き替えまで幅広い機能を兼ね備えているほか、細かい感情表現まで的確に表現できる自然な音声合成技術が大きな魅力です。

改めて、ElevenLabsの何がすごいのか…？その機能を以下にまとめてみました。

テキストから、人間に限りなく近い自然な音声を生成
年齢や性別、感情、イントネーションなどの細かい指定が可能
電話の自動対応など、音声AIエージェントの構築が可能
自身の録音音声から、高品質な音声クローンを生成
動画クリエイターに人気の、効果音・自然音の生成
日本語を含む、30以上の言語に対応
著作権・倫理面への配慮が充実

なかでも筆者が感動した機能が、「音声タグ」です。「happy」「angry」「excited」などのタグをテキストプロンプトに入れ込むことで、感情豊かな音声コンテンツを生成できるという優れもの。実際にどのような音声が生成できるのか？　はこちらの動画をチェックしてみてください。

さらに注目すべきは、2025年8月にリリースされたAI音楽生成ツール「Eleven Music」です。テキストを入力するだけで歌詞やボーカルを含む音楽を生成できる機能なのですが、高品質な曲が生成できるのはもちろん、著作権・倫理面への配慮が行き届いており、安心して利用できるのが嬉しいポイントです。

そこで今回は、ElevenLabsの概要から具体的な使い方まで、徹底してお伝えしていきます！無料で利用できる機能も多くありますので、ぜひ実際に使ってみてくださいね。

※記事中に音声サンプルをいくつか埋め込んでおりますので、再生する際には音量にお気をつけください

＜目次＞

高精度で感情豊かな音声合成が魅力。「ElevenLabs」とは？
まずは、ElevenLabsのアカウントを作成してみよう！
ElevenLabsの画面構成・機能について
早速、ElevenLabsを使って音声を生成してみよう！
ワンストップで多様な形式のコンテンツを生成「Studio」
新機能！楽曲制作も自由自在「Eleven Music」
クリエイター向け！音声関連の機能が満載「Audio Tools」
おわりに

※本記事に掲載している情報は、記事公開時点のものになります。サービスのアップデートにより情報が記事公開時と異なる可能性がございますので予めご了承ください。最新の情報については、ElevenLabsの公式サイトをご参照ください。また、記事の内容についてご意見や修正のご提案がございましたらこちらまでお願いします。

高精度で感情豊かな音声合成が魅力。「ElevenLabs」とは？

ElevenLabsは2022年に設立された、アメリカ発のAI音声技術企業です。設立から数年で急成長を遂げ、2025年1月にはシリーズC資金調達で1億8,000万ドルを獲得、さらに企業評価額は約33億ドルに達しています。

同社の音声合成技術の最大の特徴は、「高精度」かつ「感情豊か」な音声を生成できることです。

従来の機械的な読み上げとは一線を画し、テキストプロンプトの文脈や人間の感情を理解し、イントネーションを自動で調整してくれます。特に「間」の取り方が難しい日本語でも、とても自然で聞き心地の良い音声を実現しており、すでにビジネスシーンでの活用も進んでいます。

既存の音声生成AIツールは開発者向けのものも多く、クリエイターや個人はなかなか使いづらいイメージがあるかもしれません。

しかし、Elevenlabsは「クリエイター向け」と「開発者向け」それぞれに別のプラットフォームを用意しているため、音声生成AIツールの初心者でも楽しみながら利用できるのも嬉しいポイントです。

豊富な音声ライブラリも搭載されているため、自身の好みの声を探しながらコンテンツを生成できます。こちらのページでは、実際にElevenLabsで利用できる音声データを試聴できますので、気になる方は覗いてみてくださいね。

一方で、開発者向けには、AIエージェントを簡単に構築できるプラットフォームを展開していたり、API連携の機能が充実しています。Python・Node.js向けの公式SDKを提供しており、自社開発のチャットボットや音声アシスタントへの組み込みも容易に実現できます。

＜料金体系＞

ElevenLabsでは、無料プランと複数の有料プランが用意されています。各プランで配布される「クレジット」量が異なり、音声を生成すると消費される形です。

無料プランでは月10,000クレジットが配布されます。約10分程度の音声生成が目安で、基本的な機能が利用できますが、商用利用は認められていません。

有料プランは、個人向けには「Creator」と「Pro」の2種類で、ほか企業・エンタープライズ向けのプランが複数用意されている形です。無料プランでも複数の機能を試せるくらいの余裕がありますので、色々な機能を試しながら、利用用途に合わせたプランの選択をおすすめします。

＜生成コンテンツの著作権について＞

昨今、音楽生成AIツール領域において、よく話題になるのが「著作権」です。すでに、一部の音声生成AIツールが著作権侵害で訴訟を起こされているなど、学習させるデータの扱いがとても難しい分野だといえるでしょう。

ElevenLabsはこの課題に対し、いくつかの対策を講じています。具体的には、複数のインディーズ向け著作権管理会社と契約を結び、契約企業が管理する楽曲を適切にモデル学習に活用することで、法的リスクを低減しています。

今後は、ユニバーサルミュージック、ソニーミュージック、ワーナーミュージックといった大手レコード会社との契約締結も視野に入れているとのこと。

技術面でもいくつかの機能を導入しています。例えば、アーティスト名やアルバム名、レーベルの特定の歌詞を含む音楽生成を防止するほか、不適切な歌詞をブロックする機能が搭載されています。そのため、現状では安心して機能を利用できる環境が整備されているといえるでしょう。

※参考記事：Voice Startup ElevenLabs Launches AI Music Service – THE WALL STREET JOURNAL

まずは、ElevenLabsのアカウントを作成してみよう！

それでは早速、ElevenLabsを使ってみます！今回は「無料プラン」の範囲内で、各機能の使用感をお伝えしていきます。

また、ElevenLabsはブラウザ版のほか、iOS・Androidアプリも提供していますが、本記事ではブラウザ版での使い方を解説します。

＜アカウントの作成方法＞

まずは、新規アカウントの作成です。ElevenLabsのTOPページを開き、画面右上または中央に設置されている「サインアップ」ボタンをクリックします。

すると、Googleアカウントの連携、またはメールアドレスとパスワードによる登録画面が表示されますので、いずれかの方法でアカウントを作成してください。

作成が完了すると、ダークモード設定や誕生日の入力など、簡単な初期設定を行います。画面に従って進めていきましょう。

設定の終盤で、プラットフォームの選択画面が表示されます。ここでは、利用目的に応じて2つのプラットフォームから選択します。

それぞれのプラットフォームの詳細は以下の通りです。利用目的に合わせて適切な方を選択してくださいね。

Creative Platform

音楽や音声などのコンテンツ生成がメインのプラットフォーム

Text to Speech、Voice Changerなどの機能を利用できる

動画（アニメ・広告・音楽PV等）、ポッドキャスト、オーディオブックなどの作成に

Conversational AI

音声AIエージェントを開発できるプラットフォーム

音声認識（Speech to Text）＋自然言語処理（NLP）＋音声合成（Text to Speech）を統合

自社サービスに自動応対（予約や受付）、会話体験を組み込みたい開発者向け

すべての設定が完了し、ホーム画面が表示されれば、アカウントの作成は完了です！簡単ですね。

ElevenLabsの画面構成・機能について

次に、画面の見方です。今回は、「Creative Platform」の画面構成・機能を説明していきます。

左側メニューの機能は以下の通りです。

Home：ダッシュボード画面で、新規プロジェクトの作成が可能

Voices：AI音声の生成・保存・管理ができる

Playground：

Text to Speech：テキストを音声に変換する機能

Voice Changer：内容はそのまま、声質やアクセントを変更する機能

Sound Effects：テキストから効果音・環境音を生成できる機能

Voice Isolator：背景ノイズを除去し、声をクリアに抽出する機能

Products：

Studio：ポッドキャストなど長尺のコンテンツを生成

Music：テキストプロンプトから音楽を生成

Dubbing：動画の吹き替え音声を生成

Speech to Text：音声の書き起こしを生成

Audio Tools：音声の編集や調整ができる加工ツールのまとめ

Notifications：アップデート情報などの通知

Voicesでは、世界中のユーザーによって作成された音声データを探索することができます。このページがかなりワクワクするので、ぜひ登録したら覗いてみてくださいね…！

▼「Voices」では様々な音声データを試聴できる

ページ内では、トレンドやおすすめの音声データなどを試聴できるほか、以下のようなメニューが用意されています。

Explore

AI音声を用途・ジャンル別に検索し、気に入った音声を保存できる

My Voices

自分で作成した音声クローンや保存したお気に入り音声を管理できる

Default Voices

ElevenLabsが提供する標準音声セットで誰でも利用可能

Collections

保存した音声を用途やプロジェクトごとに整理できるグループ機能

▼Collection機能ではプロジェクトごとに音声を分けて保存が可能

早速、ElevenLabsを使って音声を生成してみよう！

それでは早速、ElevenLabsの音声生成機能をいくつか試してみようと思います。

1.Text to Speech – テキストから音声を生成

まずは基本から。テキストを入力して、音声に変換してみましょう。

画面の中央下部に表示されている「Narrate a story（物語調）」や「Tell a silly joke（ジョークを話す）」「Record an advertisement（広告収録）」などはプリセット的に使える機能で、選択すると自動でイントネーションなどを調整してくれます。

そのため、入力するテキストに合わせてプリセットを選択してもよし、選択せずに画面右に表示されている「Settings」から自身で細かく設定してもよし、です。

「Settings」内では、以下のような調整が可能です。

Voice：使用する音声データを選択

Model：音声生成に利用するAIモデルの選択（生成速度などが異なる）

Speed：読み上げ速度の調整

Stability：抑揚や感情の揺れを調整（ナレーションなど安定した喋りにしたい場合は高く設定する）

Similarity：元々指定した声にどの程度寄せるのか

Style Exaggeration：抑揚や感情表現のレベル（高くすると表現が強くなる）

Speaker boost：声の音量や存在感を強調する機能（声を際立たせたい際に活用）

今回は、こちらのSELECK記事の一部をプロンプトとして入力してみました。モデルは「Eleven v3」で、「Otani（日本人男性）」という音声データを使ってみます。

▼SELECK記事の一部をプロンプトで入力

生成された音声がこちらです！いかがでしょうか。日本語独特の抑揚なども表現されており、かなり自然な音声ではないでしょうか…！さらに、文中に出てくるプロダクト名に関しても、読み仮名を降らずとも的確に読み上げてくれているのも驚きです。

音声を生成する際に、登場人物を増やすことも可能です。やり方は、テキストプロンプト入力欄にある「Add Speaker」を選択し、別の音声データを選択するだけ。

▼「Add Speaker」で2名以上の対話にも対応

「Fumi（日本人女性）」を選択し、試しに生成した音声がこちらです。自然な流れで2人目に会話が移行していますね。

ElevenLabs（Text to Speech 2人ver）

そして、ElevenLabsの音声生成でユニークな機能の一つが、「音声タグ」です。「[（形容詞など）]」の形で入力することで声のトーンや話し方、感情などの指定ができ、生成される音声に臨場感をプラスできる機能です。

例えば、「happy（嬉しい）」「sad（悲しい）」「angry（怒り）」「surprise（驚き）」といったタグの追加ができる形です。

試しに、某脱獄ドラマに出てくる人物が話そうなセリフを入力し、音声タグを活用してみましょう。まずは音声タグをつけずに生成した音声がこちら。

続いて、音声タグを追加してみます。追加方法は自分で入力しても良いですし、画面下部の「Enhance（alpha）」をクリックすると自動でおすすめの音声タグを追加してくれます。

そして、先ほどの音声に音声タグを追加した形で、再度生成したものがこちらです。いかがでしょうか…？先ほどよりも、よりキャラクターの個性が際立つ話し方になっているのではないでしょうか（笑）。

音声タグのサンプルは、ElevenLabsの公式サイトにていくつか紹介されています。ぜひ参考にしてみてください。

▼音声タグのサンプルが紹介されている

また、こちらの動画ではプロンプト入力時のコツが紹介されています。ぜひ一緒にご覧ください。

2.Voice Changer – 声の変換

次に試すのは、「Voice Changer」の機能です。既存の音声データを別の声に変換できる機能で、イントネーションや感情はそのまま、性別を変えたり、アニメ声に変えるといったことができます。

試しに、過去に配信したSELECK mini LIVEの音声を活用して機能を試してみようと思います。まず、こちらが元のデータ。

この声を、「Asahi（日本人男性）」の声に変換してみます。元データをアップロードし、画面右側のメニューから音声データを選ぶだけです。

そして、生成された音声がこちら！イントネーションなど、かなり忠実に反映されていますね…！！！Text to Speechの機能よりもかなり自然な形でAI音声が生成できたように思います。これは使えそう！

3.Sound Effects – 効果音の生成

次に試すのは、「Sound Effects」です。これは、テキストを入力するだけで、効果音や環境音などを生成できる機能です。

はじめに日本語で何度か試してみたものの、なかなかうまくいかず、英語のプロンプトに変更したところ、精度高くプロンプトの内容が反映されました。

試しに、「Ocean waves gently lapping against the shore, rhythmic sound of waves washing over sandy beach」（和訳：海辺の波音、砂浜に打ち寄せる波）と入力し、生成された音声がこちらです。

生成時には4つのサンプルが提示され、それぞれ試聴して好きなものをダウンロードできます。

他にも、カーチェイスのような臨場感ある音声も生成できました。プロンプトはChatGPT、Claudeなどを用いて作成し、英語に翻訳するのがおすすめです。

ワンストップで多様な形式のコンテンツを生成「Studio」

左側メニューにある「Studio」は、ポッドキャストやオーディオブック、ナレーションなど、長尺のコンテンツを生成するのに特化させた機能です。主に、以下のような特徴があります。

通常のText to Speechよりも長いテキストを処理
PDFやWord、URLなどの形式でテキストを入稿できる
無料プランでは利用できず、有料プランのみ利用可能
生成したコンテンツは商用利用が可能

▼「Studio」のTOP画面

2025年8月時点で、Studioで利用できる機能は以下の通りです。

Start from scratch：自由にテキストを入力し、音声コンテンツを生成

Create an audiobook：PDFやdocxなどのデータからオーディオブックを生成

Create a voiceover：動画用のナレーション音声を生成。パートごとに音声データの変更も可能

Video to music：アップロードした動画に合わせたBGMや効果音を自動生成

Create a podcast：ポッドキャストを生成・編集

Import URL：Webサイト等のURLをインポートし、音声コンテンツ化