【2024年度版】生成AIの4つの種類と注目サービス25選｜活用法から最新動向まで徹底解説

公開日：2024 年 8 月 15 日

「生成AI（ジェネレーティブAI）」は、ビジネスや日常生活を革新する技術として急速に普及しています。画像や音声、テキストなど、さまざまなコンテンツを「誰でも」「手軽に」生成できることで、その注目度は近年飛躍的に高まりました。

ただし、ひとくちに生成AIと言っても、利用用途や生成したいコンテンツによって最適なツールは異なります。そこで本記事では、生成AIを主要4カテゴリー（プラスα）に分類した上で、各分野の代表的なサービスを詳しく解説していきます。

また、記事後半では、別カテゴリーとして最新のマルチモーダルAIや特殊用途AIについても紹介し、実践的な活用法や最新動向をお伝えしていますので、ぜひ最後までお読みいただけますと幸いです。

＜目次＞

「生成AI」とは？その定義と進化
テキスト生成AIとは？（ChatGPT、Claude、Gemini他）
画像生成AIとは？（Stable Diffusion、Midjourney、DALL・E3他）
音声生成AIとは？（Text-to-Speech AI、Resemble AI他）
動画生成AIとは？（Runway、Luma、Stable Animation他）
マルチモーダルAIと特殊用途AI（Perplexity、Dify他）

※本記事に掲載している情報は、記事公開時点のものになります。サービスのアップデートにより情報が記事公開時と異なる可能性がございますので予めご了承ください。最新の情報については、各サービスの公式ページをご参照ください。また、記事の内容についてご意見や修正のご提案がございましたらこちらまでお願いします。

「生成AI」とは」？その定義と進化

生成AI（ジェネレーティブAI）は、機械学習モデルを用いてさまざまなコンテンツを作成するAI技術です。テキスト、画像、音声、動画など、様々な形式のデータを生成できます。

従来のAIは、すでに学習済みの内容の中から適切な回答を提示する性質を持っていましたが、それに対して生成AIは、0から1を生み出す能力に優れ、オリジナルコンテンツを作り出せることが特徴です。

そのため、テキストや画像、動画など幅広いコンテンツを生成でき、作業を大幅に効率化したり、アイデアを具現化したりすることでビジネスシーンにも応用可能です。

昨今、生成AIが注目されるようになった背景としては、以下のような要素が挙げられます。

精度の向上：回答の「正しさ」はもちろん、文章表現や画像生成においても「まるで人間が作成したかのような」自然な出力が可能
学習量の豊富さ：スペックの進化により、膨大なデータを学習し、幅広い知識を獲得できるようになったことで、モデルの性能が向上
高速な生成：最適化されたアルゴリズムによって、冗長な計算が不要になり、短時間で結果を生成可能に
使いやすさ：ChatGPTのような「対話型」に代表される、専門知識がなくても誰でも直感的に操作可能なUIが誕生
コスト削減と創造性の拡張：人間による作業や思考の時間を自動化によって削減するだけではなく、発想を補完し新たなアイデアまでも提案

ここからは、生成AIを「テキスト生成AI」「画像生成AI」「音声生成AI」「動画生成AI」の4つの種類に分類し、それぞれ代表的なツールと、その特徴を簡単にお伝えしていきます。

テキスト生成AIとは？（ChatGPT、Claude、Gemini他）

テキスト生成AIは、自然言語処理技術を活用し、さまざまな文章を自動で生成する技術です。データベースやインターネット上の文章を学習し、ユーザーの質問や指示に応じて、まるで人間が書いたかのような自然な文章を作成します。

その主な用途は以下の通りです。

ビジネス文書（メール、報告書、提案書）の作成

クリエイティブライティング（小説、詩、脚本）

コンテンツ制作（ブログ記事、ニュース記事、製品説明）

翻訳・要約

プログラミングコードの生成

チャットボット / カスタマーサポート

SEO最適化コンテンツの作成

テキスト生成AIの多くは、事前に学習した大規模言語モデル（LLM）に基づき、特定の単語の並びの次に登場する確率の高い単語は何か？という統計学的なアプローチを行って文章を生成しています。

また、他の生成AIツールと比較しても、人間と対話するかのように利用できる対話型のUIが採用されているものが多く、手軽に利用できることで、世界中で急速に普及しました。

以下に、代表的なテキスト生成AIとその特徴をご紹介します。

※ご紹介するテキスト生成AIの多くは、もはやテキストだけではなく画像、音声、ビデオなど複数の形式のデータを扱う「マルチモーダルAI」に近いものへと進化していますが、分類のしやすさから今回は「テキスト生成AI」としてご紹介します。

1.テキスト生成AIの先駆け「ChatGPT」

OpenAI社が開発したChatGPTは、テキスト生成AIの先駆け的な存在です。その精度の高さから、2022年11月のリリースから5日間で100万人、2ヶ月で1億人と世界最速でユーザーを獲得したサービスとなりました。

＜特徴＞

GPTシリーズのLLMを使用
高度な自然言語理解と生成能力
幅広い分野の知識を活用した回答
対話形式でのインタラクション
GPT-4oモデルによる高精度な文章生成

GPTとは「Generative Pre-traind Transfomer」の略で、本に換算すると約25万冊分以上の、圧倒的に大規模な言語データを事前に学習させることで、従来は人間にしかできなかった知的作業を高精度で実施できるのが大きな特徴です。

リリース後のモデルのアップデートも高い頻度で行われています。2024年5月に発表されたモデル「GPT-4o（GPT-4 omni：オムニ）」では、テキスト・オーディオ・画像・ビデオの入出力機能を備え、マルチモーダル機能（※）が強化されました。

またコンテキスト理解力が強化され、精度や速度が向上し、より自然な文章を生成可能です。

※マルチモーダルとは、テキストや音声、画像、動画などの多様な形式のデータを組み合わせて学習し、それらの中から2つ以上の情報を組み合わせて、予測や分類、そして情報の出力を行うこと

▼ChatGPTを活用してノーコードでAIチャットbotを開発できる機能「GPTs」について、以下の記事でもご紹介しています
【活用法6選】GPTsとは？使い方や注意点、おすすめbotまで徹底解説！ – SELECK

2.文章生成力はピカイチ！「Claude」

2023年に登場したClaudeは、アメリカのスタートアップ企業であるAnthropic社が提供するテキスト生成AIです。ChatGPTと同様の対話型UIが特徴で、生成AIの中で最も人気の高いサービスのひとつです。

＜特徴＞

独自開発のLLMを使用
倫理的配慮を重視した設計（人間らしいふるまいの実現）
長文の処理に強い
多言語対応（100以上の言語をサポート）
API提供によるカスタマイズ性の高さ

Claude3シリーズ（Opus、Sonnet、Haiku）がリリースされた当初は、生成された文章が非常に自然で、出力される日本語も「日本人特有の行間を読んだような話し言葉」で生成すると話題になりました。

現在は用途に応じたモデル選択が可能です。例えば、Opusモデルは特に長文処理と複雑なタスクに優れており、学術研究や法律文書の分析などに適しているとされています。

また、新機能である「Artifacts」を使うと、ユーザーはAIと対話しながらインタラクティブに作業を行えます。具体的には、コード開発、契約書やビジネスレポートの作成、UIUXのデザインなどに利用でき、さまざまなビジネスシーンに活用できる強力なツールとして多くの人に利用されています。

▼Claude3の使い方について、より詳しくはこちらの記事もお読みください
「Claude 3の文章生成がすごい」と話題！自然な日本語表現ができる生成AIの使い方を徹底解説 – SELECK

3.Googleが作ったAI「Gemini」

Geminiは、Googleが開発したLLMを用いたテキスト生成（マルチモーダル）AIです。2023年12月のGemini発表前は、OpenAI社のGPT-4がテキスト生成AIの主力でしたが、発表後はGPT-4をしのぐとされ、大きな注目を集めました。

＜特徴＞

自然言語処理、画像認識、コード生成、数学的推論など、多様なタスクに対応
Ultra、Pro、Nanoなど、複数のバージョンがあり、それぞれ特徴が異なる
150以上の国と地域で利用可能・35以上の言語に対応

またGoogleは、Geminiを活用するための開発プラットフォームとしてGoogle AI Studioを無料で提供しています。開発者はGoogle AI Studioを通じてGemini APIにアクセスしたり、AIとやり取りした内容をGoogleドライブへ保存したりといったことが可能です。

4.Officeユーザーの業務を革新する「Copilot」

CopilotはMicrosoftが開発したAIアシスタントで、Windows11やMicrosoft Officeなどの製品に組み込まれており、テキストによる指示だけでメールの下書きやスライド、図表を作れます。

＜特徴＞

OpenAI社のGPT-4をベースとしたテキスト生成AI機能を搭載
画像生成ではDALL-E モデル（※後述）を利用可
Microsoft 365 アプリケーション内にあるOfficeツールと連携することで、さまざまな業務を効率化できる
Windows 11 のタスクバーや、Microsoft Edge ブラウザ、Bing 検索エンジンなどからもアクセス可能

Wordではリサーチや文法の修正、Excelではグラフ作成や数式生成、PowerPointではプレゼンテーションの作成を支援、Teamsでは会議の要約やアクションアイテムの提案など、多彩な活用ができるため、Officeユーザーにとっては業務効率化のためには外せないツールとなりそうです。

5.ドキュメントツールが更に進化「Notion AI」

Notionは、メモやタスク管理、データベースなど複数の機能を一元的に使えるクラウド型のドキュメントツールです。そのNotion上で利用できるAIアシスタントサービスがNotion AIで、2023年2月にリリースされました。

＜特徴＞

Notion上に保存されているデータを活用してコンテンツを生成できる
文章の自動生成や、既存の文章の校正・改善・要約などを実行できる
複数の言語に対応した翻訳機能を持ち、異なる言語間での文書作成やコミュニケーションを容易にする

Notionのインターフェース内にシームレスに組み込まれており、既存のワークフローを妨げることなく利用できるので、ユーザーにとっては非常に便利な機能です。

さらに、文章にかかわる機能だけでなく、アイデア出しやブレインストーミングの補助、データ分析、出力結果のデータベース化なども可能です。他にも、上級者向けではありますが、Mermaid記法のシーケンス図や、Notionのデータベースの関数作成もでき、使い方によってその可能性は無限大です。

▼Notion AIの使い方について、詳しくはこちらの記事もぜひご覧ください
【連携ツール5選】Notion AIとは？始め方からビジネスシーンの活用術まで徹底解説！ – SELECK

画像生成AIとは？（Stable Diffusion、Midjourney、DALL・E3他）

画像生成AIとは、生成したい画像の雰囲気やイメージをテキストで入力するだけで、自動的に画像を生成してくれる技術です。アニメや実写など、さまざまなタッチの画像を、誰でも簡単に高い精度で作成できます。

基本的には、入力したテキストに対し、学習したデータ内にある特徴が一致する複数の画像を抽出し、それらを組み合わせて新たな画像を生成する形です。

主な用途は以下の通りです。

イラスト、アート作品の制作

製品や建築のデザイン

企業・サービスロゴ作成

広告・マーケティング素材の作成

映画・ゲームの背景やキャラクターデザイン

ファッションデザイン（アバター用ファッションなど）

医療画像の分析

多くのツールやサービスがある画像生成AIですが、生成された画像の法的な取り扱いについては注意が必要です。多くの国では、AIが生成した作品に対する著作権保護の範囲が明確に定められていません。

そのため、画像生成AIを活用する際は、著作権を侵害していないかを十分に確認しながら、最新情報にも注意を払う必要があります。

以下に、代表的な画像生成AIと、その特徴を簡単にまとめます。

6.フォトリアリズムに優れた「Stable Diffusion」

Stability AI社が開発した画像生成AIで、早くから人気を集めたサービスのひとつ
「潜在拡散モデル」というアルゴリズムが使われていることで、テキストのみで画像を生成できる
オープンソースとして提供されており、開発者や研究者が自由にアクセスして利用可能
フォトリアリズムに優れたモデル、複雑な構図やダイナミックな照明を処理する能力があるモデルなど様々なバリエーションのモデルが存在する

▼こちらの記事では、Stable Diffusionに特化したプロンプトの検索エンジン「Lexica」を紹介しています
【例文集も】ChatGPTに「正しく命令」できてる？ AI活用に必須の「プロンプト」の全てを徹底解説 – SELECK

7.Discord上で簡単に使える「Midjourney」

オンラインコミュニケーションツール「Discord」にテキストを入力すると、そのキーワードや文章に適したイラストや画像を生成してくれるサービス
ディティールの表現や構図が優れており、ほとんど写真と見分けがつかないほどのクオリティの画像を作成可能
Stable Diffusionと比較するとカスタマイズオプションが少ないが、簡単に高品質な画像を生成できる使いやすさが特徴

▼Discord上での使い方については、こちらの記事でもご紹介しています
【おすすめツール10選】Discordをもっと便利に！AI画像生成やNFTの管理も〜応用編〜 – SELECK

8.OpenAIの画像生成AI「DALL・E3」

ChatGPTの開発元OpenAI社が2022年4月に開発した画像生成AIツール
「CLIP」という画像認識モデルを活用して、入力テキストに応じた画像を生成
この特徴的な名前は、画家のサルバドール・ダリとピクサー映画に登場するキャラクターであるウォーリー（WALL-E）が由来
生成した画像を起点に別のバリエーション画像を生成する機能や、オリジナル画像に背景を書き足す機能などを備えている

9.カスタマイズ性の高さがウリの「Dzine（旧：Stylar.ai）」

既存の画像を利用して新しい画像を生成したり、画像の特定部分を変更することが可能
画像内の顔のみの交換や、選択した範囲のみにデザインの変更など、さまざまな編集機能を搭載している
レイヤーベースで、本格的な画像編集が可能
直感的な操作と簡単な操作で、初心者から上級者まで楽しめる

10.デザインツール「Canva」に備わったAI「Canva AI」

世界190ヵ国で展開され、月間アクティブユーザー数が1億を超えるほどの人気デザインツール「Canva」のAI機能
2023年3月に、AIを搭載した「マジック機能」を含む15の新機能が発表
使い方が非常に簡単で、イメージするものをテキストで入力するだけで、1度に4枚の画像を生成できる
他にも、テキストや動画なども簡単に生成できるため、プレゼン用の資料作りも簡単
直感的な操作が可能であり、テンプレートも豊富であるためデザイン初心者にも嬉しいツール

▼Canvaについてはこちらの記事でも詳しくお伝えしています。ぜひ一緒にご覧ください
【AI搭載の無料デザインツール】Canva（キャンバ）を徹底解説！話題の便利機能もご紹介 – SELECK

音声生成AIとは？（Text-to-Speech AI、Resemble AI他）

音声生成AIは、テキストデータを人間のような自然な音声に変換する技術です。コンピュータに大量の音声データを与えた上で、その特徴を解析した結果に基づき、新たな声を人工的に生成します。

特定の人間の声を音声生成AIに学習させれば、機械特有の不自然さを感じない、その人によく似た声と話し方を再現することも可能です。

この主な用途は以下の通りです。

ナレーション、音声ガイドの作成

オーディオブック、ポッドキャストコンテンツの制作

バーチャルアシスタント、チャットボットの音声

多言語コンテンツのローカライズ

音声合成による楽曲制作

教育コンテンツの音声化

アクセシビリティ向上（視覚障害者向けサービスなど）

ゲームやアニメーションのキャラクターボイス作成

最近では、ライブストリーミングや通話でのリアルタイムでの音声変換への対応や、感情表現の進化など、そのクオリティはますます向上しています。

以下に、代表的な音声生成AIとその特徴を簡単にまとめます。

11.Google発！音声は380種類以上「Text-to-Speech AI」

Googleの最先端AIテクノロジーを活用したAPIを使い、テキストをリアルな音声に変換する音声生成AI
380種類以上の音声と50以上の言語をサポート
声の品質が非常に高く、人間が話しているような音声に加え、スピードや発音、感情表現や抑揚なども調節可能

12.3秒の音声サンプルから声を再現「VALL-E」

Microsoftが開発した音声合成AIモデルで、わずか3秒の音声サンプルを基に、その人の声を忠実に再現できる
一度声の特徴を学習すると、録音環境や感情的な抑揚も再現できる
拡張版のVALL-E-Xを使うことで、英語以外の言語へ変換が可能

13.リアルタイムでAI音声を生成「Resemble AI」

10秒の音声サンプルから自然なAI音声を生成する音声クローン
リアルタイムでの変換と合成やAPIによる統合もできるので、既存のアプリケーションやシステムへ簡単に組み込める
合成された音声の感情やトーンをカスタマイズしたり、音声ジェネレーターを使用して149以上の言語に変換も可能

14.感情まで表現できる「Amazon Polly」

ニューラル音声合成（NTTS）の導入により、よりリアルで感情豊かな音声提供が強みのクラウドサービス
数十の言語と音声が用意されており、さまざまなシーンで最適な音声を選択可能
400万文字まで無料で利用可能であり、費用を抑えつつ高品質な音声を利用できる

15.日本初！無料で汎用性が高い「VOICEVOX」

2021年にリリースされた、無料で使える中品質なテキスト読み上げ・歌声合成ソフトウェア
多数のキャラクター音声が提供されており、それぞれ異なる声質やスタイルを持っている
イントネーションを調整したり、生成した声でハミングさせることも可能
汎用性が高く、使いやすい点で日本国内の多くのユーザーに支持されている

動画生成AIとは？（Runway、Luma、Stable Animation他）

動画生成AIとは、テキストや静止画像を基にAIが自動で動画を生成する技術です。これまで、実現が最も難しい分野のひとつと言われていましたが、近年では高品質な動画生成AIが次々と発表され大きな話題を呼んでいます。

従来は動画制作にあたり、撮影や編集など多くの手間とコストがかかっていたと思います。しかし、動画生成AIを使うことで、これらのプロセスを簡略化・省略し、動画を簡単に作成できるようになりました。

主な用途は以下の通りです。

広告・マーケティング動画の作成

教育用コンテンツの生成

エンターテインメント（短編映画、アニメーション、ミュージックビデオ）

製品デモンストレーション

ニュース映像の自動生成

バーチャルインフルエンサー

建築やインテリアデザインの視覚化

科学シミュレーションの可視化

最近では高解像度・長尺動画の生成能力の向上や、3D動画生成技術の発展も著しく、非常にクオリティの高い動画が生成されています。

以下に、代表的な動画生成AIとその特徴を簡単にまとめます。

16.もはや人間の編集技術を超えた「Runway」

2023年2月にGen-1と称した動画生成AIへのアーリーアクセスを開始。生成された動画のクオリティの高さが世間から大きな評価を得た
テキストや画像を元に簡単にクオリティの高い動画を生成できるため、幅広いユーザーが活用している
生成した動画に自動で字幕をつけたり、音楽を生成してBGMとして追加するといった作業も可能
ワークスペースを作成し、第三者とリアルタイムで共同編集できる
Gen-3 Alphaでは、特に実写系の動画生成において高品質な結果を提供し、カメラワークの多彩さも強み

▼Runwayの使い方について、詳しくはこちらの記事もぜひご覧ください
【保存版】動画編集に革命！AIツール「Runway」とは？初心者向けに利用方法を徹底解説 – SELECK

17.スマホアプリも便利な「Luma Dream Machine」

Luma AIが2024年6月にベータ版をリリースした動画生成AIツールで、特に、高品質な5秒間の動画を迅速に作成することが特徴
物理的に自然な動きであったり、カメラワークが自然なのが強み
動画の始点と終点の画像を指定することで、その間をAIが補完して動画を生成するキーフレーム機能を搭載
無料プランでも一定の動画生成が可能で、またスマホアプリでも操作可能なので手軽に利用できる

18.プロ仕様の動画生成AI「Stable Animation」

Stability AIが開発したアニメーション生成ツール
Stable Diffusionモデルを使用してテキストプロンプトや画像、ビデオを基にアニメーションを生成する
Stable Diffusion 2.0やStable Diffusion XLなど、最新のStable Diffusionモデルを利用
アーティストや開発者が利用できるSDKとして提供されており、様々なパラメータを調整してカスタマイズされたアニメーションを作成できる

19.OpenAIが開発中の秘蔵っ子「Sora」

OpenAIが開発したSoraは、まだ一般公開されておらず、限られた専門家やクリエイターが利用中
リリース後は動画コンテンツの制作や編集に大きな変革をもたらすと期待されている
最長1分間の動画を作れる上、映画やゲームのようなワンシーンをたった数行の文章で作れる点が最大の魅力

20.世界が一般公開を待つ「Lumiere」

Google Researchから2024年1月に発表された動画生成AI
動画生成AIにおける課題である、「リアルで多様、かつ一貫性のある動きの表現」の実現を目指して開発中
テキストや静止画から動画を生成したり、テキストで動画を修正したりといった作業が可能
現時点では論文とデモ動画の公開のみだが、非常にクオリティが高く、世界中のユーザーから一般公開を待ち望まれている

▼以下の記事では、Lumiereについてより詳しくお伝えしています
Google Researchが発表。驚くほどリアルな動画生成AI「Lumiere」とは？RunwayやPikaもご紹介 – SELECK

マルチモーダルAIと特殊用途AI（Perplexity、Dify他）

これまで、テキスト生成AI、画像生成AI、音声生成AI、動画生成AIを紹介してましたが、これら4分類のどれにもあてはまらない、より高度なAIサービスも続々登場しています。

例えば、テキスト生成AIのパートで登場した「マルチモーダルAI」です。これは、複数の情報モダリティ（種類）を同時に処理し、理解する人工知能システムです。

テキスト、画像、音声、動画などの異なる形式のデータを統合的に扱うことで、従来のAI技術とは違い、複数のデータ統合により非常に高度な情報処理を実現できるのが特徴です。

例えば、ビジネスシーンでは業務効率化や開発業務などに、日常生活ではタスク管理やクリエイティブな作業などに使用できるため、生活全体を豊かにする可能性を秘めています。

他にも、上記のカテゴリー分けには当てはまらない、独自のAIサービスも続々と登場していますので、特に注目すべきサービスを以下ご紹介します。

21.検索やリサーチに強い「Perplexity」

Perplexityは、AIを活用した先進的な検索エンジンであり、正確で信頼性の高いリアルタイムの回答を提供します。2024年6月には、ソフトバンクがPerplexityとの戦略的提携を発表しており、従来の検索エンジンの代替として大きな期待が寄せられています。

＜特徴＞

従来の検索エンジンやテキスト生成AIとは異なり、Web上の最新のデータに基づいた回答を要約して提供
検索結果に加え、情報の参照元となるURLや関連情報も表示
検索した内容をまとめて、Webページとして外部公開・URL共有が可能
GPT-4oやClaude 3.5 Sonnet、Mistral LargeなどのLLMを利用して、文脈に基づいた回答を生成
テキストだけでなく、画像やPDFなどのファイルもプロンプトとして扱うことが可能

▼Perplexityの詳しい機能については、こちらの記事もぜひご覧ください
これはGoogle検索を超えた…！AI検索エンジン「Perplexity AI」を【超・徹底解説】 – SELECK

22.開発系のAIツールならこれ！「Dify」

Difyは、LangGenius, Inc.が提供するオープンソースのLLMアプリ開発プラットフォームです。誰でも簡単にAIアプリを開発できることから、業務自動化・効率化の領域で注目されています。

具体的なユースケースとしては、カスタマーサポートや情報提供に利用できるチャットボットの生成や、Excelなどで特定のタスクやワークフローを自動化するエージェントの構築などが挙げられます。

＜特徴＞

プログラミングの知識がなくてもAIアプリケーションを構築できる、いわゆるノーコードツール
「ワークフロー」という機能を用いることで、直感的なUIで、誰でも簡単にアプリを開発可能
OpenAI、Claude、Azure OpenAI、Llama2、Hugging Face、Replicateなど、さまざまなAIモデルプロバイダーをサポートしており、目的に応じて最適なモデルを選択できる
オープンソースとして提供されており、無料で多くの機能を利用可能
豊富なテンプレートとコンポーネントも用意されている

23.ノーコードでWebサイトを構築できる「Create.xyz」