• コラボレーター
  • SELECK

【ツール6選】複数の情報を学習・処理する「マルチモーダルAI」とは?活用事例まで徹底解説

ChatGPTの登場以来、XなどのSNSを中心に世間を賑わせているAI(人工知能)。SELECKでも、AIを一つのテーマに掲げ、電話AI SaaS「IVRy」の事業開発ストーリーや、リンクアンドモチベーション社の業務プロセス改善に係る取り組み「GPT Bootcamp」などを取材してきました。

そして、AIの中でもさらなる盛り上がりを見せている分野が、「マルチモーダルAI」です。マルチモーダルAIとは、テキストや音声、画像、動画などの多様な形式のデータを組み合わせて学習し、それらの中から2つ以上の情報を組み合わせて、予測や分類、そして情報の出力を行うAIのことです。

従来のAI技術が単一のデータ形式に特化していたのに対し、マルチモーダルAIは複数のデータを統合させることで、より高度な情報処理を実現します。

マルチモーダルAIをビジネスシーンに応用することで、これまで以上に業務を効率化したり、新しいユーザーインターフェースの開発が行えるようになります。さらに私生活においても、日常タスクの自動化や、高度なツールを使わずともクリエイティブな作業を簡単に行えるようになるなど、私たちの生活をより豊かにする可能性を秘めています。

そこで今回は、このマルチモーダルAIについて、その概要から実際の活用シーン、マルチモーダルAIを活用したツールまでをご紹介します。ぜひ最後までご覧ください。

<目次>

  • そもそも、「マルチモーダルAI」とは何か?
  • 1980年頃から開発されていた?マルチモーダルAIの歴史を遡る
  • マルチモーダルAIが活用されている8つの領域
  • 【厳選6つ】マルチモーダルAIを活用しているツール

※本記事に掲載している情報は、記事公開時点のものになります。サービスのアップデートにより情報が記事公開時と異なる可能性がございますので予めご了承ください。最新の情報については、各サービスの公式ページをご参照ください。また、記事の内容についてご意見や修正のご提案がございましたらこちらまでお願いします。

そもそも、「マルチモーダルAI」とは何か?

改めて、マルチモーダルAIとは、テキスト、音声、画像、動画など多様な形式のデータを組み合わせて学習し、処理するAIのことを指します。マルチは「複数」、モーダルは「形式」という意味です。

従来のAIの多くは「シングルモーダルAI(または、ユニモーダルAIともいう)」に分類され、例えば、言葉を学習して対話するAIや、画像を解析して物体を識別するAIなどのように、単一のデータ形式に焦点が当てられていました。

これに対し、マルチモーダルAIでは、映像と音声といった異なる形式のデータを組み合わせて学習でき、より複雑な状況判断や、別の形式で情報を出力できるのが大きな特徴です。

このマルチモーダルAIを実現するには、異なる形式のデータを処理し、それらの関連性を理解する必要があるため、人間の神経細胞の仕組みを再現したニューラルネットワークを複数使用する必要があります。

例えば広く知られる「深層学習(ディープラーニング)」は、多層のニューラルネットワークを用いた機械学習の手法の一つで、マルチモーダルAIの開発には欠かせない技術の一つです。

では、マルチモーダルAIのように、AIが複数の形式の情報を組み合わせて学習できるようになると、具体的に何が変化するのでしょうか。

まずメリットとしては、情報処理の精度が上がる点が挙げられます。マルチモーダルAIは、複数の異なるデータを統合して解析できるため、シングルモーダルAIでは捉えきれなかった情報のニュアンスや関連性を理解でき、より緻密な情報処理を行うことが可能になります。そのため、複数のAIモデルを併用するといった手間もなくなるでしょう。

さらに、シングルモーダルAIよりも扱える情報の形式が大幅に増えるため、人間の認識により近い形、あるいはそれ以上の正確さをもって情報を処理できる点が強みといえるでしょう。

これにより、製品開発や顧客体験の改善といったビジネスシーンでの活用が期待されるのはもちろん、個人の生活においても、例えばスマートデバイスの高度化や健康管理を効率化できるなど、その活用可能性は多岐にわたります。

しかし、その一方で、マルチモーダルAIの活用には未だ多くの課題が存在しています。

第一に、AIが出力する情報の精度を上げるには、膨大なデータを学習させる必要があり、それにはデータ収集と学習にかかる時間や手間、コストがかかります。

また、ChatGPTのようなAIモデルは、人々が読み込ませている日常的なデータから学習能力を向上させていきますが、特定の技術や専門分野に関する情報を出力させるためには、専門知識をAIに学習させるための手段を検討する必要があります。

さらに、データのプライバシーとセキュリティの問題、異なるデータソースを統合する際の倫理的な課題など、解決すべきことが多く残っているのが現状です。

1980年頃から開発されていた?マルチモーダルAIの歴史を遡る

マルチモーダルAIが広く認知されるようになったのは、つい最近のことだと思われるかもしれませんが、実は、その研究は1986年頃にまで遡ります。

当時のマルチモーダルAIは、現在のように単独での活用を目的としたものではなく、あくまでも音声認識技術などのシングルモーダルAIを補助する役割で利用されていました。

例えば、人間は唇の動きから言葉を推測できる一方で、シングルモーダルAIではそれができません。そこで、AIに唇の動きを認識させるために、動画と文章を同時に学習させようとする試みが行われ、マルチモーダルAIの開発がスタートしたのです。

そして、マルチモーダルAIの研究は、2000年代初頭に深層学習(ディープラーニング)が出現したことにより大きく前進していきます。この時期に、複数のデータを組み合わせて解析する能力が飛躍し、組み合わせる方法の多様化も進みます。

2010年代に入ると、人間の感情と言葉を結びつける研究が加速し、音声や表情から感情を推測するAIや、文章を音声に変換し感情に応じた表情で読み上げるAIなどが誕生したことで、より人間らしいコミュニケーションや親しみやすさの演出が可能になっていきました。

同時に、ビジネスや産業におけるマルチモーダルAIの社会実装も拡大していきます。自動運転車のセンサーや、医療診断、EコマースやSNSに投稿されるテキストの解析など、様々な分野での課題解決に貢献し、新たな価値を生み出しています。

さらに、専門家や企業間で連携し大規模な研究開発プロジェクトも行われており、例えば産業技術総合研究所では、2022年10月より「マルチモーダルAI技術の多様な材料・プロセス開発への展開」を目指すDXプロジェクトが始動しています。同プロジェクトには、異なる専門分野から80名以上の研究者が集結し、新たな未来を創出すべく共同で研究が進められているそうです。

※出典:マルチモーダルAI – 産総研

このように、マルチモーダルAIは人間の認識やコミュニケーション能力に近づくことを目指し、研究が進められてきました。技術の進歩に伴い、マルチモーダルAIは私たちの日常生活を豊かにするだけでなく、人間と機械の関係性、さらには社会全体の構造に大きな変革をもたらすことが期待されています。

マルチモーダルAIが活用されている8つの領域


マルチモーダルAIは、その高度な情報処理能力により、幅広い業界で活用されています。ここでは8つの分野別に、マルチモーダルAIの具体的な活用シーンをご紹介します。

1.セキュリティ

例えば、ビルのセキュリティシステムにもマルチモーダルAIが活用されています。防犯カメラの映像と音声データを同時に処理することで、ビルのエントランス部分で不審な行動をする人物を検知し、その行為を迷惑行為だと認識します。これにより、不審者の侵入防止や迷惑行為の把握が可能になり、セキュリティレベルが向上します。

2.製造業

製造業の現場では、設備の異常検知にマルチモーダルAIが活用されています。従来のシステムでは設備の画像データのみを分析していたため、故障の予兆を見逃してしまうことが多くありました。

そこでマルチモーダルAIを応用することで、画像に加えて、振動や音のデータも組み合わせて分析でき、微細な異常や故障の兆候を早期発見できるようになります。これにより、予期せぬダウンタイムを減少させ、生産性の向上やメンテナンスコストの削減に寄与します。

3.自動車

自動運転技術の分野では、マルチモーダルAIの活用が不可欠です。私たち人間は、運転中に周囲の状況を把握し適切な判断を下すために、視覚、聴覚、触覚などの情報を総合的に処理しています。

そこで、マルチモーダルAIを活用し、カメラやレーダー、LiDAR(レーザー光による対象物の検知と測距)など複数の情報を統合することで、人間と同等、あるいはそれ以上のレベルでの状況認識が可能になり、自動運転車の安全性向上に貢献します。

4.医療

超音波検査やMRIなどの画像診断のシーンでは、マルチモーダルAIを活用することで、画像データと患者の詳細な医療情報を組み合わせた分析が可能になり、疾患の正確な診断を行えるようになります。これにより、検査スピードの向上や、患者へのより早期かつ適切な治療提供が可能になれば、医療機関と患者の双方にとっての負担軽減に繋がります。

5.教育

教育分野では学習者の理解促進を目的として、マルチモーダルAIを活用し、テキスト、画像、音声、動画などの異なる形式のデータを組み合わせた教材が開発されています。

また、コロナ禍を通じて増加したオンライン授業でマルチモーダルAIが活用されている事例もあります。例えば、受講者の表情や発言を解析したり、教育者の音声をリアルタイムでテキスト化するなどして、学習体験の質の向上を目指すことができます。

6.農業

一次産業においても、マルチモーダルAIの応用が進んでいます。例えば農業の分野においては、衛星画像や気象情報、土壌に関するデータを組み合わせて分析することで、作物の健康状態をモニタリングし、最適な収穫時期を把握したり、病害の予防・早期発見が可能となり、生産性の向上に貢献します。

7.小売・サービス業

小売およびサービス業では、顧客体験のパーソナライズやサービスの最適化を目的としてマルチモーダルAIが活用されています。例えば、店舗では顧客の購買行動や反応をリアルタイムに分析することで、個々のニーズに応じた商品やサービスの提案が可能となります。

さらに、SNS上に投稿されたテキストや画像データを分析することで、顧客の好みやトレンドを把握でき、マーケティング戦略や商品開発に繋げることも可能です。

8.スポーツ

スポーツ業界でも、マルチモーダルAIの活用が進んでいます。例えば、サッカーではフィールド上のセンサーや空中からの映像、GPS、選手が身につけるウェアラブルセンサーなどの多様な情報を収集することで、選手のパフォーマンスや健康状態などを分析できます。これらのデータを蓄積していけば、チームの戦術をより効率的に、そして正確に計画することが可能になるでしょう。

【厳選6つ】マルチモーダルAIを活用しているツール

1.ChatGPT(GPT-4)

OpenAIによって開発されたChatGPTの最新バージョン(※2024年4月時点)であるGPT-4は、従来のテキストベースの対話能力に加え、画像や音声の認識機能を備えたマルチモーダルAIです。

元々ChatGPTは、テキストによるやり取りに特化したAIでしたが、GPT-4にアップグレードされたことで視覚的な情報を理解し、大学の物理テストにも合格可能なレベルの回答を出力できるようになるなど、より高度な課題にも対応可能になりました。

個人での具体的な活用方法としては、例えば食材の写真をアップロードして献立を考えてもらったり、使用方法が分からない製品の写真を読み込ませて、操作方法のアドバイスをもらうといった形で役立てることができます。

注意点としては、現在GPT-4では画像の解析が可能ですが、生成は行えません。つまり、ユーザーが入力した画像の解析は可能となったものの、出力はテキストに限られています。そのため、クリエイティブな画像生成などには、他のツールの利用が必要です。

▼ChatGPTに関連した、以下のSELECK記事もぜひ一緒にご覧ください

2.Gemini(Google)

GeminiはGoogleが開発しているAIです。文章や画像の解析に留まらず、プログラミングコードの理解が可能という点が画期的であり、大きな注目を集めました。

Geminiは、その性能に応じて「Nano」「Pro」「Ultra」という3つのモデルに分かれていますが、中でも最も高性能である「Ultra」は、MMLU(大規模マルチ言語理解)において90%というスコアを記録しています。このスコアは、人間の専門家レベルの知識と理解を超えるものであり、AIの進化を物語る結果といえるでしょう。

Geminiは現在、Google ChromeでBardにアクセスすれば、ChatGPT のようにブラウザ上で利用できます。なお、利用は無料です。(2024年4月時点)

3.Runway(Gen-2)

Runway」は、動画編集・生成が可能なマルチモーダルAIツールです。元々2023年2月より「Gen-1」を公開していましたが、同年8月にマルチモーダルAIである「Gen-2」をリリースしました。

Runwayは現在、以下3つの機能を提供しています。

  1. Gen-1…既存の動画から新たな動画を生成できる(Video to Video)
  2. Gen-2…写真やテキストから動画を生成できる(Text/Image to Video)
  3. Frame Interpolation…複数の画像から滑らかに変化する動画を生成できる

Runwayの注目すべきポイントは、文章や画像を入力するだけで、動画を出力できる点です。例えば、まずは文章のみで動画を作成し、より完成度を高めたい場合は画像を読み込ませるといった使い方ができます。

また、動画の背景の切り抜きや、音声を読み取ってテキストを抽出し、字幕を追加するといった編集作業もAIで対応可能です。

4.Bing(Microsoft)

Bing」は、Microsoftが開発した検索エンジンです。2023年2月に大幅なアップデートを経て、対話型AIの機能が追加されました。2024年4月現在、テキストだけでなく、画像や動画、音声による検索も可能です。

Bingにはチャット機能が搭載されているため、ユーザーは画像をアップロードし、その内容について質問したりすることも可能です。例えば、犬の写真からその犬種を識別したり、ユーザーの現在地に基づいた天気予報を表示したりできます。

さらに、Bing Image Creatorを利用すれば、ユーザーはBingのチャット機能を通じて画像を生成することも可能です。Microsoftアカウントがあれば、スマホとブラウザのどちらでも無料で利用できます。

5.UFO(Microsoft)

Microsoftが開発しているマルチモーダルAI「UFOは、Windows環境でのアプリケーション操作をAIで行うために設計されました。アプリケーションは、ブラウザのEdgeやメールクライアントのOutlook、Officeソフトも含まれます。

UFOの核となる機能は、「AppAgent」と「ActAgent」の2つに分けられます。AppAgentは特定のアプリケーションを選択する役割を持ち、ActAgentはユーザーが自らが望む具体的なタスクを選択することで実行できます。

例えば、ユーザーが「今日のスケジュールを確認したい」と望む場合、まずはAppAgentでOutlookを選択し、ActAgentを介してスケジュールの閲覧や特定の予定の詳細を表示するといったアクションを実行できます。

6.CAIRaoke(Meta)

Meta社もマルチモーダルAIの開発に注力しており、「Project CAIRaoke」はその代表例です。このプロジェクトは、AIアシスタントを活用して、メタバース上でのユーザー体験を向上させることを目的としています。

メタバースの3D空間では、従来のキーボードやマウスを通じた操作に限界がありました。そこで、音声入力や位置情報、ユーザーの視点といった複数の情報を、AIがリアルタイムに学習・解析できるようにしました。

これによってユーザーが何を求め、どう行動したいのかを把握できるため、これまで以上にユーザーの行動範囲が拡張され、より豊かで没入感のあるバーチャル体験を実現できます。

おわりに

いかがでしたでしょうか。今回はマルチモーダルAIの基本的な概念から歴史、具体的な活用事例やツールまでをご紹介してきました。

AIの進化が著しい昨今、マルチモーダルAIの発展は、私たちの日常生活やビジネスのあり方、さらには社会全体の未来までを大きく変えていく可能性を秘めています。これからの展開に目が離せません。

【読者特典・無料ダウンロード】UPSIDER/10X/ゆめみが語る
「エンジニア・デザイナー・PMの連携を強める方法」

Webメディア「SELECK」が実施するオンラインイベント「SELECK LIVE!」より、【エンジニア・デザイナー・PMの連携を強めるには?】をテーマにしたイベントレポートをお届けします。

異職種メンバーの連携を強めるために、UPSIDER、10X、ゆめみの3社がどのような取り組みをしているのか、リアルな経験談をお聞きしています。

▼登壇企業一覧
株式会社UPSIDER / 株式会社10X / 株式会社ゆめみ

無料ダウンロードはこちら!

;