近年、AI(人工知能)は文章生成や画像認識などさまざまな分野で利用されています。しかし現在の研究では、さらに一歩進んだAIとして 「マルチモーダルAI」と「フィジカルAI」 が注目されています。
マルチモーダルAIは 複数の種類の情報を同時に理解するAI、フィジカルAIは 現実世界で行動するAI を指します。これらを組み合わせた「マルチモーダルなフィジカルAI」は、ロボットや自動化システムなど次世代のAI技術として研究が進んでいます。
この記事では、マルチモーダルAIとフィジカルAIの基本から、最新研究の動向、そして AI研究が問いかける「人間の知能とは何か」 という視点まで、わかりやすく解説します。
「モーダル(modal)」とは 情報の種類 を意味します。代表的なものは次の通りです。
人間は普段、これら複数の情報を同時に使って世界を理解しています。例えば会話では、相手の言葉だけでなく、表情や周囲の状況も合わせて判断しています。
マルチモーダルAIとは、このように 複数の情報を同時に理解できるAI のことです。
現在のAIでは、次のような処理が可能になっています。
こうしたAIは、画像・音声・言語などの情報を統合して処理しています。
スタンフォード大学の AI Index Report 2024 によると、マルチモーダルAIの研究論文数は2020年以降大きく増加しています。
フィジカルAIとは 現実世界で行動するAI を指します。
代表的な例は次の通りです。
これらのAIは、センサーやカメラから情報を取得し、環境に応じて行動します。
マルチモーダルAIとフィジカルAIを組み合わせたものが
マルチモーダルなフィジカルAI
です。
つまり、
複数の情報を理解しながら、現実世界で行動できるAI
という意味です。
AIが複数の情報を理解し、それを行動に変換します。
例えばロボットでは次のような処理が行われます。
Google DeepMindが2023年に発表したロボットAI「RT-2」では、インターネット上で学習した知識をロボットの行動に利用できることが示されています(RT-2: Vision-Language-Action Models)。
マルチモーダルなフィジカルAIの研究は、単にロボットを作ることだけが目的ではありません。
研究者の多くは、この研究を 人間の知能を理解する手がかり と考えています。
人間は次のような複数の感覚を使っています。
例えば熱い鍋を見ると、
などを合わせて「危ない」と判断します。
神経科学の研究では、脳がこれらの情報を統合して処理していることが知られています。
もう一つ重要な考え方が 身体性(Embodied cognition) です。
これは
知能は身体と環境の相互作用から生まれる
という考え方です。
例えば赤ちゃんは
といった行動を通して世界を学びます。
このためAI研究でも、身体を持つロボットによる学習が重要なテーマになっています。
現在のロボットの多くは 特定の作業専用 です。例えば工場の組み立てロボットなどです。
しかし研究者は、より柔軟な 汎用ロボット の実現を目指しています。
将来のAIは、次のような場所で利用される可能性があります。
AIが人間と協力しながら作業する社会が想定されています。
マルチモーダルなフィジカルAIを実現するには、次のような技術を組み合わせる必要があります。
研究機関では特に、
などのソフトウェアが重要になります。
マルチモーダルなフィジカルAIとは
複数の情報を理解しながら現実世界で行動するAI
のことです。
この研究は
など多くの分野を結びつけています。
そして最終的には、
人間とはどのような知能を持つ存在なのか
という問いにもつながっています。
AIの研究が進むほど、私たちは逆に 人間の知能の特徴 をより深く理解していくことになるのかもしれません。
画像・音声・文章など複数の種類の情報を同時に理解できるAIのことです。
ロボットや自動運転など、現実世界で行動するAIを指します。
ロボットが周囲を理解して行動するために、画像・音声など複数の情報を処理できるマルチモーダルAIが利用されます。
「コミュニティサイト」「意見募集サイト」「FAQサイト」「Q&Aサイト」
などの情報共有用サイトがすぐ開設できる
AIがサイトの内容を情報源に質問に回答
