
生成AIは、パソコンやスマートフォンの中の仕事を大きく塗り替えてきた。
文章を書き、画像をつくり、コードを組み、資料を読んで問いに答える。
ChatGPTやClaude、Geminiが日常に浸透したことで、情報を扱う作業の一部をAIに委ねることはもはや特別な選択ではなくなっている。
次に起ころうとしているのは、その知能が画面の外へ踏み出す変化だ。
カメラで周囲を認識し、障害物をよけながら荷物を運ぶ。
形の定まらないものを見極め、壊さない力加減でつかむ。
人の自然な言葉から作業手順を組み立て、失敗すればやり直す。現実世界における認識・判断・行動を一続きにつなぐこの技術は、「フィジカルAI」と呼ばれる。
検索結果やニュースでは、ヒューマノイドの映像とともに語られることが多い。
人型ロボットが歩き、物を運び、言葉を交わす姿は直感的で、未来像を思い描きやすいからだろう。
だが、フィジカルAIが指す範囲は人型ロボットにとどまらない。
工場のロボットアーム、倉庫を行き交う搬送機、自動運転車、ドローン、農業機械や建設機械、さらには固定カメラによる空間管理まで現実世界を認識しながら動作や制御を変えるシステムはその射程にすべて含まれる。
NVIDIAは、カメラやロボット、自動運転車などが物理世界を認識・理解し、そのうえで推論して複雑な行動を実行する技術としてフィジカルAIを説明している。
JSTの研究開発戦略センターは、センサーとアクチュエーターを通じて物理環境と直接関わり、学習・判断・行動を自律的にこなすAIロボットとそれを支える運用基盤までを含むシステムだと整理した。
フィジカルAIが脚光を浴びているのは、ロボット自体が突如として刷新されたからではない。
生成AIが培ってきた言語理解や画像認識が、ロボット制御へとつながり始めた。
現実の工場で何万回も失敗を重ねさせずに済むよう、仮想空間で学習を積むシミュレーション技術も磨かれてきた。
ロボットのすぐそばでAIを走らせる半導体の性能も、着実に伸びている。
これまで別の道を歩んできたAIとロボティクスが、いま一つのシステムとして交わり始めているのだ。
では、フィジカルAIは生成AIに続くただの流行語にすぎないのか。
それとも、製造や物流、介護、建設といった現場に本当に入り込んでいく技術なのか。
そして、産業用ロボットで長い実績を積んできた日本企業はこの変化の中で再び主役の座を取り戻せるのか。
フィジカルAIを簡潔に表すなら、現実世界を「見て、考えて、動く」AIである。
入力になるのは、文章や画像だけではない。
カメラ映像、距離、音声、温度、圧力、位置、速度、関節の角度、物体へ触れたときの力など、センサーが取得する現実世界の情報を扱う。
AIはそれらを読み取り、周囲に何があるか、何が起きているか、目的を達成するにはどう動くべきかを判断する。最終的には、ロボットアーム、車輪、脚、ドローンのプロペラ、建設機械の操作部などを通じ、物理的な行動へ変える。
この一連の処理には、複数の技術が必要になる。
画像や映像を理解するコンピュータービジョン、言葉による指示を解釈する言語モデル、三次元空間を把握する空間認識、次の動きを組み立てる計画モデル、関節や車輪を安全に動かす制御技術。
さらに、現場へ出す前にロボットを学習・検証するシミュレーションも欠かせない。
Google DeepMindが2025年に発表したGemini Roboticsは、視覚、言語、行動を一つにつなぐVision-Language-Actionモデルである。
自然言語の命令を理解するだけでなく、物をつかむ、動かすといった行動をロボットへ直接出力する設計が採用された。
この「行動まで出力する」という点が、一般的な生成AIとの大きな違いになる。
ChatGPTが誤った文章を書けば、利用者が読み直して修正できる。
しかし、ロボットが誤った方向へ動けば、人や設備へ衝突する可能性がある。
フィジカルAIでは、賢さだけでなく、時間内に判断できること、動作が安定していること、危険な命令を止められることまで性能の一部になる。
フィジカルAIは、生成AIやロボットの別名ではない。
既存の技術を組み合わせ、物理世界で自律性を高める考え方に近い。
生成AIの主な成果物は、文章、画像、音声、動画、プログラムといったデジタル情報だ。
フィジカルAIでは、最終的な出力が機械の動作になる。
物を運ぶ、扉を開ける、部品を組み立てる、車線を変更するなど、現実世界へ直接影響を与える。
そのため、生成AIで問題になるハルシネーションに加え、衝突、転倒、破損、けがといった物理的なリスクを管理しなければならない。
従来の産業ロボットは、決められた場所で、決められた部品に、決められた動作を繰り返す仕事を得意としてきた。
環境が変化しない限り、高速かつ高精度に動ける。
一方、部品の位置や形が変わる、予想外の物が置かれる、人が動線へ入るといった変化には、追加設定や再教示が必要になりやすい。
フィジカルAIは、センサーから状況を読み取り、変化へ合わせて動きを調整する範囲を広げようとする。
たとえば、柔らかい衣類は置き方によって形が変わるため、固定された座標だけでは扱いにくい。
ファナックは2026年、NVIDIAのロボット基盤モデルと自社の制御技術を組み合わせ、人の実演から学習した双腕ロボットがカメラで形を確認しながらTシャツを折るシステムを公開した。
固定動作の再生から視覚情報を使って動きを生成する方向への変化が分かる事例である。
ヒューマノイドは、人に近い胴体、腕、脚などを持つロボットの形を指す。
フィジカルAIは、その中で動く知能や、周辺の学習・運用基盤を指す。
人型でなくても、車輪で移動する搬送ロボット、ロボットアーム、自動運転車、ドローンへ搭載できる。
反対に、人型ロボットであっても、決められた動きを遠隔操作で再生するだけなら、必ずしも高度なフィジカルAIとは呼べない。
エンボディドAIは、身体を持つAI、または身体と環境の相互作用を通じて知能を獲得する研究概念として使われる。
フィジカルAIと重なる部分が大きく、組織や研究者によって使い分けも異なる。
一般には、エンボディドAIが知能と身体性の研究概念を指し、フィジカルAIはロボット、車両、設備、シミュレーション、計算基盤まで含めた産業システムとして語られる場面が多い。
言葉の境界を厳密に分けることより、AIが現実世界から情報を受け取り、安全な行動へ変える仕組みを指していると理解した方がよい。
ロボットとAIの研究は以前から存在していた。
それでも、フィジカルAIが現在の大きなテーマになったのは、複数の技術が同時に実用段階へ近づいているためだ。
従来は、一つの作業ごとにロボットを設定し、動きを教える方法が中心だった。
ロボット基盤モデルは大量の映像、言語、動作データを学び、複数の作業や機体へ知識を転用しようとする。
Google DeepMindのGemini Roboticsは、未知の物体や新しい指示、異なる環境へ対応する汎化能力を重視している。
主に双腕ロボットで学習しながら、別のロボットアームやヒューマノイドにも適応できる構造が示された。
ロボットごと、作業ごとに知能を一から作るのではなく、共通のモデルを土台に調整する方向である。
現実のロボットを使った学習には、時間と費用がかかる。
転倒すれば機体が壊れ、危険な動作を人の近くで試すこともできない。
そこで、工場、倉庫、道路などを仮想空間へ再現し、ロボットを何度も動かす方法が使われる。
NVIDIAは、現実に近い物理シミュレーションとデジタルツインを、フィジカルAIの学習・検証に必要な基盤として位置付けている。
現実では集めにくい衝突、天候、照明、物体配置の変化を仮想空間で作り、合成データとして学習へ使える。
FANUCも自社のロボットシミュレーターROBOGUIDEとNVIDIA Isaac Simを統合し、仮想工場内で軌道や処理時間を再現する取り組みを進めている。
ロボットは、クラウドへ映像を送り、数秒後に答えを受け取るだけでは安全に動けない。
人が近づいた、荷物が落ちた、車が飛び出したといった変化へ、短時間で反応する必要がある。
そのため、ロボット本体や現場設備に近い場所でAIを処理するエッジコンピューティングが重要になる。高性能なAIチップが小型化し、画像認識や行動生成を現場側で実行できる範囲が広がったことも、フィジカルAIを後押ししている。
ヒューマノイドが家庭で料理、洗濯、掃除をすべてこなす未来は注目を集める。
しかし、家庭は物の種類、配置、床面、人やペットの動きが毎回異なり、AIにとって難しい環境だ。
一方、工場や物流倉庫は、通路、作業範囲、対象物、立入区域をある程度管理できる。
作業回数も多く、導入前後の時間や人件費を比較しやすい。
そのため、初期の普及は次のような領域から進むと考えられる。
すべての分野で、完全自律が最初から実現するとは限らない。
当面は、人がロボットへ指示し、AIが一部の動作を計画する。
難しい状況では停止し、人へ確認を求める。遠隔地の担当者が複数台を監督する。
このような半自律的な運用が増えると考えた方が現実的だ。
日本は、フィジカルAIの競争で何も持たない国ではない。
むしろ、機械を正確かつ安全に動かすための産業基盤には長い蓄積がある。
国際ロボット連盟のWorld Robotics 2025によると、日本では2024年に4万4,500台の産業用ロボットが新たに導入され、稼働台数は45万500台に達した。
年間導入数では中国に次ぐ世界第2位である。
製造業の従業員1万人当たりのロボット密度は446台で世界でも上位に位置する。
ロボット本体に加え、モーター、減速機、制御装置、センサー、工作機械、精密部品、工場のシステム統合も日本企業が経験を持つ領域だ。
フィジカルAIはAIモデルだけでは完成しない。
高性能な知能があっても、機械がぶれる、停止できない、部品がすぐ壊れる、保守できないなら現場では使えない。
その点で、ハードウェアと制御技術の蓄積は大きな強みになる。
日本企業が持つ価値はロボット本体の製造だけではない。
モーターの動きを細かく制御する。
力を検知する。
機械の異常を予測する。
長期間止めずに運用する。
現場ごとに設備を組み合わせる。
AIモデルが考えた行動を安全で滑らかな機械動作へ変えるにはこうした技術が必要になる。
FANUCとNVIDIAによるTシャツ折りの事例も、ロボット基盤モデルだけで完結していない。
模倣学習による動作生成とFANUCのモーション制御を組み合わせることで動きを滑らかにしたと説明されている。
一方、AIモデル、学習環境、シミュレーション、データ基盤を海外企業へ依存すれば日本企業がハードウェアの供給者にとどまる可能性がある。
フィジカルAIではロボットを売った後もデータが生まれる。
どの動作が失敗したか。どのような物体をつかんだか。
人がどう修正したか。どの工場でどの条件なら成功したか。
この運用データを学習へ戻せる企業ほどモデルを継続的に改善できる。
日本には現場と機械がある一方、企業ごとにデータ形式が異なり、社外共有が難しく、AI学習へ使える状態になっていない情報も多い。
経済産業省とNEDOは2026年度から、製造業などのデータをAIで利用可能な状態へ整備する研究と、ロボット基盤モデルの開発支援をGENIACの新たな対象に加えた。
対象には、自動車、ドローン、船舶など、公共空間で動く機械を直接制御する基盤モデルも含まれている。
政策面でも、ロボットの機械技術だけでなく、学習データと基盤モデルを国内で育てる必要性が認識され始めたといえる。
フィジカルAIの影響を受けるのは、ロボット企業だけではない。
製造業では設備を導入する企業側にも作業をデータとして定義する能力が必要になる。
自社の熟練者が何を見て、どのように判断し、どこで手を止めているのかを整理できなければAIへ学習させにくい。
物流企業は、倉庫の配置や業務手順をロボットが動きやすい形へ変える必要がある。
建設会社や農業事業者も、機械だけを購入するのではなく、遠隔監視、通信、保守、データ管理まで含めて運用を設計しなければならない。
フィジカルAIは新しいロボット製品を導入する問題であると同時に現場の仕事をデータ化し、機械と人の役割を組み直す問題でもある。
フィジカルAIを評価する際、デモ映像の滑らかさだけを見てはいけない。
現場では、何回成功したかより、失敗したときに何が起きるかが問われる。
文章生成AIが誤った答えを返しても利用者が採用しなければ現実への影響を止められる。
ロボットの場合、誤認識と行動の間に十分な安全装置がなければ事故へ直結する。
人を物体と誤認する。
つかむ力を間違える。
通路が空いていると判断して進む。
音声指示を聞き違える。
Google DeepMindも、ロボット向けAIでは高水準の意味理解だけでなく、衝突回避、接触力の制限、安定性を担う低レベルの安全制御を重ねる必要があるとしている。
フィジカルAIではAIモデルへ「安全に動いて」と指示するだけでは足りない。
機械側の停止機構、立入管理、速度制限、監視、ログ、人による承認を組み合わせる必要がある。
フィジカルAIシステムには多くの企業が関わる。
AIモデルの開発者、ロボットメーカー、センサー企業、制御ソフトの提供者、システムを導入した会社、現場で操作した人。
事故が起きた場合、原因が誤った学習データなのか、モデルの判断なのか、機械の故障なのか、設置環境なのかを切り分けなければならない。
そのため、どの情報を入力し、AIが何を判断し、どの制御信号を出し、安全装置がどう反応したかを記録する仕組みが重要になる。
フィジカルAIは、人手不足への対応策として期待される。
危険な作業、重い物の搬送、夜間の巡回、単調な検査を機械へ任せられれば、人は別の仕事へ移れる。
しかし、ロボットを置くだけで人が不要になるわけではない。
作業場所の変更、データ収集、学習、点検、保守、異常時の対応が必要になる。
現場によっては、ロボットに合わせて工程を単純化した方が導入しやすい。
初期段階では、作業者の代替より、作業者一人が複数台を監督する、重労働だけを機械へ渡す、判断材料をAIが提示するといった補助型が増えると考えられる。
「ロボットに仕事を奪われるか」という問いだけでは、変化を捉えにくい。
一つの職業には、物を運ぶ、状況を確認する、顧客へ説明する、例外へ対応する、記録するなど、複数の作業が含まれている。
フィジカルAIが得意なのは条件をある程度管理でき、大量に繰り返され、成果を判定しやすい作業だ。
予測しにくい人間関係、責任を伴う判断、細かな例外対応、安心感を与える対話は、人の役割として残りやすい。
一方、ロボットの教師データを作る人、遠隔で監督する人、現場とAIをつなぐシステム担当者、安全基準を設計する人など、新しい役割も増える。
フィジカルAI導入の費用には、次の項目が含まれる。
デモで一回成功することと、年間を通じて安定運用できることの間には大きな差がある。
投資効果を見る際は人件費だけを比較せず、稼働率、不良率、事故リスク、停止時間、保守要員まで含めて評価する必要がある。
フィジカルAIの導入では完全自律を最初の目標にしない方がよい場合も多い。
作業候補をAIが示し、人が承認する。通常作業だけ自動化し、例外は人へ渡す。危険区域では遠隔操作を残す。
自律性を段階的に上げる方が、性能と安全性を現場で検証しやすい。
フィジカルAIが注目されているのは、派手な人型ロボットが増えたからだけではない。
生成AIで進歩した言語理解、画像認識、推論が、シミュレーション、制御技術、エッジ向け半導体とつながり、現実世界の行動へ届き始めたからだ。
従来の産業ロボットは同じ環境で同じ動作を正確に繰り返すことで生産性を高めてきた。
フィジカルAIが目指すのはその強みに加え、形の違う物、変化する配置、自然な言葉による指示、予想外の状況へ対応できる範囲を広げることにある。
ただし、すぐに家庭や職場のあらゆる仕事をロボットが代替するわけではない。
現実世界には、AIが学習していない状況が無数にある。
誤答が文章で終わらず、衝突や破損へつながる。
機械本体、センサー、通信、データ、制御、安全設備を一体として運用しなければならない。
そのため、最初に広がるのは、工場、物流倉庫、車両、建設現場など、作業範囲を限定し、効果と危険を測りやすい場所になる可能性が高い。
日本にとっては機会と課題が同時に存在する。
産業用ロボット、モーター、制御、センサー、精密機械、現場への導入と保守。
フィジカルAIを物理世界で安定して動かすために必要な技術を日本企業はすでに多く持っている。
一方、競争の中心がロボット本体の販売だけでなく、基盤モデル、シミュレーション、学習データ、運用ソフトウェアへ移れば従来の強みだけでは十分ではない。
誰が現場データを集めるのか。
誰がモデルを改善するのか。
海外のAI基盤を使いながらどこに自社の価値を残すのか。
機械を売った後も、データとサービスによって継続的な関係を築けるのか。
フィジカルAIを判断するとき、見るべきなのはロボットの外見ではない。
未知の環境へどこまで対応できるか。
失敗したとき安全に止まれるか。
人が介入すべき状況を正しく判断できるか。
導入後に費用を上回る成果を出せるか。
生成AIが情報を扱う仕事の形を変えたようにフィジカルAIは物を動かす仕事と人の役割を組み直していく可能性がある。
ただし、その進展は一足飛びではない。
完全自律の未来を待つより、危険な作業、反復作業、情報収集、移動支援など、現在の技術で任せられる範囲を見極めることが先になる。
フィジカルAIは、生成AIの次に現れた言葉ではなく、AIが現実世界で責任を持って働けるかを問う段階の始まりである。

