20,854時間の人間動画でロボットを訓練する——EgoScaleが証明したスケーリング則

54%——ロボット操作タスクの平均成功率の向上幅だ。この数字を出すために使ったのは、ロボットのデモンストレーション映像ではなく、人間が手を動かしながら撮った2万時間超の一人称動画だった。
NVIDIAのGEAR Labが2026年2月に発表したEgoScaleは、「ロボットデータがなくてもロボットは上手くなれる」という命題を定量的に示した研究だ。
2万時間という数字の重さ
20,854時間。先行研究の20倍以上のスケールというのが論文の主張だ。これだけの人間一人称動画を収集し、人間の手の動きをロボットの関節空間(22自由度)にリターゲティングして事前学習データとした。
製造・小売・ヘルスケア・家庭環境など20以上のタスクカテゴリをカバーしており、ロボット専用テレオペレーションのような単一タスク繰り返し収集とは性質が異なる。多様な環境での「人間の手の動かし方」を大量に学ぶことで、特定タスクへの過学習を避けながら汎用的な運動プリアを獲得させている。
ここで気になるのは、このデータの出所だ。論文ではこの規模の収集が可能だった経緯の詳細は明かされていないが、既存の人間行動動画データセットの活用と専用収集の組み合わせとみられる。
「R²=0.9983」というスケーリング則の意味
EgoScaleで最も論文的に価値があるのは54%の改善数値よりも、スケーリング則の発見だろう。
人間の一人称動画の量と検証損失の間に、near-perfectなlog-linearスケーリング則が成立した(R²=0.9983)。さらにこの検証損失が実際のロボット操作成功率と強く相関することも確認された。
R²=0.9983はほぼ完全な線形関係を意味する。データを増やせば予測可能な割合で性能が上がる、つまり「何時間の動画を追加すれば何%の改善が期待できるか」が計算できる。言語モデルにおけるNeuralScaling Lawsがテキストデータに対して成立したように、ロボット向けのWorld Action Modelでも人間動画データに対して同様の法則が成立した形だ。
ただし一つ留保がある。この結果は22自由度の高自由度ハンドを使った器用操作タスクで出ている。二足歩行や全身協調動作への適用は別途検証が必要で、論文もその範囲内での結論として提示している。
ロボットデータ収集との比較
EgoScaleが面白いのは、既存のロボットデータ収集アプローチとの対比だ。
従来の主流は、実際のロボットをテレオペレーションして動作データを集める方式だ。コストと時間がかかり、1つのロボット形状・1つの環境に閉じたデータになりやすい。EgoScaleはこれをほぼ使わずに済む。人間の動画は汎用的で大量に存在し、コスト効率がまったく異なる。
異なるロボット形状への転移も確認されている。Unitree G1(7自由度の異なるハンド)に移植した実験では、成功率が30%絶対値向上した。人間の運動データが「具体的なハード形状に依存しない運動プリア」として機能している証拠だ。
GR00T N1.7がEgoScaleを採用してGR00T N1.6の数千時間テレオペレーションデータから大幅アップグレードしたのも、この転移性能があったからこそだろう。
「データ問題をコンピュート問題に変換する」の意味
GTC 2026でNVIDIAが繰り返し語ったフレーズがある。「ロボットのデータ問題をコンピュート問題に変換する」だ。
EgoScaleはその一例として位置づけられる。ロボット専用データが少なくても、大量の人間動画と十分な計算資源があれば性能を出せる、という論理だ。コンピュートは費用をかければスケールできるが、ロボットの実世界データ収集は物理的な時間と設備に縛られる。その非対称性を利用しようという戦略だ。
一方で、この議論には限界もある。カードのソーティングや瓶の蓋を開けるといった高自由度操作はEgoScaleで確実に改善したが、工場の生産ラインで求められるミリ単位の精度や安全性の担保は、人間動画の事前学習だけでは達成できない。ドメイン特化のファインチューニングは依然として必要で、「コンピュートで全部解決できる」は言い過ぎになる。
スケーリング則が成立するということは、次の問いが生まれる——このデータ量のまま100万時間、1000万時間にスケールしたとき、性能はどこまで上がり続けるのか。論文の範囲を超えるが、それがEgoScaleが残した問いでもある。
関連記事
- NVIDIAがGR00T N1.7を商用リリース——ロボティクスの「Android」を目指す戦略
- ロボットが「考えながら動く」ために——Cosmos Reason 2の物理常識推論
- GR00T N2が示す「言語を捨てる」ロボットAIの次の形
Sources
- EgoScale: Scaling Dexterous Robot Manipulation with Human Egocentric Video | arXiv:2602.16710
- The Human Scale: NVIDIA's EgoScale Unlocks High-Dexterity Robotics via 20,000 Hours of Human Video | Humanoids Daily
- NVIDIA Isaac GR00T N1.7 | Hugging Face Blog
- NVIDIA EgoScale: Scaling Dexterous Robot Manipulation with Manus Gloves | Manus
- EgoScale Project Page | NVIDIA Research
