Part I: 배경과 동기

Chapter 1: 왜 사람 손 데이터인가 — 텔레오퍼레이션의 한계와 대안

집필일: 2026-04-07 최종수정일: 2026-04-07

요약

로봇 조작 학습의 핵심 병목은 데이터 수집이다. 텔레오퍼레이션(Data A)은 시간당 약 10회 시연이라는 처리량 한계와 복잡한 접촉 태스크에서의 근본적 불가능성을 안고 있다. 본 장에서는 이 병목을 분석하고, 사람 손 데이터(Data B)가 규모, 현실성, 다양성 측면에서 왜 유력한 대안인지를 정량적 근거와 함께 논의한다.

1.1 도입: 데이터가 부족하다

로봇 조작(manipulation) 정책 학습은 대규모 데이터를 필요로 한다. RT-2가 수십만 에피소드, pi0 [#2]이 산업 규모의 heterogeneous 데이터를 사용하여 범용 정책을 달성한 사례가 보여주듯, 데이터 규모와 정책 성능 사이에는 강한 양의 상관이 존재한다. 그러나 대부분의 연구실이 보유한 로봇 시연 데이터는 수백~수천 에피소드 수준에 머물러 있으며, 이것이 현재 로봇 학습의 가장 근본적인 병목이다.

Figure 1.1: pi0은 인터넷 사전학습과 교차 구현체 데이터로 범용 로봇 정책을 학습하는 VLA 기반 모델이다. 출처: Black et al. (2024), Fig. 2

데이터를 확보하는 전통적 방법인 텔레오퍼레이션(teleoperation)은 숙련된 조작자가 로봇을 원격으로 제어하며 시범을 보이는 방식이다. 이 접근은 로봇이 실제로 실행 가능한 궤적(Data A)을 생성한다는 장점이 있으나, 본질적으로 확장 불가능한 구조적 한계를 안고 있다.

1.2 텔레오퍼레이션의 세 가지 병목

처리량 한계

텔레오퍼레이션의 데이터 수집 속도는 일반적으로 시간당 5~10회 시연(demonstrations per hour)이다. DEXOP ^[1] [#10]의 측정에 따르면 분당 5회, 즉 시간당 300회에 이르는 수치가 보고되지만, 이는 단순 그래스핑(grasping) 수준의 짧은 에피소드 기준이다. 복잡한 다단계 조작 — 예컨대 나사를 조이거나 뚜껑을 여는 작업 — 에서는 에피소드당 수 분이 소요되어 실제 처리량은 시간당 10~20회 수준으로 떨어진다.

이 처리량으로 EgoScale ^[2]이 사용한 20,854시간 규모의 데이터를 확보하려면 단순 산술로도 수만 시간의 숙련 조작자 노동이 필요하다. 이는 사실상 실행 불가능한 규모이다.

태스크 불가능성

DEXOP ^[1]은 텔레오퍼레이션의 근본적 한계를 가장 선명하게 보여준다. 전동 드릴링(drilling) 태스크에서 텔레오퍼레이션 성공률은 0%였다. 인간 조작자가 원격으로 로봇 손가락을 개별 제어하며 드릴을 잡고, 누르고, 회전시키는 동시적 접촉 제어는 현재 텔레오퍼레이션 인터페이스로는 달성할 수 없다. 반면 DEXOP의 수동 외골격(passive exoskeleton)을 통한 직접 시연에서는 이 태스크가 가능했다.

이 결과는 텔레오퍼레이션이 단순히 "느린" 것이 아니라, 특정 접촉 풍부(contact-rich) 태스크에서는 원천적으로 불가능하다는 것을 시사한다. 산업 현장의 많은 공정 — 캡핑, 정밀 조립, 유연 부품 처리 — 이 이 범주에 속한다.

비용 구조

AirExo ^[13]는 텔레오퍼레이션과 대안적 데이터 수집의 비용 구조를 직접 비교했다. 텔레오퍼레이션 플랫폼(로봇 + 제어 시스템)의 비용은 약 $60,000인 반면, AirExo의 수동 외골격은 $600에 불과하다 — 100배의 비용 차이이다. AoE ^[3]는 $20의 스마트폰 목걸이 마운트만으로 대규모 egocentric 데이터를 수집하여 이 격차를 더욱 확대했다.

비용 문제는 단일 연구실의 문제에 그치지 않는다. 산업 현장에서 다수의 공정, 다수의 물체 변형, 교대조 변화를 커버하려면 병렬적 데이터 수집이 필수적인데, 텔레오퍼레이션은 이 병렬화에 적합하지 않다. UMI ^[14] [#35]는 $371의 핸드헬드 그리퍼로 로봇 자체를 불필요하게 만들어 이 비용 구조를 더욱 혁신했다 — GoPro 피쉬아이 카메라와 IMU 기반 SLAM만으로 시연 데이터를 수집한다.

데이터 수집 방식	비용	핵심 특징
텔레오퍼레이션	~$60,000	로봇 + 제어 시스템 필수
AirExo (수동 외골격)	$600	저비용, arm-level
UMI (핸드헬드 그리퍼)	$371	로봇 불필요, GoPro 피쉬아이 + IMU SLAM
AoE (스마트폰 마운트)	$20	최저비용, egocentric 비디오 전용

1.3 사람 손 데이터라는 대안

Data A vs Data B 정의

본 서베이에서는 로봇 학습에 사용되는 시연 데이터를 수집 방식에 따라 두 가지로 구분한다. Data A(텔레오퍼레이션 데이터)는 숙련된 조작자가 로봇을 원격 제어하며 수집하는 로봇 실행 가능한 궤적 데이터이고, Data B(사람 손 데이터)는 글러브·글래스 등 웨어러블 센서를 착용한 사람이 로봇 없이 자연스럽게 작업하며 수집하는 인간 시연 데이터이다. 이 구분은 이후 모든 챕터의 논의 기반이 된다.

구분	Data A (텔레오퍼레이션)	Data B (사람 손 데이터)
수집 방식	로봇 원격 제어	글러브/글래스 착용 후 자연 작업
수집 주체	숙련된 로봇 조작자	현장 작업자 또는 일반인
수집 비용	높음 ($60K+ 시스템)	낮음 ($600 이하)
처리량	~10 demos/hr	자연 작업 속도
로봇 필요	필수	불필요
실행 가능성	로봇이 직접 실행 가능	리타게팅 필요
분포	로봇 기구학에 제한	자연스러운 인간 분포

Data B의 핵심 장점은 세 가지로 요약된다.

규모(Scale)

EgoDex ^[10]는 Apple Vision Pro를 이용하여 829시간, 9천만 프레임, 194개 태스크의 dexterous manipulation 데이터를 수집했다. BuildAI^[11]는 실제 공장에서 2,153명 작업자의 10,000시간 egocentric 데이터를 수집하여 공개했다. 이러한 규모는 텔레오퍼레이션으로는 달성 불가능하다.

EgoScale ^[2]은 20,854시간의 egocentric 인간 비디오에서 사전훈련(pretrain)하여 log-linear scaling law(R² = 0.9983)를 실증했다. 이는 인간 데이터의 양이 증가할수록 성능이 예측 가능하게 향상됨을 의미한다.

현실성(Realism)

인간은 실제 환경에서, 실제 물체로, 자연스러운 전략을 사용하여 작업한다. 이 데이터는 물체의 형상, 재질, 무게에 대한 자연스러운 적응을 포함하며, 텔레오퍼레이션 데이터가 가지는 "로봇 기구학에 의한 왜곡"이 없다. EgoMimic ^[4]은 2시간 로봇 데이터에 1시간 사람 손 데이터를 추가하면 3시간 로봇 데이터만 사용한 것보다 +34~228% 향상되는 scaling trend를 보고했다. 이는 동일 시간 대비 human data가 robot data보다 높은 한계 성능에 도달함을 시사하며, 현실성의 가치를 정량적으로 보여준다.

다양성(Diversity)

텔레오퍼레이션은 통상 1~2명의 숙련 조작자에 의존하므로 조작 전략의 다양성이 제한된다. 반면 사람 손 데이터는 다수의 작업자가 각자의 전략으로 동일 태스크를 수행한 기록을 포함한다. EgoDex는 다수 참여자의 194개 태스크에 걸친 데이터를, Ego4D ^[12]는 9개국 931명의 일상을 포착하여 극단적 다양성을 확보했다.

1.4 사람 손 데이터의 실증적 가치

2024년까지 "사람 데이터만으로 로봇 제어"는 불가능하다고 여겨졌다. 그러나 2025년을 기점으로 이 가정이 무너졌다.

논문	접근법	핵심 결과	로봇 데이터
X-Sim ^[5]	1 RGBD → sim RL	+30% task progress, 10x 수집 절감	0
Human2Sim2Robot ^[6]	1 demo → sim RL → Allegro Hand	+55~68% vs baselines	0
EgoZero ^[7]	스마트글래스 → 3D point	7태스크 평균 70%	0
VidBot ^[8]	인터넷 RGB → affordance	13태스크 zero-shot	0
LAPA ^[9]	인터넷 비디오 pretrain → fine-tune	30x 효율, +6.2%p vs OpenVLA	소량
UMI ^[14]	핸드헬드 그리퍼 → diffusion policy	컵 정리 100%, 동적 던지기 87.5%, 야외 일반화 71.7%	0
ACT-1 ^[15]	Skill Capture Glove + Skill Transform	90% 변환 성공률, 로봇 데이터 0으로 33종 조작 + Airbnb zero-shot	0

이 결과들이 일관되게 시사하는 바는, 사람 손 데이터(Data B)가 로봇 학습의 유효한 데이터 소스라는 것이다. 특히 X-Sim(CoRL 2025 Oral)과 Human2Sim2Robot은 인간 시연 단 1개로 dexterous manipulation 정책을 학습할 수 있음을 보였다 (Chapter 4).

그러나 중요한 한계도 존재한다. 이 연구들은 대부분 5~13개의 lab 태스크에서만 검증되었고, contact-rich 태스크(나사 조이기, 캡핑 등)는 거의 포함되지 않았다. EgoZero의 70% 성공률은 산업 적용(>95% 필요)에는 부족하다. 이 gap이 바로 Data A + Data B co-training(Chapter 5)과 촉각 정보(Chapter 3)의 필요성을 제기한다.

1.5 핵심 질문 정의

위의 분석으로부터, 본 서베이 전체를 관통하는 세 가지 핵심 질문을 정의한다:

Data B만으로 로봇 제어가 가능한가? — X-Sim, EgoZero, VidBot이 긍정적 신호를 보여주지만, contact-rich 태스크에서의 한계가 존재한다 (Chapter 4).

Data A + Data B를 합치면 성능이 올라가는가? — EgoMimic +34~228%, EgoScale R²=0.9983, AoE 45%→95%(Close Laptop 태스크)가 강력한 긍정적 근거이다. 그러나 촉각을 포함한 co-training은 아직 누구도 시도하지 않았다 (Chapter 5).

텔레오퍼레이션을 완전히 제거할 수 있는가? — 이것이 TacPlay가 답하려는 궁극적 질문이다. 동일 촉각 글러브를 로봇에 장착하고 자율 탐색으로 embodiment gap을 학습하면, Data A 자체가 불필요해질 수 있다 (Chapter 9).

1.6 우리의 방향과의 연결

TacGlove [#26]/TacTeleOp은 질문 2에, TacPlay [#27]는 질문 3에 답하는 연구이다. 텔레오퍼레이션의 병목이 단순한 효율성 문제가 아니라 구조적 한계임을 인식하면, 사람 손 데이터(Data B)의 대규모 수집과 활용은 선택이 아닌 필수가 된다. 다음 장에서는 이 Data B를 수집하는 구체적 하드웨어 — 글러브, 외골격, 스마트글래스 — 의 현황을 분석한다 (Chapter 2).

참고문헌

Fang, H.-S., & Agrawal, P. et al. (2025). DEXOP: Dexterous Manipulation with Passive Exoskeleton. IEEE RA-L. https://arxiv.org/abs/2509.04441 #10 scholar
Zheng, R., et al. (2026). EgoScale: Egocentric Video Pretraining for Scalable Robot Learning. arXiv. https://research.nvidia.com/labs/gear/egoscale/ scholar
Yang, B., et al. (2026). AoE: Always-on Egocentric Data Collection for Robot Learning. arXiv. scholar
Kareer, S., et al. (2024). EgoMimic: Scaling Imitation Learning via Egocentric Video. arXiv. https://arxiv.org/abs/2410.24221 scholar
Dan, P., et al. (2025). X-Sim: Cross-Embodiment Simulation for Robot Learning. CoRL 2025 Oral. https://portal-cornell.github.io/X-Sim/ scholar
Lum, T. G. W., et al. (2025). Human2Sim2Robot: Dexterous Manipulation Transfer via Simulation. CoRL 2025. scholar
Liu, V., et al. (2025). EgoZero: Robot Policy Learning from Egocentric Video without Robot Data. arXiv. scholar
Chen, H., et al. (2025). VidBot: Learning Robot Manipulation from Internet Videos. CVPR 2025. scholar
Ye, S., et al. (2025). LAPA: Latent Action Pretraining from Videos. ICLR 2025. scholar
Hoque, R., et al. (2025). EgoDex: A Large-Scale Egocentric Dexterous Manipulation Dataset. arXiv. scholar
BuildAI (2025). Egocentric-10K: 10,000 Hours of Factory Egocentric Video. Hugging Face. scholar
Grauman, K., et al. (2022). Ego4D: Around the World in 3,000 Hours of Egocentric Video. CVPR 2022. scholar
SJTU (2024). AirExo: Low-Cost Exoskeletons for Learning Whole-Arm Manipulation in the Wild. ICRA 2024. scholar
Chi, C., et al. (2024). Universal Manipulation Interface: In-The-Wild Robot Teaching Without In-The-Wild Robots. RSS 2024. https://umi-gripper.github.io/ #35 scholar
Sunday Robotics (2025). ACT-1: A Robot Foundation Model. Technical Report. https://www.sundayrobotics.com/act-1 #29 scholar