Part I: 배경과 동기

Chapter 1: 왜 사람 손 데이터인가 — 텔레오퍼레이션의 한계와 대안

집필일: 2026-04-07 최종수정일: 2026-04-07

요약

로봇 조작 학습의 핵심 병목은 데이터 수집이다. 텔레오퍼레이션(Data A)은 시간당 약 10회 시연이라는 처리량 한계와 복잡한 접촉 태스크에서의 근본적 불가능성을 안고 있다. 본 장에서는 이 병목을 분석하고, 사람 손 데이터(Data B)가 규모, 현실성, 다양성 측면에서 왜 유력한 대안인지를 정량적 근거와 함께 논의한다.

1.1 도입: 데이터가 부족하다

로봇 조작(manipulation) 정책 학습은 대규모 데이터를 필요로 한다. RT-2가 수십만 에피소드, pi0 [#2]이 산업 규모의 heterogeneous 데이터를 사용하여 범용 정책을 달성한 사례가 보여주듯, 데이터 규모와 정책 성능 사이에는 강한 양의 상관이 존재한다. 그러나 대부분의 연구실이 보유한 로봇 시연 데이터는 수백~수천 에피소드 수준에 머물러 있으며, 이것이 현재 로봇 학습의 가장 근본적인 병목이다.

Figure 1.1: pi0은 인터넷 사전학습과 교차 구현체 데이터로 범용 로봇 정책을 학습하는 VLA 기반 모델이다. 출처: Black et al. (2024), Fig. 2
Figure 1.1: pi0은 인터넷 사전학습과 교차 구현체 데이터로 범용 로봇 정책을 학습하는 VLA 기반 모델이다. 출처: Black et al. (2024), Fig. 2

데이터를 확보하는 전통적 방법인 텔레오퍼레이션(teleoperation)은 숙련된 조작자가 로봇을 원격으로 제어하며 시범을 보이는 방식이다. 이 접근은 로봇이 실제로 실행 가능한 궤적(Data A)을 생성한다는 장점이 있으나, 본질적으로 확장 불가능한 구조적 한계를 안고 있다.

1.2 텔레오퍼레이션의 세 가지 병목

처리량 한계

텔레오퍼레이션의 데이터 수집 속도는 일반적으로 시간당 5~10회 시연(demonstrations per hour)이다. DEXOP [1] [#10]의 측정에 따르면 분당 5회, 즉 시간당 300회에 이르는 수치가 보고되지만, 이는 단순 그래스핑(grasping) 수준의 짧은 에피소드 기준이다. 복잡한 다단계 조작 — 예컨대 나사를 조이거나 뚜껑을 여는 작업 — 에서는 에피소드당 수 분이 소요되어 실제 처리량은 시간당 10~20회 수준으로 떨어진다.

이 처리량으로 EgoScale [2]이 사용한 20,854시간 규모의 데이터를 확보하려면 단순 산술로도 수만 시간의 숙련 조작자 노동이 필요하다. 이는 사실상 실행 불가능한 규모이다.

태스크 불가능성

DEXOP [1]은 텔레오퍼레이션의 근본적 한계를 가장 선명하게 보여준다. 전동 드릴링(drilling) 태스크에서 텔레오퍼레이션 성공률은 0%였다. 인간 조작자가 원격으로 로봇 손가락을 개별 제어하며 드릴을 잡고, 누르고, 회전시키는 동시적 접촉 제어는 현재 텔레오퍼레이션 인터페이스로는 달성할 수 없다. 반면 DEXOP의 수동 외골격(passive exoskeleton)을 통한 직접 시연에서는 이 태스크가 가능했다.

이 결과는 텔레오퍼레이션이 단순히 "느린" 것이 아니라, 특정 접촉 풍부(contact-rich) 태스크에서는 원천적으로 불가능하다는 것을 시사한다. 산업 현장의 많은 공정 — 캡핑, 정밀 조립, 유연 부품 처리 — 이 이 범주에 속한다.

비용 구조

AirExo [13]는 텔레오퍼레이션과 대안적 데이터 수집의 비용 구조를 직접 비교했다. 텔레오퍼레이션 플랫폼(로봇 + 제어 시스템)의 비용은 약 $60,000인 반면, AirExo의 수동 외골격은 $600에 불과하다 — 100배의 비용 차이이다. AoE [3]는 $20의 스마트폰 목걸이 마운트만으로 대규모 egocentric 데이터를 수집하여 이 격차를 더욱 확대했다.

비용 문제는 단일 연구실의 문제에 그치지 않는다. 산업 현장에서 다수의 공정, 다수의 물체 변형, 교대조 변화를 커버하려면 병렬적 데이터 수집이 필수적인데, 텔레오퍼레이션은 이 병렬화에 적합하지 않다. UMI [14] [#35]는 $371의 핸드헬드 그리퍼로 로봇 자체를 불필요하게 만들어 이 비용 구조를 더욱 혁신했다 — GoPro 피쉬아이 카메라와 IMU 기반 SLAM만으로 시연 데이터를 수집한다.

데이터 수집 방식 비용 핵심 특징
텔레오퍼레이션 ~$60,000 로봇 + 제어 시스템 필수
AirExo (수동 외골격) $600 저비용, arm-level
UMI (핸드헬드 그리퍼) $371 로봇 불필요, GoPro 피쉬아이 + IMU SLAM
AoE (스마트폰 마운트) $20 최저비용, egocentric 비디오 전용

1.3 사람 손 데이터라는 대안

Data A vs Data B 정의

본 서베이에서는 로봇 학습에 사용되는 시연 데이터를 수집 방식에 따라 두 가지로 구분한다. Data A(텔레오퍼레이션 데이터)는 숙련된 조작자가 로봇을 원격 제어하며 수집하는 로봇 실행 가능한 궤적 데이터이고, Data B(사람 손 데이터)는 글러브·글래스 등 웨어러블 센서를 착용한 사람이 로봇 없이 자연스럽게 작업하며 수집하는 인간 시연 데이터이다. 이 구분은 이후 모든 챕터의 논의 기반이 된다.

구분 Data A (텔레오퍼레이션) Data B (사람 손 데이터)
수집 방식 로봇 원격 제어 글러브/글래스 착용 후 자연 작업
수집 주체 숙련된 로봇 조작자 현장 작업자 또는 일반인
수집 비용 높음 ($60K+ 시스템) 낮음 ($600 이하)
처리량 ~10 demos/hr 자연 작업 속도
로봇 필요 필수 불필요
실행 가능성 로봇이 직접 실행 가능 리타게팅 필요
분포 로봇 기구학에 제한 자연스러운 인간 분포

Data B의 핵심 장점은 세 가지로 요약된다.

규모(Scale)

EgoDex [10]는 Apple Vision Pro를 이용하여 829시간, 9천만 프레임, 194개 태스크의 dexterous manipulation 데이터를 수집했다. BuildAI[11]는 실제 공장에서 2,153명 작업자의 10,000시간 egocentric 데이터를 수집하여 공개했다. 이러한 규모는 텔레오퍼레이션으로는 달성 불가능하다.

EgoScale [2]은 20,854시간의 egocentric 인간 비디오에서 사전훈련(pretrain)하여 log-linear scaling law(R² = 0.9983)를 실증했다. 이는 인간 데이터의 양이 증가할수록 성능이 예측 가능하게 향상됨을 의미한다.

현실성(Realism)

인간은 실제 환경에서, 실제 물체로, 자연스러운 전략을 사용하여 작업한다. 이 데이터는 물체의 형상, 재질, 무게에 대한 자연스러운 적응을 포함하며, 텔레오퍼레이션 데이터가 가지는 "로봇 기구학에 의한 왜곡"이 없다. EgoMimic [4]은 2시간 로봇 데이터에 1시간 사람 손 데이터를 추가하면 3시간 로봇 데이터만 사용한 것보다 +34~228% 향상되는 scaling trend를 보고했다. 이는 동일 시간 대비 human data가 robot data보다 높은 한계 성능에 도달함을 시사하며, 현실성의 가치를 정량적으로 보여준다.

다양성(Diversity)

텔레오퍼레이션은 통상 1~2명의 숙련 조작자에 의존하므로 조작 전략의 다양성이 제한된다. 반면 사람 손 데이터는 다수의 작업자가 각자의 전략으로 동일 태스크를 수행한 기록을 포함한다. EgoDex는 다수 참여자의 194개 태스크에 걸친 데이터를, Ego4D [12]는 9개국 931명의 일상을 포착하여 극단적 다양성을 확보했다.

1.4 사람 손 데이터의 실증적 가치

2024년까지 "사람 데이터만으로 로봇 제어"는 불가능하다고 여겨졌다. 그러나 2025년을 기점으로 이 가정이 무너졌다.

논문 접근법 핵심 결과 로봇 데이터
X-Sim [5] 1 RGBD → sim RL +30% task progress, 10x 수집 절감 0
Human2Sim2Robot [6] 1 demo → sim RL → Allegro Hand +55~68% vs baselines 0
EgoZero [7] 스마트글래스 → 3D point 7태스크 평균 70% 0
VidBot [8] 인터넷 RGB → affordance 13태스크 zero-shot 0
LAPA [9] 인터넷 비디오 pretrain → fine-tune 30x 효율, +6.2%p vs OpenVLA 소량
UMI [14] 핸드헬드 그리퍼 → diffusion policy 컵 정리 100%, 동적 던지기 87.5%, 야외 일반화 71.7% 0
ACT-1 [15] Skill Capture Glove + Skill Transform 90% 변환 성공률, 로봇 데이터 0으로 33종 조작 + Airbnb zero-shot 0

이 결과들이 일관되게 시사하는 바는, 사람 손 데이터(Data B)가 로봇 학습의 유효한 데이터 소스라는 것이다. 특히 X-Sim(CoRL 2025 Oral)과 Human2Sim2Robot은 인간 시연 단 1개로 dexterous manipulation 정책을 학습할 수 있음을 보였다 (Chapter 4).

그러나 중요한 한계도 존재한다. 이 연구들은 대부분 5~13개의 lab 태스크에서만 검증되었고, contact-rich 태스크(나사 조이기, 캡핑 등)는 거의 포함되지 않았다. EgoZero의 70% 성공률은 산업 적용(>95% 필요)에는 부족하다. 이 gap이 바로 Data A + Data B co-training(Chapter 5)과 촉각 정보(Chapter 3)의 필요성을 제기한다.

1.5 핵심 질문 정의

위의 분석으로부터, 본 서베이 전체를 관통하는 세 가지 핵심 질문을 정의한다:

  1. Data B만으로 로봇 제어가 가능한가? — X-Sim, EgoZero, VidBot이 긍정적 신호를 보여주지만, contact-rich 태스크에서의 한계가 존재한다 (Chapter 4).
  1. Data A + Data B를 합치면 성능이 올라가는가? — EgoMimic +34~228%, EgoScale R²=0.9983, AoE 45%→95%(Close Laptop 태스크)가 강력한 긍정적 근거이다. 그러나 촉각을 포함한 co-training은 아직 누구도 시도하지 않았다 (Chapter 5).
  1. 텔레오퍼레이션을 완전히 제거할 수 있는가? — 이것이 TacPlay가 답하려는 궁극적 질문이다. 동일 촉각 글러브를 로봇에 장착하고 자율 탐색으로 embodiment gap을 학습하면, Data A 자체가 불필요해질 수 있다 (Chapter 9).

1.6 우리의 방향과의 연결

TacGlove [#26]/TacTeleOp은 질문 2에, TacPlay [#27]는 질문 3에 답하는 연구이다. 텔레오퍼레이션의 병목이 단순한 효율성 문제가 아니라 구조적 한계임을 인식하면, 사람 손 데이터(Data B)의 대규모 수집과 활용은 선택이 아닌 필수가 된다. 다음 장에서는 이 Data B를 수집하는 구체적 하드웨어 — 글러브, 외골격, 스마트글래스 — 의 현황을 분석한다 (Chapter 2).

참고문헌

  1. Fang, H.-S., & Agrawal, P. et al. (2025). DEXOP: Dexterous Manipulation with Passive Exoskeleton. IEEE RA-L. https://arxiv.org/abs/2509.04441 #10 scholar
  2. Zheng, R., et al. (2026). EgoScale: Egocentric Video Pretraining for Scalable Robot Learning. arXiv. https://research.nvidia.com/labs/gear/egoscale/ scholar
  3. Yang, B., et al. (2026). AoE: Always-on Egocentric Data Collection for Robot Learning. arXiv. scholar
  4. Kareer, S., et al. (2024). EgoMimic: Scaling Imitation Learning via Egocentric Video. arXiv. https://arxiv.org/abs/2410.24221 scholar
  5. Dan, P., et al. (2025). X-Sim: Cross-Embodiment Simulation for Robot Learning. CoRL 2025 Oral. https://portal-cornell.github.io/X-Sim/ scholar
  6. Lum, T. G. W., et al. (2025). Human2Sim2Robot: Dexterous Manipulation Transfer via Simulation. CoRL 2025. scholar
  7. Liu, V., et al. (2025). EgoZero: Robot Policy Learning from Egocentric Video without Robot Data. arXiv. scholar
  8. Chen, H., et al. (2025). VidBot: Learning Robot Manipulation from Internet Videos. CVPR 2025. scholar
  9. Ye, S., et al. (2025). LAPA: Latent Action Pretraining from Videos. ICLR 2025. scholar
  10. Hoque, R., et al. (2025). EgoDex: A Large-Scale Egocentric Dexterous Manipulation Dataset. arXiv. scholar
  11. BuildAI (2025). Egocentric-10K: 10,000 Hours of Factory Egocentric Video. Hugging Face. scholar
  12. Grauman, K., et al. (2022). Ego4D: Around the World in 3,000 Hours of Egocentric Video. CVPR 2022. scholar
  13. SJTU (2024). AirExo: Low-Cost Exoskeletons for Learning Whole-Arm Manipulation in the Wild. ICRA 2024. scholar
  14. Chi, C., et al. (2024). Universal Manipulation Interface: In-The-Wild Robot Teaching Without In-The-Wild Robots. RSS 2024. https://umi-gripper.github.io/ #35 scholar
  15. Sunday Robotics (2025). ACT-1: A Robot Foundation Model. Technical Report. https://www.sundayrobotics.com/act-1 #29 scholar