Chapter 9: TacPlay — 텔레옵 없는 자율 학습
요약
참고: TacPlay는 TacGlove (Chapter 7)와 TacTeleOp (Chapter 8)의 성과를 기반으로 하는 내년도 후속 연구 방향이다. 올해는 TacGlove 하드웨어 개발과 TacTeleOp 다물체 파지 검증에 집중하며, TacPlay는 이들의 결과가 확보된 후 본격적으로 추진할 계획이다.
TacPlay [#27]는 TacGlove [#26]/TacTeleOp의 후속으로, 텔레오퍼레이션을 완전히 제거하는 시스템이다. 동일 촉각 글러브를 로봇에 장착하고, 인간의 촉각 패턴을 "목표"로 설정하여 로봇이 자율 play를 통해 embodiment gap을 스스로 학습한다. OSMO의 수동적 Embodiment Bridge를 능동적 학습으로 확장하고, DexH2R의 기구학 잔차를 촉각 잔차로 확장하는 것이 핵심이다. "촉각 공간에서의 능동적 cross-embodiment 학습"은 기존 연구에서 시도된 적 없으며, 촉각 잔차의 cross-task 일반화는 이 연구의 가장 야심적인 가설이다.
9.1 도입: 텔레오퍼레이션이 정말 필요한가
TacTeleOp (Chapter 8)은 소량 Data A(teleop) + 대량 Data B(작업자)의 co-training을 제안한다. 이것은 텔레오퍼레이션의 양을 줄이지만 제거하지는 않는다. 새 공정을 추가할 때마다 50~100 episode의 teleop이 필요하며, 이는 숙련 조작자와 로봇 접근이 요구된다.
TacPlay의 질문은 더 급진적이다: Data A 자체를 불필요하게 만들 수 있는가?
Chapter 4에서 X-Sim, EgoZero, VidBot이 시각 데이터만으로 teleop-free를 달성한 사례를 확인했다. TacPlay는 시각이 아닌 촉각 공간에서 이를 달성하려 한다. 시각 보상이 contact-rich 태스크에서 한계를 보이는 영역(Chapter 4)에서, 촉각 보상이 그 한계를 넘는 것이 목표이다.
9.2 Phase 1: Human Contact Prior — 촉각 레시피
TacTeleOp에서 수집된 Data B에서 태스크별 촉각 레시피(tactile recipe)를 추출한다. 촉각 레시피는 특정 조작을 수행할 때 나타나는 시간적 촉각 패턴의 요약이다.
촉각 레시피의 구성
tactile_recipe = {
contact_sequence: [(sensor_id, onset_time, offset_time), ...],
force_profile: {
sensor_id: [(time, normal_force, shear_x, shear_y), ...]
},
key_events: [
{time: t1, description: "thumb contacts cap edge", force: 2.3N},
{time: t2, description: "index applies torque", force: 1.8N},
...
]
}
예컨대, 캡핑의 촉각 레시피: (1) 엄지와 검지가 캡 측면에 접촉(t=0), (2) 법선력 2~4N으로 그립 안정화(t=0.5s), (3) 시계 방향 전단력으로 회전(t=1~3s), (4) 토크 저항 증가 감지 시 법선력 증가(t=3~5s), (5) 최종 토크 달성 후 접촉 해제(t=5~6s).
이 레시피는 인간 Data B의 수천 개 에피소드에서 통계적으로 추출된다. 개별 에피소드의 노이즈가 평균화되고, 물체별/작업자별 변동이 분포로 표현된다.
ExoStart와의 비교
ExoStart [4] [#9]는 9~15개 exo demos에서 binary reward function을 추출하여 RL에 사용한다 (Chapter 2). TacPlay의 촉각 레시피는 ExoStart의 binary reward를 연속 3축 촉각 목표로 확장한 것이다. ExoStart가 "이 자세에 도달했는가"를 판단한다면, TacPlay는 "이 촉각 패턴을 재현했는가"를 판단한다.
9.3 Phase 2: Robot Autonomous Tactile Play — 핵심 기여
TacGlove의 동일 촉각 글러브를 로봇에 장착한다. 로봇은 Phase 1에서 추출된 촉각 레시피를 "목표"로 설정하고, 자율적으로 물체와 상호작용하며 인간의 촉각 패턴을 재현하는 방법을 탐색한다.
보상 함수
- 제1항 (촉각 유사도): 로봇의 현재 촉각 패턴(\tau_t^{robot})과 인간의 목표 촉각 패턴(\tau_t^{target})의 L2 거리. 가까울수록 높은 보상.
- 제2항 (태스크 진행): 태스크 완료 여부의 sparse indicator. 촉각 유사도만으로는 태스크 완료를 보장하지 못하므로(같은 촉각 패턴이 다른 결과를 낳을 수 있음), 이 항이 필요하다.
\alpha는 두 항의 균형을 조절한다. 초기에는 촉각 유사도(dense reward)에 의존하여 빠른 탐색을 유도하고, 학습이 진행되면 task_progress(sparse reward)의 비중을 높이는 curriculum이 가능하다.
핵심 통찰: 동일 글러브 = 동일 관측 공간
TacPlay의 실현 가능성은 동일 물리적 센서에서 데이터가 생성된다는 사실에 근거한다. OSMO [#18]의 Embodiment Bridge와 같은 원리이지만, OSMO가 "같은 센서에서 데이터를 모은다"(수동적)에 그치는 반면, TacPlay는 "같은 센서의 데이터를 보상으로 사용한다"(능동적)는 점에서 확장이다.
인간이 캡을 돌릴 때 센서 3번에 2.3N의 법선력과 0.8N의 전단력이 관측되었다면, 로봇도 센서 3번에 유사한 값을 만들어야 한다. 같은 센서이므로 같은 단위, 같은 스케일이다 — domain adaptation이 불필요하다.
물론, 기구학 차이 때문에 로봇이 인간과 정확히 같은 촉각 패턴을 재현할 수는 없다. 인간의 5손가락과 로봇의 4손가락은 다른 접촉 분포를 만든다. 이 체계적 차이가 바로 촉각 잔차이다.
촉각 잔차 학습
로봇이 자율 play를 반복하면서, 인간 촉각 패턴과 로봇 촉각 패턴 사이의 체계적 차이를 자동으로 학습한다:
이 잔차는 DexH2R[2]의 기구학 잔차와 유사한 개념이지만, 두 가지 핵심 차이가 있다:
- 촉각 공간에서 정의: DexH2R은 관절각/위치 공간의 잔차, TacPlay는 촉각 공간의 잔차. 촉각 잔차는 접촉 역학의 차이를 직접 캡처한다.
- Cross-task 일반화 가설: 기구학 차이는 물체나 태스크에 무관한 물리적 상수에 가깝다 — 같은 로봇은 항상 같은 방식으로 기구학적으로 다르다. 따라서 캡핑에서 학습한 촉각 잔차가 라벨 부착에서도 유효할 수 있다.
9.4 Phase 3: Contact-Guided Deployment — 잔차 정책
최종 배치 시, 로봇 정책은:
인간의 촉각 레시피(\pi_{human})에 학습된 촉각 잔차(\Delta_{residual})를 더하여 로봇 행동을 생성한다. 새 공정을 추가할 때:
- 인간이 새 공정의 촉각 레시피를 시연 (Data B, teleop 불필요)
- 기존 촉각 잔차를 적용 (cross-task 일반화가 성립하면)
- 필요 시 소량의 자율 play로 잔차 미세조정 (물체별 2~4시간)
이 파이프라인에서 텔레오퍼레이션은 완전히 제거된다.
비용 비교
| Teleop-only | TacTeleOp | TacTeleOp+TacPlay | |
|---|---|---|---|
| Teleop 시간 | 33hr+ | 8hr | 0hr |
| 로봇 자율 탐색 | 0 | 0 | 물체별 2~4hr |
| 새 공정 추가 | 추가 teleop | 소량 teleop | play만 |
| 인간 조작자 필요 | Yes | Yes | No (야간 운영 가능) |
9.5 핵심 가설
H1: 촉각 목표가 cross-embodiment 보상으로 작동
X-Sim [3]의 시각 보상(물체 궤적)이 cross-embodiment 보상으로 작동했듯이, TacPlay의 촉각 보상(촉각 패턴 유사도)이 cross-embodiment 보상으로 작동하리라는 가설. 차이점은 X-Sim이 물체 수준에서 작동하는 반면, TacPlay는 접촉 수준에서 작동한다 — contact-rich 태스크에서 더 세밀한 보상 신호를 제공한다.
H2: 자율 play가 teleop 대체 가능
ExoStart [4]가 9~15 demos → RL → >50% 성공을 달성한 것이 선례. Human2Sim2Robot [5]이 1 demo → sim RL로 dexterous manipulation을 달성한 것이 추가 선례. TacPlay는 촉각 목표(ExoStart의 binary reward보다 풍부)로 RL을 구동하므로, 유사하거나 더 나은 수렴이 기대된다.
H3: 촉각 잔차가 cross-task 일반화
가장 야심적이면서 가장 위험한 가설. DexH2R[2]의 기구학 잔차(+40%)가 residual learning의 유효성을 지지하지만, cross-task 일반화는 DexH2R에서도 검증되지 않았다. 물리적 근거: 기구학 차이는 물체/태스크 무관한 체계적 편향이므로, 촉각 잔차도 유사하게 일반화 가능하다. 하지만 물체 형상, 표면 마찰, task dynamics에 따라 잔차가 달라질 가능성도 배제할 수 없다.
Fallback: Cross-task 일반화가 실패하더라도, task-specific 촉각 잔차가 DexH2R의 시각 잔차보다 우월하다면 여전히 기여가 된다. Contact-rich 태스크에서 시각은 접촉면의 occlusion 때문에 잔차를 정확히 학습하기 어렵지만, 촉각은 접촉면을 직접 관측한다.
9.6 관련 연구와의 차별화
vs OSMO Embodiment Bridge
| 차원 | OSMO | TacPlay |
|---|---|---|
| 데이터 정렬 | 수동적 (같은 센서에서 데이터 수집) | 능동적 (같은 센서를 보상으로 사용) |
| Gap 학습 | 없음 | 촉각 잔차 자동 학습 |
| Teleop | 필요 | 불필요 |
| Robot의 역할 | 데이터 수신자 | 능동적 탐색자 |
vs DexH2R Residual RL
| 차원 | DexH2R | TacPlay |
|---|---|---|
| 잔차 공간 | 기구학 (관절각/위치) | 촉각 (접촉 힘/패턴) |
| 보상 | 시각 기반 task reward | 촉각 패턴 유사도 |
| 일반화 | Task-specific | Cross-task 가설 |
| Contact 관측 | 간접 (시각) | 직접 (촉각) |
vs X-Sim (Teleop-Free)
| 차원 | X-Sim | TacPlay |
|---|---|---|
| 보상 | 물체 궤적 (시각) | 촉각 패턴 유사도 |
| 강점 영역 | Non-contact | Contact-rich |
| 시뮬레이션 | 필수 (sim RL) | 선택적 (real play 가능) |
| 정밀도 | 물체 수준 | 접촉 수준 |
9.7 리스크와 완화 전략
R1: RL 수렴 실패 (심각도: 높음)
촉각 목표 기반 RL은 이전에 시도된 적 없다. 보상 함수가 sparse하거나 non-smooth하여 수렴하지 않을 수 있다.
완화: (1) 시뮬레이션(MuJoCo + TACTO)에서 먼저 수렴 검증. (2) ExoStart의 auto-curriculum RL + dynamics filtering 참조. (3) 보상 shaping: 촉각 패턴의 부분 매칭부터 시작하는 curriculum.
R2: 촉각 전이 품질 (심각도: 높음)
동일 글러브임에도 기구학 차이로 인한 촉각 패턴 차이가 보상 신호를 무의미하게 만들 수 있다.
완화: (1) 동일 물체, 동일 그립에서 인간/로봇 촉각 유사도 사전 측정. (2) 유사도가 너무 낮으면 domain adaptation 적용. (3) 잔차 학습 자체가 이 차이를 보정하는 메커니즘.
R3: 안전 (심각도: 중간)
로봇이 실세계에서 자율 탐색하면 물체 파손, 환경 손상, 자기 손상의 위험이 있다.
완화: (1) 힘 한계 설정 (OSMO 범위 0.3~80N 내). (2) 위치 한계. (3) 초기에는 인간 감독 하 실행. (4) sim-first 후 real transfer.
9.8 핵심 논의: 이것은 진정한 novelty인가
TacPlay의 novelty를 솔직히 평가하면:
가장 강력한 novelty (P1): "촉각 공간에서의 능동적 cross-embodiment 학습"은 기존에 0편이 시도한 접근이다. OSMO는 수동적이고, DexH2R은 시각 기반이다. 이 두 가지를 촉각 공간에서 능동적으로 결합한 것은 새롭다.
가장 위험한 claim (P3): 촉각 잔차의 cross-task 일반화. 기존 증거가 거의 없다. 이 가설이 맞으면 임팩트가 크고, 틀리면 논문의 핵심이 흔들린다. Fallback 필수: task-specific 촉각 잔차라도 DexH2R 대비 우위면 기여.
OSMO v2 위협: Meta FAIR가 6개월 내 OSMO에 능동 학습을 추가할 가능성. 완화: stretchable 하드웨어 차별점 + 조기 제출 + 산업 적용.
9.9 우리의 방향과의 연결
TacPlay는 TacGlove/TacTeleOp 위에서만 가능하다:
- TacGlove의 촉각 글러브 → TacPlay의 Embodiment Bridge
- TacTeleOp의 Data B → TacPlay의 촉각 레시피 소스
- TacTeleOp의 co-training 결과 → TacPlay의 baseline 비교
TacPlay는 올해 TacGlove(Chapter 7)와 TacTeleOp(Chapter 8)의 하드웨어·데이터 파이프라인이 검증된 이후 내년도에 본격 추진할 계획이다. TacGlove/TacTeleOp만으로도 "stretchable 촉각 글러브 + 다물체 파지 co-training"이라는 독자적 기여가 성립하며, TacPlay가 추가되면 텔레오퍼레이션 완전 제거라는 궁극적 목표에 도달한다.
다음 장에서는 TacGlove, TacTeleOp, TacPlay를 검증하기 위한 실험 설계를 제시한다 (Chapter 10).
참고문헌
- Yin, J., et al. (2025). OSMO: A Large-Scale Tactile Glove. arXiv. https://arxiv.org/abs/2512.08920 #18 scholar
- DexH2R (2024). Task-Oriented Residual RL for Dexterous Transfer. arXiv. scholar
- Dan, P., et al. (2025). X-Sim: Cross-Embodiment Simulation. CoRL 2025 Oral. scholar
- Si, Z., et al. (2025). ExoStart: Exoskeleton-Aided Dexterous Manipulation. arXiv. #9 scholar
- Lum, T. G. W., et al. (2025). Human2Sim2Robot. CoRL 2025. scholar
- Park, M., & Park, Y.-L. et al. (2024). Stretchable Glove. Nature Communications. #6 scholar
- Physical Intelligence (2025). pi0. arXiv. #2 scholar
- Zheng, R., et al. (2026). EgoScale. arXiv. scholar
- Li, et al. (2025). ManipTrans. CVPR 2025. scholar