Chapter 8: TacTeleOp — 다물체 파지와 촉각 Co-training
요약
TacTeleOp은 ROBOTIS HX5-D20 5지 20-DOF 로봇핸드를 이용해 바닥에 놓인 립스틱 크기 박스를 하나씩 손바닥으로 가져가며 집는 다물체 순차 파지(sequential multi-object grasping)를 구현한다. TacGlove (Chapter 7)를 로봇과 사람 모두에 장착하여 Data A(텔레오퍼레이션) + Data B(사람 시연)를 수집하고 co-training하며, Montana/Murray의 고전 파지 이론을 학습 기반 접근에 통합한다. 기존 다물체 파지 연구 [MultiGrasp, SeqMultiGrasp, SeqGrasp]가 공유하는 다섯 가지 근본적 한계 — 촉각 부재, palm-up 제한, 4손가락, 시뮬레이션 의존, 사람 시연 데이터 미활용 — 를 동시에 해결하는 것이 목표이다. 박종우 교수님 연구실에서 개발한다.
8.1 도입: 하드웨어에서 데이터 파이프라인으로
Chapter 7의 TacGlove [#26]가 stretchable 촉각 글러브라는 하드웨어 기반을 제공했다. 그러나 하드웨어만으로는 조작 능력이 생기지 않는다. 이제 필요한 것은 세 가지이다: (1) TacGlove를 장착할 적합한 로봇핸드, (2) 그 로봇핸드로 수행할 도전적 조작 태스크, (3) 사람과 로봇의 데이터를 연결하는 학습 파이프라인. TacTeleOp은 이 세 가지를 ROBOTIS HX5-D20 + 다물체 순차 파지 + Data A/B co-training으로 구체화한다.
TacPlay [#27](Chapter 9)가 텔레오퍼레이션을 완전 제거하는 자율 play 방식이라면, TacTeleOp은 텔레오퍼레이션을 개선하는 접근이다. 두 연구는 동일한 HX5-D20 + TacGlove 플랫폼을 공유하지만, 데이터 수집 전략이 다르다.
8.2 ROBOTIS HX5-D20 로봇핸드
스펙
ROBOTIS HX5-D20은 2025년 말~2026년 초 출시된 5지 20-DOF 덱스터러스 핸드이다.
| 항목 | 스펙 |
|---|---|
| 손가락 수 | 5 |
| 자유도(DOF) | 20 |
| 구동기 | DYNAMIXEL XM335, 직접 구동 |
| 제어 주파수 | 1 kHz |
| 최대 손끝 힘 | 14 N |
| 최대 페이로드 | 15 kg |
| 무게 | 1.36 kg |
| 내장 촉각 | 손끝 압력 센서 (손가락당 1개, 기본) |
| 통신 | RS-485, ROS 2 + ros2_control |
| 가격 | ~$10,000 USD |
기존 로봇핸드 비교
| 핸드 | DOF | 손가락 | 무게 | 가격 | 촉각 |
|---|---|---|---|---|---|
| ROBOTIS HX5-D20 | 20 | 5 | 1.36 kg | ~$10K | 손끝 압력 |
| Allegro Hand V4 | 16 | 4 | 1.08 kg | ~$16K | 없음 |
| LEAP Hand | 16 | 4 | ~0.5 kg | <$2K | 없음 |
| Shadow Hand | 20+ | 5 | ~4 kg | ~$100K+ | 129개 센서 |
| Psyonic Ability | 6 | 5 | 0.49 kg | ~$10K | 30개 손끝 센서 |
HX5-D20 선정 이유
네 가지 핵심 이유로 HX5-D20을 선정한다:
- 5손가락 = 인간과 유사한 기구학: Allegro/LEAP의 4손가락(16 DOF)은 인간 손(27 DOF)과의 기구학적 거리가 크다. HX5-D20의 5손가락 20 DOF는 이 gap을 줄인다. 특히 다물체 순차 파지에서 5번째 손가락(소지)은 이미 쥔 물체를 안정적으로 고정하면서 다음 물체를 집는 데 핵심적이다.
- TacGlove 장착 호환성: 1.36 kg의 적당한 크기와 5지 구조가 TacGlove의 whole-hand 촉각 센서 배치와 기구학적으로 호환된다.
- 합리적 가격대: Shadow Hand($100K+)의 1/10, Allegro($16K)보다 저렴한 ~$10K로, 복수 플랫폼 구축이 현실적이다.
- ROS 2 네이티브: ros2_control 지원으로 기존 연구 인프라와 즉시 통합 가능하다.
내장 촉각 센서의 한계
HX5-D20의 내장 촉각 센서는 손가락당 1개의 기본 압력 센서에 불과하다. 이는 접촉 감지(binary touch)에는 충분하나, 전단력 측정, 힘 분포 파악, 미끄러짐 감지에는 부족하다. TacGlove를 추가 장착함으로써 24채널(8센서 x 3축) whole-hand 촉각을 확보하여, 기본 센서의 한계를 보완한다.
중요한 사실: HX5-D20은 출시가 최근이어서, 아직 학습 기반 조작 연구에 사용된 사례가 없다. 이는 리스크이자 기회이다 — TacTeleOp이 HX5-D20 기반 최초의 학습 기반 조작 연구가 될 수 있다.
8.3 다물체 파지 시나리오
목표 태스크
바닥(테이블)에 놓인 립스틱 크기의 소형 박스를 하나씩 손바닥 안으로 가져가며 집는다. 첫 번째 물체를 집은 후, 손 안에 안정적으로 고정한 상태에서 두 번째, 세 번째 물체를 순차적으로 추가한다. 이 태스크는 화장품 공정에서의 소형 용기 다중 핸들링에 직접 대응한다(Chapter 7 Section 7.5).
이 시나리오의 난이도는 [22]의 F-TAC Hand 결과에서도 확인된다: 손바닥 면적 70%를 0.1 mm 해상도로 커버했을 때 multi-object 운반 적응률이 53.5%(촉각 부재)에서 거의 100%로 상승했다. 이 격차는 곧 "손바닥 접촉 신호가 충돌 회피와 재배치 결정의 핵심"임을 뜻한다 — 촉각이 관측에 그치지 않고 결정에 직접 기여함을 정량적으로 입증한 사례다. TacTeleOp은 이 결과를 참조점 삼아, TacGlove의 24채널 촉각이 동일 수준의 loop closure를 저비용 magnetic 모달리티로 재현할 수 있는지를 검증한다.
기존 연구의 근본적 한계
2024-2025년 다물체 파지 연구 세 편은 모두 공통된 한계를 갖는다:
| 연구 | 핸드 | 물체 수 | 성공률 | 환경 | 촉각 | 방향 |
|---|---|---|---|---|---|---|
| MultiGrasp [PKU, RA-L 2024] | Shadow | 2 | 44% (sim) | Sim only | 없음 | Palm-up |
| SeqMultiGrasp [USC, arXiv Mar 2025] | Allegro | 2 | 56.7% (real) | Sim+Real | 없음 | Palm-up |
| SeqGrasp [KTH, arXiv Mar 2025] | Allegro | 3-4 | 50% (real) | Sim+Real | 없음 | Palm-up |
다섯 가지 공통 한계:
- 촉각 부재: 세 연구 모두 촉각 센서 없이 비전과 관절 위치만 사용한다. 물체가 손 안에서 미끄러지는지 감지할 수 없다.
- Palm-up 제한: 손바닥을 위로 향한 상태에서 물체가 중력으로 떨어지는 방식에 의존한다. 테이블 위에서 물체를 집어 올리는(palm-down) 실제 시나리오와 괴리가 있다.
- 4손가락 한계: Allegro와 LEAP은 4손가락이므로, 이미 쥔 물체를 고정하는 소지가 없다. MultiGrasp의 Shadow Hand도 손가락 활용 전략이 제한적이다.
- 시뮬레이션 의존: 모두 RL 또는 최적화 기반으로 시뮬레이션에서 학습한 후 real로 전이한다. 사람 시연 데이터를 활용하지 않는다.
- 강체 전용: 유연한 물체나 다양한 재질에 대한 일반화가 미검증이다.
단일 물체 조작의 선행 연구
UMI [21] [#35]는 핸드헬드 그리퍼 기반 in-the-wild 데이터 수집으로 단일 물체 조작(컵 정리 100%, 동적 던지기 87.5%)에서 높은 성공률을 보고했다. 그러나 2-DoF 그리퍼에 국한되어 다물체 순차 파지나 dexterous manipulation은 다루지 못하며, 촉각 센서가 없다. TacTeleOp은 이를 5손가락 dexterous hand + 24채널 분산 촉각 + 다물체 순차 파지로 확장한다.
TacTeleOp의 차별화
| 차원 | 기존 연구 | TacTeleOp |
|---|---|---|
| 촉각 | 없음 | TacGlove 24ch whole-hand |
| 파지 방향 | Palm-up | Palm-down (테이블 픽) |
| 손가락 수 | 4 (Allegro/LEAP) | 5 (HX5-D20) |
| 데이터 소스 | Sim-to-real (RL/최적화) | 사람 시연 + 텔레오퍼레이션 |
| 이론 기반 | 없음 또는 부분적 | Montana/Murray 통합 |
8.4 텔레오퍼레이션의 어려움과 TacGlove 해법
텔레오퍼레이션이 어려운 세 가지 이유
- 기구학 미스매치: 인간 손의 27 DOF를 로봇의 4~24 DOF로 매핑해야 한다. 특히 HX5-D20(20 DOF)도 인간 손의 27 DOF와 완벽히 대응하지 않으며, 손가락 간 결합(coupling) 패턴이 다르다.
- 제어 지연: 비전 기반 텔레오퍼레이션은 50~200 ms의 지연이 발생한다. 글러브 기반은 10~30 ms로 줄어들지만, 다물체 파지처럼 정밀 제어가 필요한 태스크에서는 여전히 영향을 미친다.
- 촉각 피드백 부재: 대부분의 텔레오퍼레이션 시스템은 조작자에게 촉각 피드백을 제공하지 않는다. 그 결과 과도한 힘으로 물체를 누르거나, 불충분한 힘으로 물체를 놓치는 문제가 발생한다.
TacGlove 해법: 양방향 촉각 브리지
TacGlove (Chapter 7)는 이 세 가지 문제를 동시에 완화한다:
- 로봇에 TacGlove 장착: HX5-D20에 TacGlove를 장착하여 24ch whole-hand 촉각을 확보한다. 이 촉각 데이터는 (1) 학습 시 입력 모달리티로 사용되고, (2) 텔레오퍼레이션 시 조작자에게 피드백으로 제공될 수 있다.
- 사람도 TacGlove 착용: 동일한 TacGlove를 사람이 착용하고 일상 작업을 수행하면 Data B가 수집된다. 동일 센서 = 동일 촉각 공간(Embodiment Bridge, Chapter 6).
촉각 피드백의 데이터 품질 효과
OSMO [#18]는 촉각 피드백이 텔레오퍼레이션 성능뿐 아니라 수집 데이터의 품질도 향상시킴을 보였다: 닦기 태스크에서 촉각 포함 72% vs 미포함 56% 성공률(+16%p). DOGlove는 더 나아가 촉각 피드백만으로 시각 없이도 조작이 가능함을 보였다.
이 결과는 TacTeleOp에 두 가지를 시사한다: (1) 촉각 피드백이 Data A의 품질을 높이고, (2) 높은 품질의 Data A가 co-training 전체 파이프라인의 성능을 끌어올린다.
8.5 Montana/Murray 파지 이론 연결
고전 이론의 핵심 개념
다지 파지(multi-fingered grasping)의 고전 이론은 세 가지 핵심 프레임워크로 구성된다:
- Montana [2]: 접촉 운동학(contact kinematics) — 손가락과 물체 표면 사이의 rolling/sliding 접촉, 표면 곡률, 접촉 상태 전이를 수학적으로 모델링한다.
- Murray, Li, Sastry [3]: 힘 폐합(force closure)과 wrench space 분석 — N개 접촉점이 물체에 가할 수 있는 힘/토크의 집합을 분석하여, 파지의 안정성을 판단한다.
- Mason & Salisbury [4]: 힘/형태 폐합(force/form closure)의 기하학적 조건과 파지 품질 메트릭을 정의한다.
학습 기반 접근과의 연결
현대 연구는 이 고전 이론을 학습 파이프라인에 통합하기 시작했다. SeqMultiGrasp [USC, 2025]는 differentiable force closure를 loss term에 포함하여, 물리적으로 안정적인 파지를 학습 중에 유도한다. 이 접근은 순수 RL보다 sample efficiency가 높고, 물리적으로 비현실적인 파지를 줄인다.
촉각 센서 = 고전 이론이 요구하는 신호
고전 파지 이론은 접촉 위치, 법선력, 전단력, 접촉 면적을 입력으로 요구한다. 기존 다물체 파지 연구들이 촉각 없이 작동하는 것은, 이 이론적 요구를 시뮬레이션의 정확한 접촉 모델로 대체하기 때문이다. 그러나 real-world에서는 시뮬레이션의 접촉 모델이 부정확하여, 촉각 센서가 제공하는 실측 신호가 필수적이다.
TacTeleOp에서 TacGlove의 8개 3축 센서는 force closure 조건의 만족 여부를 실시간으로 판단하는 데 사용된다. 예를 들어, 이미 쥔 물체의 미끄러짐 감지(전단력 변화)와 새 물체 접촉 시 충분한 파지력 확인(법선력 임계값)이 동시에 이루어진다.
8.6 데이터 엔진: Data A + Data B
Data B — 사람 시연 (대규모)
화장품 공정의 작업자 5명이 TacGlove + 스마트글래스를 착용하고, 다물체 핸들링을 포함한 일상 작업을 수행한다.
| 항목 | 수치 |
|---|---|
| 작업자 수 | 5명 |
| 수집 기간 | 20일 |
| 일일 수집 시간 | 8시간 |
| 총 시간 | 800시간 |
| 예상 에피소드 수 | 50,000+ |
| 모달리티 | 관절각 + 촉각(24ch) + egocentric RGB |
"Data B = scale + realism" — 물체별 파지 전략, 접촉 시퀀스, 힘 프로파일의 자연스러운 분포를 포함한다. 특히 다물체 순차 파지에서 사람의 손가락 조율 전략(어떤 손가락으로 기존 물체를 고정하고 어떤 손가락으로 새 물체를 집는지)은 RL로 쉽게 발견되지 않는 지식이다.
Data A — 텔레오퍼레이션 (소량)
TacGlove 기반 텔레오퍼레이션으로 HX5-D20을 제어하여 로봇 데이터를 수집한다.
| 항목 | 수치 |
|---|---|
| 공정당 | 50~100 episodes |
| 총 수집 시간 | ~8시간 (1주) |
| 로봇 | ROBOTIS HX5-D20 |
| 모달리티 | robot joint + tactile(동일 TacGlove) + third-person RGB |
"Data A = executability" — 로봇의 기구학적 제약 하에서 실행 가능한 궤적과 촉각 패턴을 제공한다. AoE의 "50 teleop + 200 human → 45%->95%(Close Laptop 태스크)" (Chapter 5)가 이 비율의 직접적 선례이다.
8.7 Co-training 파이프라인
Stage 1: Data B Pretrain
800시간의 Data B로 visual-tactile foundation model을 사전훈련한다. 인간 손의 미래 위치 + 미래 촉각 패턴을 동시에 예측하는 모델을 학습한다. EgoScale [9]의 flow-based VLA pretrain 방법론을 참조하되, 촉각 modality를 입력에 추가한다. 이 단계에서는 로봇 데이터가 불필요하다.
Stage 2: Cross-Embodiment Retargeting
인간의 관절각과 촉각 패턴을 HX5-D20 공간으로 매핑한다.
- 관절각: MANO parameter -> HX5-D20 joint command 매핑. 5손가락 대응으로 Allegro/LEAP 대비 retargeting이 단순화된다.
- 촉각: 동일 TacGlove(Embodiment Bridge)이므로 촉각 데이터는 직접 전이 가능. 기구학 차이에서 오는 체계적 편차는 Stage 3에서 보정한다.
- 시각: Mirage [17] 또는 H2R [2025]의 시각 gap 해법 적용 (Chapter 6).
Stage 3: Data A Fine-tune
공정당 50~100 teleop demos로 미세조정한다. EgoMimic [10]의 co-training 아키텍처를 참조하여, Data B pretrained 모델에 Data A를 추가 학습한다. 이 단계에서 로봇 실행 가능성(executability)이 확보된다.
8.8 화장품 공정 적용 시나리오
화장품 공정은 TacTeleOp의 다물체 파지가 가장 자연스럽게 적용되는 환경이다(Chapter 7 Section 7.5 상세). 컨베이어에서 소형 용기(립스틱, 마스카라, 아이라이너)를 여러 개 집어 포장 박스에 넣는 작업은 정확히 순차 다물체 파지이다. 현재 이 작업은 대부분 수작업이며, 다품종 소량 특성상 전용 자동화 장비의 ROI가 낮다. 범용 로봇핸드 + 학습 기반 접근이 적합한 이유이다.
8.9 OSMO 대비 데이터/규모 차별화
TacTeleOp은 TacGlove (Chapter 7)와 동일한 데이터 엔진을 사용하므로, OSMO 대비 차별화 역시 공유한다:
| 차원 | OSMO | UMI | UMI-FT | TacTeleOp | 배율 |
|---|---|---|---|---|---|
| 데이터 규모 | ~2시간, 140 demos | ~수백 demos | ~수백 demos | 800시간, 50,000+ demos | ~400x |
| 태스크 | 1 (wiping) | 단일 물체 | 단일 물체 | 다물체 파지 + 산업 공정 | 다수 |
| 로봇핸드 | xArm (2지 그리퍼) | 그리퍼(2-DoF) | 그리퍼(2-DoF) | HX5-D20 (5지, 20 DOF) | - |
| 촉각 | 글러브(12ch) | 시각만 | 손목 F/T(2개) | 분산 촉각(24ch) | - |
| 성공률 | 72%(닦기) | 100%(컵) | 92%(닦기) | 목표 90%+ | - |
| 글러브 소재 | Rigid | - | - | Stretchable | - |
| Co-training | 미검증 | 미검증 | 미검증 | 핵심 기여 | - |
| 파지 이론 | 미적용 | 미적용 | 미적용 | Montana/Murray 통합 | - |
| Gap 해법 | 물리적 동일성 | 물리적 동일성 | ACP | TacGlove co-design | - |
핵심 주의사항: TacTeleOp은 "다물체 파지를 최초로 촉각으로 해결"이라는 claim이 적절하다 — 기존 세 연구 모두 촉각 없이 수행되었기 때문이다. 단, "최초의 tactile data engine"이라는 claim은 피한다(OSMO 선점).
8.10 핵심 가설과 예상 결과
H1: Data B만으로 조건부 가능
X-Sim [12], EgoZero [14]에 근거하여, 촉각이 포함된 Data B는 vision-only Data B보다 높은 baseline 성능을 보일 것으로 예상된다. 목표: Data B only로 2물체 파지 50~60%, 단일 물체 파지 70~80%.
H2: A+B 합치면 우월
EgoMimic [10] +34~228%, AoE [11] 45%->95%(Close Laptop 태스크)에 근거하여, Data A + Data B co-training은 단독 대비 유의미한 향상을 보일 것이다. 목표: 2물체 파지에서 50%->80%+ 향상.
H3: 촉각 추가가 유의미
OSMO +16%p, VTDexManip +20%, DexUMI [#8] ablation(촉각 없으면 실패)에 근거하여, 촉각 포함 co-training은 vision-only 대비 유의미한 향상을 보일 것이다. 특히 다물체 파지에서 미끄러짐 감지와 힘 조절이 중요하므로, 촉각의 기여가 단일 물체 파지보다 클 것으로 예상된다.
8.11 한계와 열린 질문
- HX5-D20의 미검증: 학습 기반 조작 연구에 사용된 적이 없어, sim-to-real gap, 제어 안정성, 센서 노이즈 등이 미지수이다. Allegro/LEAP의 풍부한 연구 생태계와 비교하면 리스크가 크다.
- 다물체 파지의 높은 난이도: 기존 최고 성능이 2물체 56.7%(real)에 불과하다. TacTeleOp이 촉각과 사람 데이터를 추가하더라도, 3물체 이상에서 실용적 성공률에 도달하려면 상당한 engineering effort가 필요하다.
- 텔레오퍼레이션 품질의 초기 한계: HX5-D20의 텔레오퍼레이션 인터페이스가 아직 성숙하지 않아, 초기 Data A의 품질이 낮을 수 있다. 이는 Stage 3 fine-tuning의 효과를 저하시킬 수 있다.
- Palm-down 파지의 추가 난이도: Palm-up에서 palm-down으로의 전환은 중력이 적이 아닌 적(물체를 떨어뜨리는 방향)이 되므로, 파지 안정성 유지가 훨씬 어렵다.
- 5손가락 활용 전략의 학습: 5번째 손가락의 활용이 핵심 차별점이지만, 이를 자동으로 학습하려면 충분한 양의 5손가락 활용 데이터(Data B)가 필요하다.
8.12 Active palm으로의 전환: Palm-down multi-object의 enabling factor
지금까지의 기존 다물체 파지 연구들은 모두 palm-up 가정 아래 작동했다 — 중력이 물체를 손바닥 쪽으로 끌어당기는 방향. 그러나 실제 산업 현장(테이블 위 소형 용기 픽업, 조립 라인 부품 집기)은 palm-down이 지배적이며, 이때 손바닥은 더 이상 "중력이 도와주는 지지 표면"이 아니라 능동적으로 접촉 면적과 힘을 조절해야 하는 결정 지점이 된다.
이 전환을 정확히 지적한 최근 연구가 [23]이다 (npj Robotics): "Most prior work has concentrated on fingertips, leaving the functional role of the palm largely overlooked." 이 연구는 고해상도 시각 촉각을 탑재한 active palm(손바닥 자체가 actuated)과 reconfigurable fingers의 협조를 제안하며, contact-rich 매니퓰레이션에서 palm–finger coupling이 성공의 핵심임을 보인다.
손바닥 actuation의 설계 공간은 [24]의 종합 리뷰(Actuated Palms for Soft Robotic Hands: Review and Perspectives)에 taxonomy로 정리되어 있다: passive vs active, pneumatic/cable-driven/tendon, rigid/compliant/hybrid. 손바닥은 이 taxonomy를 통해 (i) 힘 분배, (ii) workspace 확장, (iii) 파지 안정성, (iv) conformability의 네 가지 역할을 수행할 수 있다. F-TAC Hand의 고해상도 passive palm과 TacPalm SoftHand의 ICA 기반 closed-loop trigger는 active 방향의 서로 다른 지점이다.
TacTeleOp 관점에서 함의는 두 가지다. 첫째, palm-down 시나리오는 근본적으로 palm-finger 협조를 요구하므로, 손바닥 센싱(TacGlove의 thenar/hypothenar/central 3섹션)이 "있으면 좋은" 수준이 아니라 성공/실패를 가른다. 둘째, HX5-D20 자체는 fixed palm이지만, TacGlove가 제공하는 24채널 촉각은 palm-side의 결정 신호를 상위 정책에 제공하므로 active palm의 대부분 기능을 소프트웨어 층에서 흉내 낼 수 있다. TacPlay(Chapter 9)는 이 신호 공간을 자율 탐색하여, 사람이 하는 palm-finger 협조 전략을 로봇 기구학으로 재현하는 방법을 학습한다.
참고문헌
- ROBOTIS (2025). HX5-D20 Dexterous Robot Hand. https://www.robotis.com/ scholar
- Montana, D. J. (1988). The Kinematics of Contact and Grasp. IJRR, 7(3). scholar
- Murray, R. M., Li, Z., & Sastry, S. S. (1994). A Mathematical Introduction to Robotic Manipulation. CRC Press. scholar
- Mason, M. T., & Salisbury, J. K. (1985). Robot Hands and the Mechanics of Manipulation. MIT Press. scholar
- Li, Y., et al. (2024). MultiGrasp: Multi-Object Grasping with Dexterous Hands. IEEE RA-L. https://arxiv.org/abs/2310.15599 scholar
- Li, H., et al. (2025). SeqMultiGrasp: Sequential Multi-Object Grasping via Diffusion. arXiv. https://arxiv.org/abs/2503.12579 scholar
- Wan, W., et al. (2025). SeqGrasp: Sequential Grasping via Opposition Space. arXiv. https://arxiv.org/abs/2503.11806 scholar
- Yin, J., et al. (2025). OSMO: A Large-Scale Tactile Glove. arXiv. https://arxiv.org/abs/2512.08920 #18 scholar
- Zheng, R., et al. (2026). EgoScale: Egocentric Video Pretraining. arXiv. scholar
- Kareer, S., et al. (2024). EgoMimic: Scaling Imitation Learning via Egocentric Video. arXiv. scholar
- Yang, B., et al. (2026). AoE: Always-on Egocentric Data Collection. arXiv. scholar
- Dan, P., et al. (2025). X-Sim: Cross-Embodiment Simulation. CoRL 2025 Oral. scholar
- Liu, V., et al. (2025). EgoZero: Robot Policy from Egocentric Video. arXiv. scholar
- Liu, Q., et al. (2025). VTDexManip: Visual-Tactile Dataset. ICLR 2025. scholar
- Xu, M., et al. (2025). DexUMI: Universal Manipulation Interface. arXiv. #8 scholar
- Yang, R., et al. (2025). EgoVLA: Egocentric VLA with MANO. arXiv. scholar
- Chen, L. Y., et al. (2024). Mirage: Cross-Painting Transfer. RSS 2024. scholar
- Park, M., & Park, Y.-L. et al. (2024). Stretchable Glove for Hand Motion Estimation. Nature Communications. #6 scholar
- Sunday Robotics (2025). ACT-1: Skill Capture Glove & Skill Transform. #29 scholar
- Chi, C., et al. (2024). UMI: Universal Manipulation Interface. RSS 2024. #35 scholar
- Chi, C., et al. (2024). UMI on Legs: Making Manipulation Policies Mobile with Manipulation-Centric Whole-body Controllers. arXiv. scholar
- Zhao, Z., et al. (2025). Embedding high-resolution touch across robotic hands enables adaptive human-like grasping (F-TAC Hand). Nature Machine Intelligence. https://arxiv.org/abs/2412.14482 #39 scholar
- Zhou, Y., Lee, W. S., Gu, Y., & She, Y. (2026). Tactile-reactive gripper with an active palm for dexterous manipulation. npj Robotics, 4, 13. https://www.nature.com/articles/s44182-026-00079-y scholar
- Pozzi, M., Malvezzi, M., Prattichizzo, D., & Salvietti, G. (2024). Actuated Palms for Soft Robotic Hands: Review and Perspectives. IEEE/ASME Transactions on Mechatronics, 29(2):902–921. scholar
- Zhang, N., Ren, J., Dong, Y., Gu, G., & Zhu, X. (2025). Soft Robotic Hand with Tactile Palm-Finger Coordination (TacPalm SoftHand). Nature Communications 16:2395. https://doi.org/10.1038/s41467-025-57741-6 #40 scholar