Part I: 배경과 동기

Chapter 2: 사람 손 데이터 수집 — 센서에서 데이터셋까지

집필일: 2026-04-07 최종수정일: 2026-04-07

요약

사람 손 데이터를 수집하는 하드웨어는 크게 네 가지로 분류된다: 모션 트래킹 글러브, 촉각 글러브, 웨어러블 외골격, 이고센트릭(egocentric) 카메라. 각 접근은 고유한 trade-off를 가지며, TacGlove가 제안하는 "stretchable 글러브 + 촉각 센서 + 스마트글래스" 조합의 설계 근거는 이 trade-off 분석에서 도출된다.

2.1 도입

Chapter 1에서 Data B의 가치를 확인했다면, 이 장의 질문은 "무엇으로, 어떻게 모을 것인가"이다. 2024~2026년 사이에 다양한 웨어러블 데이터 수집 시스템이 등장했으며, 이들은 수집 가능한 모달리티(관절각, 힘, 시각)와 운용 조건(비용, 착용감, 내구성)에서 크게 다르다.

2.2 모션 트래킹 글러브

Park et al. (2024) — Stretchable eGaIn 글러브

Park et al.^[1] [#6]은 eGaIn(eutectic gallium-indium) 액체금속 센서 기반의 stretchable 글러브를 제안했다. 9개의 eGaIn 변형 센서가 손가락 관절 위에 배치되어 관절각과 뼈 길이를 동시에 추정한다.

지표	수치
뼈 길이 오차	2.1 mm
관절각 오차	4.16°
손끝 위치 오차	4.02 mm
센서 수	9개 eGaIn
커버리지	3손가락 (엄지, 검지, 중지)

이 글러브의 핵심 장점은 stretchable 특성이다. 실리콘 기반이므로 자연스러운 파지를 방해하지 않으며, 다양한 손 크기에 적응 가능하다. 3D-printed 외골격이 가지는 변형·마모 문제(DexUMI의 저자가 인정한 한계)를 구조적으로 회피한다.

Figure 2.1: 글러브 하드웨어 설계. (a) 소프트 센싱 레이어, 텍스타일 글러브 인터페이스, 시계형 회로 기판으로 구성된 제안 글러브 시스템. (b) 초기 상태와 사전 신장 상태. 출처: Park et al. (2024), Fig. 1

그러나 두 가지 핵심 한계가 있다: (1) 3손가락만 커버 — 약지와 소지가 빠져 whole-hand 조작 데이터 수집이 불가하다. (2) 촉각 센서 부재 — 관절각만 측정하며, 접촉 시 힘 정보를 캡처하지 않는다.

TacGlove [#26]는 이 글러브를 5손가락으로 확장하고, 8개 3축 자기 촉각 센서를 추가하는 것을 제안한다 (Chapter 7).

기타 모션 글러브: Manus, StretchSense

Manus Quantum과 StretchSense는 상용 모션 캡처 글러브로, 20+ DoF의 관절각을 제공한다. 이들은 VR 텔레오퍼레이션 시스템(Data A 수집)에 주로 사용된다. 문제는 이들이 텔레오퍼레이션 인터페이스로 설계되었다는 점이다 — 로봇 없이 독립적으로 사람 작업을 기록하는 Data B 수집에는 추가 설계가 필요하다.

2.3 촉각 글러브

촉각 글러브는 관절각뿐 아니라 접촉 시 힘(force) 정보까지 수집하는 시스템이다. 이 모달리티의 추가가 갖는 가치는 Chapter 3에서 상세히 다루며, 여기서는 하드웨어 비교에 집중한다.

OSMO (Meta FAIR, 2025)

OSMO ^[2] [#18]는 현재까지 가장 완성도 높은 촉각 글러브 시스템이다. 12개의 3축 자기 촉각 센서(taxels)가 손가락 5개와 손바닥 3섹션에 배치되며, 자기 elastomer의 변형을 BMM350 자력계로 측정한다.

특성	OSMO
센서 유형	3축 자기 (magnetometer + magnetic elastomer)
센서 수	12개
측정 범위	0.3 – 80 N
노이즈 저감	MuMetal 차폐 + 이중 자력계 차동 센싱 (57% 감소)
호환	Aria Gen 2, Quest 3, Apple Vision Pro, Manus Quantum 등
인간/로봇 공용	Psyonic Ability Hand에 장착 가능

Figure 2.3: (A) 불편함을 최소화하면서 감지 커버리지를 최대화하는 글러브 레이아웃. (B) 공유 글러브 플랫폼은 인간 손과 로봇 손 사이의 시각적 간극을 최소화한다. 출처: Yin et al. (2025), Fig. 5

Figure 2.2: (A) OSMO 촉각 글러브는 3축 촉각 센서로 손 전체를 커버하고, 손 추적 시스템과 원활하게 통합되며, 로봇에 직접 장착할 수 있다. (B) 촉각 글러브 인간 시연만으로 학습한 접촉 집약적 닦기 정책이 비전 전용 정책을 능가한다. 출처: Yin et al. (2025), Fig. 1

OSMO의 가장 중요한 기여는 Embodiment Bridge 개념이다. 동일한 물리적 글러브를 인간과 로봇 모두에 장착함으로써, 시각과 촉각의 embodiment gap을 물리적으로 해소한다. 이 개념은 TacGlove/TacTeleOp/TacPlay [#27]의 핵심 전제이기도 하다.

그러나 OSMO의 실험적 검증은 제한적이다: 1개 태스크(wiping), 140 demos(약 2시간), Psyonic Ability Hand 1종. 저자 스스로 "unimanual task with fairly limited dexterity"라고 인정했다. 대규모 다태스크 검증과 co-training 파이프라인은 아직 미구현이다 (Chapter 7-8에서 TacGlove/TacTeleOp의 차별화 논의).

Whole-hand 커버리지의 모달리티 스펙트럼

최근 OSMO와 동일한 whole-hand 목표를 서로 다른 모달리티·밀도로 구현한 두 시스템이 등장했다. ^[16]의 Sparsh-skin은 Allegro 손에 Xela uSkin 자기 택셀을 총 368개 배치(손바닥 3패드 4×6 그리드 + 손끝 4 + 팔란지 11)하여 약 100Hz로 샘플링한다. 이 구성의 핵심 메시지는 손바닥 패드를 제거했을 때 pose estimation 정확도가 10%p 이상 하락한다는 어블레이션 결과다 — "full-hand tactile perception is crucial"를 정량적으로 입증한다. 비전 기반으로는 ^[17]의 F-TAC Hand가 17개 VBTS로 손바닥 면적의 약 70%를 0.1 mm 해상도(~10,000 taxels/cm²)로 커버하며, multi-object 운반 실험에서 촉각 부재 시 53.5%에 머물던 적응률이 고해상도 손바닥 촉각을 활성화하면 거의 100%로 상승함을 보였다.

이 세 점 — OSMO(magnetic, 12채널), Sparsh-skin(magnetic, 368채널), F-TAC(vision, 0.1 mm) — 은 해상도·채널 수·모달리티의 세 축에서 whole-hand 촉각의 가능한 지점들을 서로 다르게 샘플링한다. TacGlove는 이 스펙트럼 위에서 "인간 착용 가능한 stretchable 폼팩터 + moderate 밀도 + 인간/로봇 공용"이라는 고유한 좌표를 점유한다 (Chapter 7).

VTDexManip (Zhejiang University, ICLR 2025)

VTDexManip ^[3]은 최초의 visual-tactile dexterous manipulation 데이터셋을 제시했다. 저비용 piezoresistive 압력 센서 글러브와 HoloLens2를 결합하여 5명 피험자, 10개 태스크, 182개 물체, 2,032 시퀀스(565K 프레임)를 수집했다.

핵심 결과는 binary 촉각 정보만으로도 RL 벤치마크에서 +20% 성능 향상을 달성했다는 것이다. Joint visual-tactile pretraining은 추가 +20%를 제공했다. 다만 이 결과는 시뮬레이션 기반이며 real-world 검증은 이루어지지 않았다.

TacCap (2025)

TacCap ^[4]은 FBG(Fiber Bragg Grating) 광학 센서 기반 thimble이다. 10⁻⁵ 수준의 변형 분해능과 최대 2kHz 샘플링, 전자기 간섭(EMI) 면역이 장점이지만, interrogator 장비가 고가이며 손끝만 커버한다는 한계가 있다.

DOGlove (Tsinghua, RSS 2025)

DOGlove ^[5]은 21-DoF 모션 캡처 + 5-DoF cable-driven 힘 피드백 + 5-DoF LRA 햅틱을 $600 이하에 구현했다. Press and Move Box 85%, Pick and Place Teddy Bear 70%의 성공률을 보고했다. 그러나 DOGlove는 텔레오퍼레이션 도구이지 데이터 수집 + 학습 시스템이 아니다 — 수집된 촉각 데이터를 학습에 사용한 실험은 없다.

촉각 글러브 비교

시스템	센서 유형	센서 수	축	인간/로봇 공용	비용	학습 실증
OSMO	자기	12	3축	Yes	미공개	72% (1태스크)
VTDexManip	piezoresistive	다수	binary	No	저비용	+20% (sim)
TacCap	FBG 광학	다수	multi	Yes	고가	미실시
DOGlove	cable-driven	5+5	-	No (teleop)	<$600	85%/70% (teleop)
UMI-FT	CoinFT (정전용량 6축 F/T)	2 (손가락당 1개)	6축	Yes (그리퍼)	저비용	Yes (ACP)

2.4 웨어러블 외골격

외골격(exoskeleton)은 인간 손의 기구학을 기계적으로 캡처하는 접근이다. 글러브와의 핵심 차이는 관절각을 encoder로 직접 측정한다는 점이다.

DexUMI (Stanford, 2025)

DexUMI ^[6] [#8]는 3D-printed 외골격 + encoder 조합으로 dexterous manipulation 데이터를 수집한다. 86%의 높은 성공률과 텔레오퍼레이션 대비 3.2배 빠른 수집 속도를 보고했다. 결정적으로, 촉각 센서가 있는 정책은 grasping에 성공했지만 없으면 실패했다는 ablation 결과를 제공했다.

Figure 2.4: DexUMI는 웨어러블 exoskeleton과 데이터 처리 프레임워크를 이용해 인간의 dexterous manipulation 스킬을 다양한 로봇 손으로 전이한다. 출처: Xu et al. (2025), Fig. 1

한계는 3D-printed 부품의 변형 문제이다. 저자 스스로 encoder 부정확성의 원인으로 exoskeleton 변형을 지목했다. 또한 robot hand inpainting이 오프라인에서만 가능하여 실시간 시연이 제한된다.

ExoStart (Google DeepMind, 2025)

ExoStart ^[7] [#9]는 저비용 외골격에서 9~15개 시연만 수집한 뒤 시뮬레이션에서 RL로 정책을 학습하는 파이프라인이다. AirPods case opening, key insertion 등의 태스크에서 >50% 성공률을 달성했으며, 텔레오퍼레이션 대비 8배 빠른 수집을 보고했다. dynamics filtering과 auto-curriculum RL이 핵심 기법이다.

Figure 2.5: ExoStart 파이프라인: (a) exoskeleton 인간 시연 수집; (b) dynamics filtering으로 물리적 실현 가능한 궤적 생성; (c) auto-curriculum RL + vision 기반 학생 정책 증류로 실세계 zero-shot 전이. 출처: Si et al. (2025), Fig. 1

UMI — 그리퍼 장착형 인터페이스 (Stanford, 2024)

UMI ^[14] [#35]는 외골격이나 글러브가 아닌 핸드헬드 그리퍼라는 독특한 접근을 취한다. 인간이 로봇과 동일한 2-DoF 그리퍼를 $371에 직접 쥐고 시연하며, GoPro 피쉬아이 카메라와 IMU 기반 SLAM으로 6-DoF 궤적을 추적한다. relative trajectory representation을 통해 수집 환경과 로봇이 달라도 정책 전이가 가능하다 — 실제로 UR5e와 Franka 두 로봇에 cross-robot 전이를 실증했다.

핵심 한계는 두 가지이다: (1) 2-DoF 그리퍼만 지원 — dexterous hand 조작은 불가하며, 단순 pick-and-place 수준에 머문다. (2) 촉각 센서 부재 — 접촉 힘 정보 없이 순수 시각 정책만 학습한다. 후속 연구 UMI-FT는 CoinFT 센서로 6축 F/T를 추가했으나, wrist 수준의 낮은 해상도에 그쳤다.

AirExo / AirExo-2 (SJTU, 2024/2025)

AirExo ^[8]와 AirExo-2 ^[9]는 $300/arm의 초저비용 수동 외골격이다. AirExo-2는 in-the-wild 데이터만으로 텔레오퍼레이션 수준의 성능을 달성했다. "3분 teleop + in-wild ≥ 20분 teleop only"라는 결과는 소량 로봇 데이터 + 대량 인간 데이터 조합의 효과를 명확히 보여준다. 다만 arm-level gripper 태스크에 한정되며 dexterous hand는 미지원이다.

웨어러블 비교

시스템	비용	유형	촉각	Robot-free	Dexterous
DexUMI	미명시	Exo	부분	Yes	Yes
ExoStart	저비용	Exo	No	Yes	Yes
AirExo-2	$0.6K	Passive exo	No	Yes	No (arm)
HumanoidExo	-	Exo	No	No	No (arm)
NuExo	고가	Active exo	부분	No	No (arm)

2.5 이고센트릭 비디오 데이터셋

글러브나 외골격 없이 카메라만으로 사람 손 데이터를 수집하는 접근이다.

EgoDex (Apple, 2025)

EgoDex ^[10]는 Apple Vision Pro의 ARKit을 활용한 현존 최대 규모의 dexterous manipulation 데이터셋이다: 829시간, 9천만 프레임, 338,000 에피소드, 194개 태스크. 손가락별 30Hz 3D pose tracking이 핵심 강점이다. 그러나 lab/가정 환경에 한정되며, 촉각과 힘 정보는 완전히 부재한다.

Ego4D (Meta, 2022)

Ego4D ^[11]는 9개국 931명 참여자의 3,670시간 일상 비디오로, 후속 연구(PhysBrain, EgoScale)의 핵심 사전훈련 소스이다. 손 조작 특화가 아닌 일반 일상 비디오이므로 manipulation 관련 비율이 낮다는 한계가 있다.

BuildAI Egocentric-10K (2025)

BuildAI^[12]는 실제 공장에서 수집한 최대 규모의 egocentric 데이터셋이다: 10,000시간, 108억 프레임, 2,153명 작업자, Apache 2.0 공개. PhysBrain^[13]이 이를 VQA로 변환하여 53.9% SimplerEnv 성공률을 보고했다. 그러나 촉각과 per-finger hand tracking이 없어, 정밀 조작 학습에는 한계가 있다.

데이터셋 비교

데이터셋	규모	환경	Hand Tracking	촉각	산업
EgoDex	829hr	Lab/가정	Per-finger 3D	No	No
Ego4D	3,670hr	일상 다양	제한적	No	No
BuildAI	10,000hr	공장	No	No	Yes

2.6 핵심 논의: 무엇이 빠져 있는가

위의 분석에서 체계적 공백이 드러난다:

촉각의 부재: 16편의 데이터 수집 관련 논문 전체에서 촉각 데이터를 학습에 사용한 연구는 OSMO(1태스크)와 VTDexManip(sim)뿐이다. 대규모 촉각 데이터 수집 → 로봇 전이 파이프라인은 존재하지 않는다.

통합의 부재: 관절각(글러브), 촉각(촉각 센서), 시각(스마트글래스)을 동시에 수집하는 통합 시스템이 없다. 기존 연구는 각 모달리티를 독립적으로 활용한다.

산업 환경의 부재: BuildAI를 제외하면 모든 데이터셋이 lab/가정 환경에서 수집되었다. BuildAI도 촉각과 hand tracking이 없다.

UMI는 로봇 없는 데이터 수집의 실현 가능성을 성공적으로 실증했으나, 촉각 센싱과 dexterous hand 지원이 모두 부재하다 — 정확히 TacGlove가 해결하려는 gap이다.

TacGlove/TacTeleOp은 이 세 가지 공백을 해결하려는 시도이다: Park et al.^[1]의 stretchable 글러브를 5손가락으로 확장하고 촉각 센서를 추가하며(Chapter 7, TacGlove), 이를 활용한 대규모 데이터 수집과 co-training 파이프라인을 구축한다(Chapter 8, TacTeleOp).

2.7 우리의 방향과의 연결

TacGlove의 하드웨어 설계는 위의 비교에서 다음과 같이 포지셔닝된다:

Park et al.의 stretchable 특성 → 자연 파지 유지, 공장 내구성 (DexUMI의 3D-printed 변형 문제 회피)
OSMO의 3축 자기 센서 → 인간-로봇 공용 Embodiment Bridge (동일 촉각 공간)
AoE의 always-on 패러다임 → 작업자가 상시 착용하며 자연 데이터 수집
BuildAI 대비 modality richness → 규모(800hr vs 10,000hr)에서는 열세이나, 촉각 + per-finger tracking으로 차별화

다음 장에서는 이 촉각 모달리티가 왜 필수적인지를 정량적으로 분석한다 (Chapter 3).

참고문헌

Park, M., & Park, Y.-L. et al. (2024). Stretchable Glove for Hand Motion Estimation. Nature Communications. https://www.nature.com/articles/s41467-024-50101-w #6 scholar
Yin, J., et al. (2025). OSMO: A Large-Scale Tactile Glove for Human-to-Robot Manipulation Transfer. arXiv. https://arxiv.org/abs/2512.08920 #18 scholar
Liu, Q., et al. (2025). VTDexManip: Visual-Tactile Dexterous Manipulation Dataset. ICLR 2025. scholar
Ren, T.-A., et al. (2025). TacCap: FBG-Based Optical Tactile Thimble. arXiv. scholar
Zhang, H., et al. (2025). DOGlove: Open-Source Haptic Feedback Glove. RSS 2025. scholar
Xu, M., et al. (2025). DexUMI: Universal Manipulation Interface for Dexterous Hands. arXiv. #8 scholar
Si, Z., et al. (2025). ExoStart: Exoskeleton-Aided Dexterous Manipulation from One Demo. arXiv. #9 scholar
SJTU (2024). AirExo: Low-Cost Exoskeletons for Learning Whole-Arm Manipulation in the Wild. ICRA 2024. scholar
SJTU (2025). AirExo-2: In-the-Wild Data Collection for Robot Learning. CoRL 2025 Oral. scholar
Hoque, R., et al. (2025). EgoDex: Egocentric Dexterous Manipulation Dataset. arXiv. scholar
Grauman, K., et al. (2022). Ego4D: Around the World in 3,000 Hours of Egocentric Video. CVPR 2022. scholar
BuildAI (2025). Egocentric-10K: Factory Egocentric Video Dataset. Hugging Face. scholar
PhysBrain (2025). Egocentric2Embodiment Pipeline. arXiv. scholar
Chi, C., et al. (2024). Universal Manipulation Interface: In-The-Wild Robot Teaching Without In-The-Wild Robots. RSS 2024. https://umi-gripper.github.io/ #35 scholar
Chi, C., et al. (2025). UMI on Legs: Making Manipulation Policies Mobile with Manipulation-Centric Whole-body Controllers. arXiv. scholar
Sharma, A., et al. (2025). Self-supervised perception for tactile skin covered dexterous hands (Sparsh-skin). arXiv. https://arxiv.org/abs/2505.11420 scholar
Zhao, Z., et al. (2025). Embedding high-resolution touch across robotic hands enables adaptive human-like grasping (F-TAC Hand). Nature Machine Intelligence. https://arxiv.org/abs/2412.14482 #39 scholar