데이터 과학 용어 : 레이블링, 어노테이션 작업 (f. 에이슬립 - 슬립테크)

2026. 2. 10. 15:02부자에 대한 공부/성공한 부자들의 인사이트

반응형

쉽게 말해 '소리'라는 시험 문제에 '의사의 진단'이라는 모범 답안을 매칭시켜 AI를 공부시킨 것입니다.

이 과정을 데이터 과학 용어로는 '레이블링(Labeling)' 또는 '어노테이션(Annotation)' 작업이라고 합니다. 구체적으로 어떤 원리로 학습이 이루어졌는지 정리해 드릴게요.

1. 학습의 핵심: 데이터 매칭

보통 병원에서 하는 수면다원검사뇌파, 혈중 산소량, 근육 긴장도 등 온갖 센서를 몸에 붙여 상태를 판독합니다. 에이슬립은 이 복잡한 검사 결과와 **동시에 녹음된 '소리'**를 비교했습니다.

  • 입력 데이터 (X): 수면 중 발생하는 소리 (코골이, 숨소리, 뒤척임 등)
  • 정답 데이터 (Y): 전문의가 수면다원검사 결과지를 보고 판독한 실제 수면 단계(깊은 잠, 얕은 잠, REM 수면 등) 및 무호흡증 여부

2. AI가 배운 내용

1년 동안 수천 명의 데이터를 쌓으며 AI는 다음과 같은 패턴을 스스로 찾아내게 됩니다.

"아, 이런 주파수와 리듬의 숨소리가 들릴 때는 의사가 '깊은 잠'이라고 판독하는구나!" "이런 식의 불규칙한 소리 뒤에 정적이 오면 '수면 무호흡증'이구나!"

3. 왜 '집요한 태도'가 필요했을까?

의료 데이터는 개인정보 보호가 매우 엄격하기 때문에 병원 측에서는 환자의 '목소리(소리)'를 외부로 반출하거나 수집하는 것에 굉장히 보수적입니다.

  • 개인정보 이슈: 코골이 소리 외에 잠꼬대나 사적인 대화가 섞일 수 있음.
  • 신뢰성 확보: 단순 녹음이 아니라 실제 의료 장비의 판독 시간과 소리의 시간을 1초의 오차도 없이 동기화해야 학습이 가능함.

결과적으로 이 과정을 통해 에이슬립은 값비싼 장비를 몸에 두르지 않고도, 스마트폰 마이크(소리)만으로 병원 수준의 진단을 흉내 낼 수 있는 모델을 완성할 수 있었던 것입니다.

반응형