머신러닝 & 딥러닝/논문 리뷰

[ML 논문 공부 - 003] 공항 내 시설 안내 서비스를 위한 마커리스 한국 수어 인식 기술

by seokii 2022. 3. 7.
728x90
반응형

여러 가지 한국 학회에서 나온 논문들을 찾아보며 읽게 된 논문입니다.

KETI(한국전자기술연구원)에서 2020년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구라고 논문에 명시되어있습니다.

자연어 처리에 대한 공부를 하면서 이 논문을 읽으며 흥미로웠습니다.

수어를 번역해 텍스트로 추출하고 이를 공항과 같은 시설에서 도움을 줄 수 있다는 점이 인상 깊었습니다.

논문 링크 : Keypoint-based Korean sign language recognition for guiding airpor facilities

 

Abstract

요약 부분에서는 논문의 전체적인 내용이 잘 정리되어있습니다.

공항과 같은 복잡한 시설에서는 안내 서비스를 이용하는 것이 필수적이지만, 비장애인을 기준으로 설계되어 있는 경우가 대부분이며, 청각장애인은 의사소통이 어려워 이를 안내하는 서비스의 필요성이 있음을 언급했습니다. 저자는 논문에서 이를 위한 마커리스(기존의 수어 인식을 위한 마커 혹은 센서 필요 없이) 한국 수어 인식 기술을 개발했으며 이는 앞으로의 사회에 큰 도움이 될 것이라 밝혔습니다.

 

Introduction

서론에서는 앞서 말한 청각장애인이 공항에서 마주한 현 상황과 각 장에 나올 내용에 대한 설명이 되어있습니다. 서론에서의 주요 내용은 다음과 같습니다.

 

1. 공항 안내 서비스를 장애인들이 이용하는 것이 어려운 상황이다.

 

2. 최근 수어를 인식하기 위한 많은 기술들이 있다.

- 마커 사용 : 화자의 신체에 마커를 부착 혹은 센서가 장착된 장갑을 활용

- 마커리스 : Microsoft의 Kinect, Ultraleap의 Leap motion 등의 적외선 영상 기반의 능동 깊이 센서를 활용

RGB영상과 Openpose와 같은 딥러닝 알고리즘을 기반으로 한 인식 기술 활용

 

3. 수어 통역사의 역할을 일부 분담하고 청각장애인의 기본권 증진을 위해 마커리스 방식의 수어 인식 기술을 활용해 공항의 시설들을 다른 사람의 도움 없이 스스로 편리하게 이용할 수 있도록 지원하기 위한 안내 서비스를 제안한다.

 

영상 기반 마커리스 한국 수어 인식 기술

본 논문에서 제안하는 핵심 기술입니다.

그림과 같이 인코더 부분과 디코터 부분으로 구성되어 있습니다.

인코더에서는 Openpose 알고리즘을 사용해 상반신, 손가락, 얼굴 부위의 특징점들을 매 프레임별로 추출 후, 각 특징점들의 좌표를 GRU에 입력 특징 값으로 하여 Context Vector를 생성합니다.

디코더에서는 인코더에서 생성된 Context Vector를 입력값으로 받아 한국어 문장을 단어 단위로 생성합니다.  이때 입력 시퀀스가 길어짐에 따라 발생 가능한 정보 손실을 최소하 하기 위해 어텐션을 적용했습니다.

 

공항 내 시설 안내 서비스를 위한 한국 수어 데이터셋

3장은 연구를 진행하기 위해서 데이터셋을 어떻게 설계 및 구축했는지에 대한 내용입니다.

논문에서는 본 연구를 위해 한국공항공사와 협업해 그림과 같은 공항 시설 안내를 위한 질의응답 문장 셋을 선정하고 이것을 바탕으로 전문 수어 언어 제공자를 섭외해 구축하였다고 밝혔습니다.

또한, 각도에 따른 영향에 대해 학습이 가능하도록 20도 간격으로 세 방향(정면, 좌측, 우측)에서 데이터를 취득했다고 합니다. 이러한 방식으로 총 140시간 분량의 수어 영상 데이터셋을 구축했다고 밝혔습니다.

 

한국지능정보사회진흥원이 운영하는 AI Hub 홈페이지에서 관련 데이터를 다운로드할 수 있습니다.

https://aihub.or.kr/aidata/7965

 

수어 영상

지숫자, 지문자의 데이터 영상 생성을 통해 길찾기, 교통, 주소 등과 관련된 한국수어 인식 인공지능 기술 및 서비스 개발에 활용 가능한 총 536,000개의 영상 데이터 제공

aihub.or.kr

 

공항 내 시설 안내 키오스크

4장은 시설 안내 서비스를 어떻게 운영할 것인지에 대한 구체적인 프레임워크에 대한 내용입니다.

클라이언트-서버 방식으로 키오스크를 운영하며, 이를 통해 여러 장소에 키오스크를 배치하고 접근성을 높이기 위한 설계를 했다고 밝혔습니다.

그림과 같이 키오스크는 RGB 카메라로 사용자의 영상을 서버로 전달하고 인식 결과에 따른 안내 정보를 표출하는 역할입니다. 서버는 딥 러닝 모델을 직접 실행하여 추론하는 역할을 하며, 크게 자세를 추정하는 모델과 문장을 인식하는 모델이 순차적으로 구현되어있다고 합니다.

 

결론

본 논문에서는 특징점 기반의 한국 수어 인식 기술을 키오스크에 적용하여 청각장애인을 위한 공항 내 시설 위치 안내 서비스를 구현하는 방법을 제안했습니다.

 

느낀 점

논문을 읽고 비전 및 자연어 처리와 같은 인공지능 기술을 적용해 사회적으로 긍정적인 효과를 불러올 수 있다는 점이 인상 깊었습니다. 딥 러닝의 기술을 꼭 전문적인 업무에 적용하는 것이 아니라 일상생활 속에 적용해 여러 사람들의 삶의 질을 올려 준다는 점이 흥미로웠고, 실제로 인공지능이라는 기술이 우리의 일상과 밀접하게 함께할 날이 머지않다는 생각이 들었습니다.

저도 인공지능(ML 및 DL)에 대해 흥미를 가지고 공부하고 있는데 이렇게 사회에 도움이 되는 연구를 한 번 해보고 싶다는 다짐을 할 수 있는 계기가 된 논문이었습니다.

 

 

728x90
반응형

댓글