글로벌오토뉴스

상단배너

  • 검색
  • 시승기검색
ä ۷ιλƮ  ͼ  ī 󱳼 ڵδ ʱ ڵ 躴 ͽ ǽ ȣٱ Ÿ̾ Auto Journal  Productive Product

음성 인식과 제스처 컨트롤은 효율적인가?

페이지 정보

글 : 유일한(chepa@global-autonews.com)
승인 2017-05-18 23:00:03

본문

자동차에 음성 인식이 처음 등장한 때가 언제인지는 정확하지 않지만, 외화 전격 Z 작전(원제 : Knight Rider)에 등장했던 폰티악 트랜스 앰을 기반으로 개조한 키트(K.I.T.T)가 이 개념을 널리 퍼트린 것으로 보인다. 음성만으로 명령을 이해하고 수행하는 이 기능은 많은 사람들을 매료시켰고, 이후 수 많은 연구진들이 연구에 연구를 거듭한 결과 간단한 명령을 음성으로 내릴 수 있는 수준까지 도달했다.

 

미국에서는 아마존 알렉사, 애플 시리, 마이크로소프트 코타나 등 다양한 인공지능이 음성 인식을 지원하면서 이 기능을 인포테인먼트 시스템에 통합시키는 중이다. IT 산업이 발전하면서 집 안에 있는 다양한 기기가 인터넷으로 연결되는 ‘사물인터넷’ 시대가 열리고 있고 이와 같은 흐름이 자동차에도 이어지면서 집에서는 물론 자동차에서도 음성 인식으로 명령을 내리는 것이 자연스럽게 인식되고 있는 것이다.

 

ec256788d9eacee38362b4cfc98700dd_1495115 

이와 같은 흐름은 음성 인식 뿐만이 아니라 제스처 컨트롤에도 이어지고 있다. BMW 7 시리즈를 통해서 양산형 자동차에 처음 적용된 제스처 컨트롤은 손가락을 돌리거나 손을 휘젓고 잽을 날리는 등 다양한 동작으로 원하는 기능을 선택할 수 있는 시스템이다. 이 기능은 7시리즈를 거쳐 5시리즈에도 적용되고 있으며, 이제 폭스바겐이 페이스리프트 된 7세대 골프부터 적용할 예정이다.

 

음성 인식과 제스처 컨트롤의 장점은 기능 수행을 위해 운전자가 버튼을 누르지 않아도 된다는 것이다. 버튼을 누르는 동작이 일시적으로 운전자의 차량 제어를 불편하게 하고 시선이 정면에서 이탈하기 때문에 위급 상황이 발생하면 대응하기 힘든 면이 있는데, 음성 인식은 두 손을 스티어링에서 떼지 않고도 명령을 내릴 수 있고 제스처 컨트롤은 버튼을 누르기 위해 손을 뻗거나 시선을 돌릴 필요가 없다는 것이다.

 

ec256788d9eacee38362b4cfc98700dd_1495115 

물론 자신의 자동차를 오랫동안 이용한 운전자라면 시선을 떼지 않고도 원하는 기능을 선택하는 것도 가능할 것이다. 그러나 현대적인 자동차들은 실내 디자인을 위해 물리 버튼을 줄이고 기능들을 대부분 터치스크린이나 커다란 원형 다이얼을 이용해 조작하게 변경하는 경우가 있기 때문에 원하는 기능을 곧바로 이용하기 힘들다는 면이 있다. 이와 같은 디자인상의 불편함을 보완하는 것이 음성 인식과 제스처 컨트롤이라는 것이다.

 

ec256788d9eacee38362b4cfc98700dd_1495115 

그러나 이쯤에서 한 번 생각해 볼 것이 있다. 음성 인식 AI, 또는 동작을 인식하는 AI가 이러한 기능들을 제대로 수행할 수 있을 만큼 훌륭한가에 대한 것이다. 알렉사는 미국에서 제공하는 프로그램이니 한국에서는 시험해 볼 수 없지만, 한국에도 SK 텔레콤 ‘누구’, KT ‘기가지니’ 등 음성인식 프로그램이 있고, 애플의 시리와 구글의 구글어시스턴트도 활용할 수 있다. 자동차 인포테인먼트 시스템 중에서 네비게이션 기능 일부는 음성 인식을 지원하는 시스템이 적용되어 있기도 하다.

 

올해 미국 캘리포니아주에서 개최된 구글 연례개발자회의에서 선다 피차이 구글 CEO는 딥러닝 기술의 발전으로 인해 구글 어시스턴트의 인식 오류비율이 4.9%에 불과하다고 밝혔다. 그러나 이는 영어를 활용했을 때의 이야기고, 한국어의 오류 수준은 아직도 심각하다. 사실 영어도 미국인들이 많이 쓰는 발음을 활용하지 않는 이상 인식률은 더 떨어질 것으로 보이며, 다른 언어들도 사정은 마찬가지일 것으로 보인다. 언어란 것이 본래 유기적인 것이기 때문에 시대와 장소, 상황에 따라 변하기 때문이다.

 

 

유기적인 언어도 언어이지만 더 중요한 문제는 사람들이 모두 동일한 구강 내 구조를 갖추지 않았기 때문에 같은 언어라도 사람마다 발음하는 형태가 미묘하게 다르다는 것이다. 같은 사람이라 해도 감기 또는 목쉼 등 컨디션의 변화에 따라 발음이 달라지기도 한다. 이런 것을 모두 인식하여 명령을 인지하는 음성명령 AI는 아직 등장하지 않았다. 최근 한 예능 프로그램에서 개그맨 유재석이 겪은 음성명령 AI의 불편함이 다른 사람에게도 얼마든지 발생할 수 있는 것이다.

 

ec256788d9eacee38362b4cfc98700dd_1495115 

음성 명령을 인식하는 AI의 구조도 많은 개선을 거쳐야 할 것이다. 애플의 음성 명령 AI인 시리의 경우 같은 명령을 내려도 단어에 따라 반응을 달리하는데, 본래 단어란 것이 하나의 뜻을 품고 있어도 다른 단어가 나오는 경우가 있다. ‘생일’을 예로 들어봐도 다양한 표현이 나오는데 ‘생신’, ‘귀빠진 날’, ‘탄신일’ 등 다양한 표현이 나오고, 여기에 나이가 겹치면 ‘환갑’, ‘고희’, ‘칠순’ 등으로 복잡해진다. AI가 말의 숨겨진 뜻을 이해하지 못한다는 것이다. 만약 자동차의 음성 명령 AI를 제어하기 위해 언어를 따로 배워야 한다면? 그 언어를 배우느니 차라리 버튼 한두 번 터치하는 것이 더 빠를 것이다.

 

ec256788d9eacee38362b4cfc98700dd_1495115 

그렇다면 제스처 컨트롤은 어떨까? 데모 영상만을 살펴보면 신기하면서도 이상적인 작동 방법처럼 보이지만, 실제로 조작해보면 인식률이 극악이라는 것을 확인할 수 있을 것이다. 무엇보다 손짓 명령에 대한 정확한 피드백이 부족하기 때문에 이 기능이 정확히 제어되고 있는지를 확인할 수 없다. 손가락을 얼마 가량 돌려야 원하는 음량으로 딱 맞춰 조절할 수 있는지, 손짓을 어느 수준으로 크게 해야 스와이프를 인식하는지 알 수 없는 것이 문제다. 음량을 0부터 100까지 조절하는 데 노브를 돌리면 5초 정도 걸리지만, 제스처 컨트롤은 30초 정도가 소요된다.

 

ec256788d9eacee38362b4cfc98700dd_1495115 

제스처 컨트롤은 현재 BMW의 자동차에만, 그것도 일부 라인업에만 적용되어 있으니 판단이 힘든 것 아니냐고 묻는다면, 이미 이와 비슷한 동작 인식을 갖춘 기기를 많이 사용해봐서 안다고 답하겠다. “그런 게 있어?”라고 묻는다면 다른 분야에서 이미 준비되어 있다. 바로 손짓과 동작으로 게임을 즐길 수 있도록 만들어진 마이크로소프트 키넥트(Kinect)다. 키넥트는 마이크로소프트의 게임기인 엑스박스(Xbox) 360과 엑스박스 원(One)에 적용되는 동작 인식 기기이다.

 

ec256788d9eacee38362b4cfc98700dd_1495115 

키넥트는 피사체와의 거리를 측정해 1cm 단위로 인식이 가능하고 움직임뿐만 아니라 표정, 손 동작, 인원수, 음성도 인식 가능한 주변기기이다. 그러나 키넥트는 최소 2m 이상의 센서 작동을 위한 공간을 확보해야 하며, 동작이 몇 가지만으로 한정되고 마이크로소프트가 주장하는 바와는 달리 변화의 폭이 좁은 동작은 인식하지 못하는 문제가 있다. 결국은 게임을 위한 전용 동작을 만들어야 하고 춤 실력을 겨루는 등의 특정 리듬 게임을 제외하고는 키넥트는 환영받지 못하는 기기가 되어버렸다.

 

ec256788d9eacee38362b4cfc98700dd_1495115 

키넥트를 이용해 콜 오브 듀티(Call of Duty) 시리즈나 헤일로(Halo) 시리즈 등 FPS 게임을 해본 유저라면 어떤 문제가 있는지 단번에 짐작할 수 있을 것이다. FPS 게임에서 중요한 것, 특히 유저들 간의 멀티플레이가 되면 제일 중요한 것은 입력 속도와 정확성인데, 키넥트로 동작을 인식시키는 것은 게임 패드의 버튼을 누르고 스틱을 돌리는 것보다 인식의 속도도, 정확도도 떨어진다. 자동차 명령 입력에 필요한 것도 입력 속도와 정확성인 것을 생각해 보면, 제스처 컨트롤이 갖고 있는 문제가 생각 외로 심각하다는 것을 알 수 있을 것이다.

 

ec256788d9eacee38362b4cfc98700dd_1495115 

자동차 세계에서 음성 인식도 제스처 컨트롤도 아직 효율을 논하기에는 이르다. 정확도가 낮은 것도 문제지만 무엇보다 전용 행동을 해야 한다는 부담과 인식 불량이 본래의 개발 목적인 ‘운전자가 운전에 집중하게 한다’를 무시하고 오히려 운전에 집중하지 못하고 산만하게 행동하도록 만들 위험이 있다. 이들을 능가할 수 있는 다른 인식 방식이 나오지 않는 한, 아직은 버튼이 효율적인 시대인 것이다. 유행을 따르는 새로운 인식 방법의 적용이 중요한지, 아니면 안전을 고려한 옛 방법이 중요한지 진지하게 생각해봐야 할 때이다.


 

  • 페이스북으로 보내기
  • 트위터로 보내기
  • 구글플러스로 보내기
하단배너
우측배너(위)
우측배너(아래)