오토타임즈-[하이빔]자동차와 허심탄회하게 대화하는 시대

뉴스홈 기획/칼럼 기획

[하이빔]자동차와 허심탄회하게 대화하는 시대

입력 2022년06월06일 00시00분 권용주

가

-음성 인식의 시작은 전화

자동차 계기판에 알 수 없는 경고등이 점등됐을 때 음성인식 버튼을 누르고 "경고등이 왜 켜졌냐?"고 물을 수 있다. 이외 "엔진오일 교체 시기를 알려 달라"고 요구할 수도 있고 실내 무드램프의 색상을 바꾸거나 운전석 온도를 설정하는 것도 음성으로 지시할 수 있다. 이른바 최근 앞다퉈 등장하는 자동차 음성 인식의 기능이다. 물론 "음성 인식은 자동차 뿐 아니라 일상에서도 편안한 기능으로 자리 잡고 있다. 대표적으로 TV를 켜거나 채널을 바꿀 때 음성 명령이 사용된 것은 이미 오래 전이다.

자동차를 포함해 우리 일상에 들어온 음성 인식의 시작은 흔히 전화기의 발명과 함께 시작됐다. 이탈리아 발명가인 안토니오 무치(Antonio Meucci, 1808~1889)가 자석식 전화기를 최초로 설계한 후 알렉산더 그레이엄 벨(Alexander Graham Bell, 1847~1922)이 만든 것이 전화의 시작이다. 전화기에 음성을 보내면 진동판이 흔들리며 음성 전류가 만들어지고 음성 전류는 전화선을 타고 상대방의 전화에 도달해 다시 진동판을 거쳐 소리로 재생된다. 한 마디로 공기의 진동을 전기의 진동으로 바꾸는 역할이다. 이후 시간이 흐르면서 많은 과학자들은 음성을 전류로 바꾸지 않고 사물이 곧바로 인식할 수 있다는 믿음을 갖게 됐다. 그리고 1952년 음성을 전류가 아닌 디지털 코드로 바꿔 컴퓨터가 알아들을 수 있도록 했다.

이후 음성 인식 진화의 속도는 빨랐다. 1952년 벨 연구소는 "오드리(Audrey) 시스템을 만들었다. 소리로 전달된 음성을 컴퓨터가 디지털 코드로 전환해 명령을 수행하는 방법이다. 이후 1960년에는 숫자가 아닌 음성 단어 인식의 가능성이 열렸다. 스웨덴 왕립과학원 출신의 "칼 건나 마이클 판트(Karl Gunnar Michael Fant, 1919~2009)" 교수가 사람마다 다른 음성을 측정해 이를 하나의 통일된 메시지로 인식시킬 수 있는 방법을 고안했다. 소리의 크기(에너지), 소리의 높이(주파수), 소리의 길이(지속 시간) 차이를 좁혀 인간의 음성과 똑같은 운율을 만드는 연구로 성과를 얻었다. 그러나 음성에 대한 연구가 지속적으로 이어지지는 못했다. 벨 연구소 내부에서도 사물이 인간의 음성을 인식한다는 것은 현실성이 떨어진다는 비판에 직면했던 탓이다.

그러다 음성 인식이 다시 연구대상으로 주목받은 것은 연속 인식 분야를 개척한 컴퓨터 과학자 라즈 레디(Raj Reddy, 1937~) 교수 덕분이다. 컴퓨터 인공지능 연구자로서 그의 관심은 인간 음성 언어의 체계적인 컴퓨터 수용이었다. 특히 인식의 "연속" 개념은 훗날 음성인식 기술이 비약적으로 발전하는 발판이 됐다. 이전까지 컴퓨터는 사용자가 단어로 명령을 내리면 작업 수행 후 다시 명령을 내려야 했지만 레디 시스템은 두 가지 명령을 동시에 내릴 수 있었고 실제 레디 교수는 체스 게임에 음성 명령을 활용했다.

이후 잠잠하던 음성 인식 기술의 진화를 외친 곳은 다름 아닌 미국 국방과학연구소(DARPA)다. 전쟁 무기의 음성 명령 작동 가능성을 타진해보자는 차원이었다. 1971년 시작된 음성 인식 부활 프로젝트의 목표는 컴퓨터가 최소 1,000개의 단어를 인식하는 수준으로 정했다. IBM을 비롯해 카네기멜론대학과 스탠포드 연구소 등이 모두 참여했고 덕분에 인식의 정확도는 상당히 개선됐다. 특히 카네기멜론대학은 자체 개발한 음성인식 시스템 하피(Harpy)를 활용해 인식 단어 숫자를 1,011개로 늘리는데 성공했다.

그 사이 미국의 수학자 레오나드 바움(Leonard Baum)은 "마르코프 체인(Markov chian)"을 주목했다. 러시아 수학자 안드레이 마르코프에서 유래된 "마르코프 체인"은 어떤 현상이 일어날 확률은 앞서 일어난 일에 의존된다는 이론으로, 특정 문자의 출현 확률은 그 이전 문자에 큰 영향을 끼친다는 이론이다. 예를 들어 영어 단어 "t" 다음에는 "h"가 자주 나타나는데 이 같은 패턴을 확률로 인식시키면 컴퓨터가 음성 의미를 보다 정확히 파악할 수 있다는 식이다.

이후 마르코프 모델을 활용한 현대적 의미의 음성인식은 1980년대에 IBM에 의해 발현됐다. 예를 들어 사람이 "아"를 발음하면 "아"의 저음부터 고음까지 다양한 데이터를 수집한다. 그런 다음 평균 음성의 "아"를 기준으로 여러 "아"의 음성이 어떻게 다른지 통계 학습하는 방식이다. 사람마다 발음하는 음성의 차이가 있는 만큼 인식의 오류를 최소화 한 셈이다.

하지만 예외 없이 어려움에 봉착했다. 바로 컴퓨터 처리 능력, 즉 메모리의 한계였다. 당시만 해도 음성 데이터는 용량이 너무 커서 컴퓨터가 처리 가능한 능력을 초과했다. 담아야 할 내용은 많은데 그릇이 작으니 당연히 해석 가능한 단어 또는 문장도 많지 않았다. 그러나 1980년 중반 이후 컴퓨터의 처리 능력이 해마다 두 배씩 빨라지고 처리 용량도 늘어나면서 음성 인식 연구는 탄력을 받았고 1990년대 말 ARS와 같은 음성 인식 기능이 이해하는 단어는 1만개까지 늘었다. 1만개 단어를 저장할 만큼 메모리 기능이 발전했다는 의미다. 컴퓨터의 성능 향상이 저장 가능한 단어를 늘리고 수학적 통계 처리 속도를 높이면서 이해도와 정확도는 눈부시게 발전해 나갔다.

2000년대 들어 음성인식은 스마트폰과 자동차에 경쟁적으로 적용되기 시작했다. 특히 자동차는 음성 명령이 오히려 안전에 도움이 된다는 점에서 적용이 확산됐다. 특히 포드는 이미 2007년 음성인식 기능인 "싱크(Sync)"를 자동차에 탑재해 라디오와 전화, 내비게이션 등의 음성 인식이 가능하도록 했고 현재는 지능형으로 발전했다. 이외 크라이슬러 유커넥트, GM 마이링크를 포함해 아우디와 BMW, 메르세데스 등도 음성 인식 기능 영역을 넓혀가고 있다. 음성으로 내비게이션, 음악 재생, 운전 중 휴대폰 문자 읽어주기 등은 기본이며 인공지능을 결합시켜 시동을 켜고 끄거나 경적을 울리는 것까지 도달해 있다.

흥미로운 점은 음성 인식의 기능에 대한 소비자들의 생각이다. 지난 2014년 리서치기업인 닐슨과 SBD가 미국 내 소비자 1만4,000명에게 첨단 기능 중 불편한 항목을 물었더니 응답자의 43%가 음성 인식 기능이라고 답한 적이 있다. 얘기를 해봐야 제대로 알아듣지도 못하는 음성 인식에 대한 불편함을 드러냈던 셈이다. 물론 이런 인식은 여전히 10년이 지난 현재도 진행 중이다. 음성 인식 기능이 탑재된 디지털 기기가 늘면서 사용 경험은 늘었지만 오류 인식에 따른 불편함을 호소하는 사람이 많아서다. 그럼에도 음성 인식의 진화는 계속되고 있다. 실제 요즘 사람 간의 대화는 문자 등으로 대체되는 반면 실제 대화는 기계와 이루어지는 일이 흔하다. 그런데 인간은 누군가 대화를 통해 자신의 존재감을 확인하는 본능을 지니고 있다. 그러니 본능이 사라지지 않는 한 음성 인식의 발전은 거듭될 수밖에 없는 셈이다.

박재용(자동차 칼럼니스트, 공학박사)