[AI원팀 성과①]대한민국 음성 인식 기술이 여기까지왔다 … 한양대와 KT가 구글을 쫓고있다

지난해 2 월 결성 된 인공 지능 (AI) 산학 연맹 ‘AI 원팀’이 창립 1 주년을 맞았다. KT가 이끄는 AI 팀에는 △ 현대 중공업 그룹 △ LG 전자 △ LG 유 플러스 △ 한국 투자 증권, △ 한국 과학 기술원 (KAIST) △ 한양 대학교 △ 한국 전자 통신 등이있다. 연구 기관 (ETRI)과 기타 학교 및 연구소가 참여했습니다. 했다. 지난 한 해 동안 AI One Team은 AI 분야의 주요 기술의 고도화 및 표준화, 인재 양성에 주력해 왔습니다. 그 결과 AI 음성 인식 및 음성 합성 분야에서 1 년 만에 가시적 인 성과를 거두었습니다. <블로터>한양 대학교 융합 전자 공학과 장준혁 교수, KAIST 전기 전자 공학과 김회린 교수, 대면 및 영상에서 음성 인식 및 음성 합성 연구를 주도한 음성 기술의 성과 및 향후 계획에 대해 설명합니다. 장교수와 김교수와의 두 가지 인터뷰가 소개된다.

한양 대학교 융합 전자 공학과 장준혁 교수가 서울 한양 대학교 연구실에서 열린 인터뷰에서 AI 팀의 음성 인식에 대해 설명했다. (사진 = KT)

AI가 더 스마트 해지려면 데이터가 필수적입니다. AI는 많은 데이터를 기반으로 학습해야하기 때문입니다. 그러나 AI 학습에 필요한 많은 양의 고품질 데이터를 확보하는 것은 쉽지 않습니다. 이는 AI 서비스를 제공하는 정보 통신 기술 (ICT) 회사와 관련 연구를 수행하는 대학 모두에게 어려운 문제입니다. AI 중에서 특히 음성 인식 분야에서는 데이터 수급이 더 어렵다. 한양 대학교 융합 전자 공학부 인공 지능 원팀 장준혁 교수는 데이터를 증폭하는 ‘데이터 증강’방식을 통해 데이터 수급의 어려움을 극복했다.

AI가 음성 인식을 학습하기 위해서는 AI가 인식 한 결과가 맞는지 확인할 수있는 한 쌍의 데이터와 정답이 있어야합니다.

예를 들어 정답 ‘I am Korean’과이 문장의 음성 데이터가 함께 있어야한다는 의미입니다. AI는 정답이 하나만 있어도 다양한 음성, 억양, 발음의 음성 데이터가 필요합니다. 장 교수는 많은 음성 데이터를 얻기 위해 음성을 강제로 손상시키는 방법을 선택했습니다. 강제로 노이즈를 믹싱하거나 사운드를 만들어 원본에서 손상된 음성 데이터를 생성하는 방법입니다. 하나의 정답과 관련된 다양한 음성 데이터에서 학습하는 AI는 더욱 다양한 상황에 더 잘 대처할 수 있습니다.

장 교수는 다양한 데이터에서 학습 한 AI가 딥 러닝 (머신 딥 러닝)의 한계를 극복 할 수 있다고 설명했다. 기존 딥 러닝은 주어진 데이터에 대해 우수한 성능을 보여줍니다. 그러나 AI는 학습 한 내용 만 학습하고 모든 형태의 변형 데이터에 대한 성능이 저하됩니다. 장 교수는 “너무 구체적인 데이터에 맞춘 AI의 한계를 극복하기 위해 다양한 방식으로 데이터를 흔들어 데이터 량을 증폭시키는 방법”이라고 설명했다.

또한 장 교수는 음성 인식 기술에 E2E (end-to-end) 방식을 적용했다. E2E 방식은 최근 음성 인식 분야에서 주목을 받고있는 기술 방식이다. 과거에 고전적인 음성 인식 방법은 음성을 텍스트로 변환하는 과정에서 다양한 모듈로 구성되었습니다. 가장 작은 음성 단위의 음소를 찾아이를 기반으로 단어를 추출하고 문장을 찾습니다. 각 프로세스가 서로 다른 모듈을 통해 수행되기 때문에 필연적으로 속도 제한이 있습니다. 그러나 E2E 방식에서는 음성 데이터가 인식되면 딥 러닝 엔진을 통해 즉시 문장이 도출됩니다. 결과는 음소, 단어 및 문장으로 음성을 만드는 고전적인 방법보다 빠르게 나옵니다.

E2E 방법은 전 세계적으로 사용되고 있습니다. 구글, 애플, 아마존, 페이스 북, 바이두, 삼성 전자와 같은 글로벌 기업들은 일부 서비스에 E2E 방식을 적용했습니다. 장 교수는 음성 인식 분야에서 가장 앞선 기업으로 구글을 꼽았다. 구글은 세계 최대 포털 사이트, 모바일 운영체제 (OS) ‘안드로이드’, 온라인 동영상 서비스 (OTT) ‘유튜브’를 운영하며 방대한 양의 데이터를 보유하고있다. 따라서 데이터 경쟁에서 유리할 수밖에 없습니다. 그러나 장 교수는 구글이 모든 음성 인식 분야를 지배 할 수는 없다고 생각한다. 그는 “우리 연구실은 4 개의 마이크가 장착 된 AI 스피커를 이용한 소스 위치 파악을위한 세계 최고의 기술을 보유하고있다”고 말했다. “Google은 1 위가 될 수 없습니다.”

장 교수는 E2E와 데이터 증강 방식을 이용하여 음성 인식의 단어 오류율을 7 % 이상 향상시켰다. 기존 방식과 장 교수가 공개 한 E2E 방식을 비교 한 음성 인식 영상을 보면 E2E 방식이 음성을보다 정확하게 인식하는 것을 알 수있다.

E2E 방법의 단점도 있습니다. 기존 음성 인식 방식에서는 모듈별로 음성 인식을 수행하므로 수정을 원할 경우 수정이 필요한 모듈 만 수정하면됩니다. 그러나 E2E 방식은 전체 음성 인식 과정을 수정하는 데 어려움이있다. 따라서 대기업들은 E2E 방식과 기존 음성 인식 방식을 사용하여 업무 효율성을 높이고 있습니다. 장 교수는이 병렬 방식을 내연 기관과 배터리의 동력을 동시에 사용하는 ‘하이브리드 카’와 비교했다. 내연 기관과 전기 자동차의 중간 역할을하는 하이브리드 카처럼 기존 방식에서 E2E로 이동하는 중개자 역할을 함을 의미한다.

E2E 기반 음성 인식은 자동차, 키오스크, 게임은 물론 AI 스피커, 스마트 폰 등 다양한 분야에서 관심을 보이고있다. 장 교수는 장기적으로 로봇, UAM (도심 항공 교통), 드론에 E2E 방식이 필요할 것이라고 예측했다. 미래 기술의 핵심은 무인이고 음성 대화가 필수적이기 때문입니다. 한양 대학교와 AI One Team의 음성 인식을 연구 한 KT도 AI 컨택 센터 (AICC)에 E2E 방식을 적용하는 방안을 검토 중이다. 우선 기가 지니 등 많은 유저들이 AI 플랫폼이 아닌 특정 분야에 적용 해 확장을 고려하고있는 입장이다.

장 교수는 스마트 폰 등 단말기에서 서버와 통신이 필요하지 않은 분야에 AI One Team의 음성 인식 결과를 적용하는 것을 목표로하고있다. 예를 들어 “Call A”라는 음성을 인식하고 전화 주소록에서 A를 찾아 전화를 겁니다. 방침은 서버와의 통신이 필요없는 음성 인식 분야에 먼저 적용한 후 성능을 높이고 서버 통신이 필요한 분야로 확장하는 것이다.

장 교수는 국제 무대에서 AI One Team이 진행 한 데이터 증강 방식과 E2E 방식을 이용한 음성 인식 연구 발표 논문을 준비하고있다. 장 교수의 목표는 음성 인식 분야에서 유명한 Interspeech Conference 다. 논문이 채택되면 장 교수는 9 월 체코에서 개최되는 Interspeech Conference에서 AI One Team이 실시한 음성 인식에 관한 논문을 발표 할 예정이다.

Source