“전기차처럼”… AI 음성 인식 기술도 세대를 바꿨다

KT AI One Team에서 E2E 음성 인식 기술 개발을 주도한 한양 대학교 장준혁 교수

“고전적인 인공 지능 음성 인식을 내연 기관 차량으로 본다면 종단 간 (E2E) 음성 인식은 전기 자동차로 볼 수 있습니다.”

한양 대학교 장준혁 교수는 ‘E2E 음성 인식’기술을 비교했다. E2E 음성 인식은 KT가 1 년 전 인공 지능 국가 협의회 ‘AI One Team’을 설립 해 공동 연구 성과로 선정한 4 대 인공 지능 기술 중 하나 다.

불과 몇 년 전, CES를 통해 Amazon Alexa를 사용한 음성 인식이 AI 기술의 주요 응용 프로그램으로 등장했으며 신흥 기술 회사는 서둘러 AI 음성 인식 스피커를 출시했습니다. 전 세계 여러 국가와 기업에서 가장 똑똑하다고 주장하는 연구원들은 기계가 인간을 더 잘 이해하도록 만드는 데 초점을 맞추 었습니다.


■ E2E 음성 인식이란?

한편 AI 음성 인식 기술 분야에서 가장 큰 화두는 E2E 음성 인식이다.

이전에는 음성 인식 기술이 다양한 개별 부품과 알고리즘을 사용하여 인간 언어를 기계로 처리 할 수있는 텍스트로 변환했습니다. 사람의 음성에서 음소를 찾아서 단어를 추출하여 문장으로 처리하고, 기능별로 구분 된 모듈별로 복잡한 처리 절차를 거친다.

반면 E2E 음성 인식에서는 한 모듈 내에서 음성이 입력되면 즉시 문장 텍스트를 처리합니다. 과거의 음성 인식 기술에 비해 인간의 지식 처리 과정과 유사합니다. 사람이있는 그대로 생각하는 지능을 모방하고 패턴으로 입력하면 출력이 나온다. 이는 여러 계산 결과를 결합하는 형태가 아니기 때문입니다.

물론 E2E 기술은 훌륭해 보이지만 AI 음성 인식 기술을 개발하기 시작한 모든 회사가이 접근 방식을 취하는 것은 아닙니다. 이는 현재 AI 적용 단계에서 효율적인 측면을 고려해야하기 때문입니다.

장준혁 교수는“기술 발전 과정에서 E2E 음성 인식은 고전적인 음성 인식 기술과 경쟁하고있다”고 말했다. “E2E 음성 인식은 한 단계 발전된 기술이지만 이전 음성 인식 기술의 우월한 장점이 여전히 앞서 있음을 알 수 있습니다. 나는 말했다.

새롭게 정교하게 개발 된 기술이 기존 기술보다 뒤쳐지고 있다는 이야기는 당황 스러울 수 있습니다. 장 교수는 고전적인 음성 인식 기술이 성능을 빠르게 향상시킬 수 있다고 지적했습니다.

그는“클래식 음성 인식 기술은 모듈별로 설계되어 있기 때문에 특정 성능을 향상 시키려고하면 실제 상용 서비스의 품질을 획기적으로 향상시킬 수있다. 개선하려면 전체 딥 러닝 구조를 수정해야합니다.”

그는“더 이상 개발하기 어려운 내연 기관인데도 지금은 잘 안 되는가?”라고 덧붙였다. 반대로 전기 자동차 용 배터리 기술의 발달로 주행 거리가 더욱 늘어날 수 있고 자동차 플랫폼이 가벼워지고 개발 가능성이 크다”고 말했다.


■ 도전하기도 쉽지 않은 도전, 글로벌 무대로

KT AI One 팀 장 교수가 개발 한 E2E 음성 인식 기술은 국내에서 드물다. 세계 수준에서도 AI 개발을 선도하는 소수의 기업이 한 발 앞서 있습니다.

이는 기존 기술의 효율적인 측면으로 인해 신기술이 정착하기 어렵 기 때문입니다. 장 교수는 “내연 기관 차량이 이만큼 효율적이기 때문에 국내에 아직 E2E 음성 인식 기술을 개발하지 않은 기업이 많다”고 말했다.

당장 효과를 발휘할 수있는 과거의 기술을 바탕으로 신기술을 개발하기 위해 인력과 비용을 쓰는 것은 쉽지 않다고합니다. 내연 기관과 전기 자동차, 화석 에너지와 재생 가능 에너지의 관계와 유사합니다.

장 교수는 KT AI One Team을 통해 개발을 시도 할 수 있었고 결과는 만족 스럽다고 말했다.

그는“구글이 훨씬 앞서서 애플, 아마존, 페이스 북, 바이두 등 기업의 AI 기술 개발 흐름에 견줄만하다면 논문이 적고 그 결과가 나왔기 때문에 조금 늦었다. 출판되었습니다.”라고 그는 말했다. “인식 기술을 성능 측정으로보고 있다면 이미 특정 환경 결과에 따라 잡혀있는 것입니다.”

장 교수 연구팀이 개발 한 E2E 음성 인식 기술도 단어 오류율을 크게 개선 한 점으로 학계의 주목을 받고있다. 음성 인식을위한 딥 러닝 자료 인 음성 인식, 학습을 고의적으로 파괴하여보다 까다로운 환경에서 음성 인식률을 높였습니다.

이러한 성과는 AI One Team이라는 산학연 제휴의 결과 일뿐만 아니라 해외 AI 기술 단계로 도약 할 것입니다.

관련 기사


KT “AI One Team 공동 연구 성과 달성 … 즉시 산업에 적용”


KT“AI 글로벌 경쟁력을 위해서는 협업이 필수”


수 상모 KT “AI One Team이 강화되면 … 구체적인 성과에 집중”


KT, 콜센터와 AI를 결합한 ‘스마트 컨택 센터’창조

장 교수는“내연 기관이나 전기차와 같은 E2E 음성 인식 기술은 과거의 방식을 활용 해 하이브리드 차처럼 바로 발전 할 가능성이있다. KT가 발표 한 바와 같이 인공 지능 기반 컨택 센터 (콜센터)에 처음 도입됐다. 더 가벼워지면 E2E 음성 인식 플랫폼이 소형 단말기에 들어갈 가능성이있다”고 말했다.

“개발도 시작할 수없는 기업이 있지만 AI 팀으로서 도전적인 과제에 뛰어 들었고, 성능 측면에서 부분적으로는 세계 최고 수준에 도달했습니다.” “개발 진행 측면에서 무게를 줄이고 성능을 높일 계획입니다. 지금까지의 연구 결과는 글로벌 AI 산업의 주목을 끄는 컨퍼런스에서 발표 될 준비를하고있다”고 말했다.





Source