이대목동병원과 의료기록 음성인식 솔루션 성공적 개발…다양한 분야 확장 추진

[의학신문·일간보사=오인규 기자] 인공지능(AI) 헬스케어 업체 뷰노는 자체 개발한 인공지능 음성인식을 위한 음성변환 모델관련 논문이 음성 및 신호처리 분야 국제 저명 학회지인 ‘ICASSP(신호처리국제학술대회)’에 등재됐으며, 오는 5월 본 학회에서 발표될 예정이라고 12일 밝혔다.

실제 뷰노는 위 기술을 적용한 의료기록 음성인식 솔루션을 이대목동병원과 함께 성공적으로 개발을 완료하였고, 현재 이대목동병원을 비롯한 다수 병원에서는 소프트웨어를 사용하여 전사 업무에 활용하고 있으며, 또한 다양한 분야로 확장을 추진하고 있다.

인공지능 딥러닝 기법은 많은 양의 다양한 데이터를 학습시킬수록 그 성능이 더욱 좋아지게 된다. 하지만 현실적으로 학습데이터를 새로 수집하는 데에는 많은 시간과 인력, 그리고 재원이 들어가는 한계점이 있으므로 이를 해결하기 위하여 현재 보유한 학습데이터를 변환하여 새로운 데이터를 늘리는 “데이터 증강 기법”을 사용하게 된다.

뷰노 왕지성 연구원이 해당 기술을 소개하고 있는 모습

이는 음성인식에도 마찬가지인데 새로운 음성데이터셋인 음성과 텍스트가 쌍을 이루고 있는 데이터를 모으기보다는 기확보한 음성데이터를 다양한 방법으로 변환해 사용하는데, 기존의 변환기술로는 음의 높낮이 변화나 노이즈 등 많은 부분이 닮아 있어 학습데이터로서 가치가 제한적이었다.

뷰노는 자체 개발기술로 기존의 변환기법에 부가하여 언어특징과 음성 아이덴티티를 이용하는 기법으로 새로운 특징을 갖는 음성데이터로 변환하는데 성공했다. 이는 적은 양의 데이터셋으로도 충분한 학습 데이터를 생성할 수 있어 인공지능 딥러닝에 큰 기여를 하게 되며, 실제 벤치마크 데이터인 Wall Street Journal로 실험한 결과 최종 인식 성능이 드라마틱하게 개선된 결과를 확인했다.

이번 연구를 주도한 뷰노의 왕지성 연구원은 “국내 음성인식 개발환경에서는 영어권과는 달리 기구축된 한국인 음성 데이터셋이 제한되어 있다. 이번 개발기술로 다양한 음성데이터셋을 생성할 수 있어 음성인식 성능이 비약적으로 향상될 것으로 기대된다”고 밝혔다.

저작권자 © 의학신문 무단전재 및 재배포 금지