이지영 교수팀, 국제학술대회 ICASSP 발표 논문 선정

인공지능학과 이명진·신은지 씨, 학부생으로는 이례적으로 ICASSP 논문 채택

‘음성 합성 AI 악용 방지’ 기술 개발 및 특허 출허 완료

인공지능학과 이지영 교수(교신저자)와 논문 제출 당시 3, 4학년 학부생 이명진(현재 동대학원 통합과정 1학기), 신은지 씨(현재 4학년)(공동 제1저자)가 음성 합성 AI의 악용을 원천 차단하는 새로운 기술을 제안한 연구가 음성·신호처리 분야 세계 최고 권위 국제학회 <IEEE ICASSP(International Conference on Acoustics, Speech and Signal Processing)> 에 정식 채택 돼 오는 5월 열리는 국제학술대회 ICASSP 2026에서 발표될 예정이다.

최근 제로샷 TTS(Text-to-Speech) 기술은 짧은 음성 샘플만으로도 특정 인물의 목소리를 정교하게 모사할 수 있어 접근성과 콘텐츠 제작 측면에서 활용도가 높아지고 있다. 그러나 동시에 당사자의 동의 없이 타인의 음성을 복제하는 딥페이크 범죄나 개인정보 침해 위험이 커지고 있다는 점이 사회적 문제로 지적되어 왔다.

본교팀은 이러한 한계를 해결하기 위해 ‘TruS(Training-free Speaker Unlearning)’ 프레임워크를 제안했다. TruS는 기존 방식과 달리 모델을 다시 학습시키지 않고, 음성 생성 ‘추론 단계(inference-time)’에서 특정 화자의 정체성을 제거하는 것이 핵심이다.

기존 스피커 삭제(unlearning) 기술은 특정 음성을 제거할 때마다 모델 전체를 재학습해야 해 많은 시간과 비용이 소요되고, 학습 데이터에 없는 새로운 화자에는 적용하기 어렵다는 한계가 있었다. 반면 TruS는 음성 생성 과정 중 내부 표현자(hidden activation)을 조정해 목표 화자의 음성 특성만 선택적으로 억제하는 ‘플러그앤플레이’ 방식으로 작동한다. 이를 통해 재학습 없이 기존 TTS 모델에 즉시 적용 가능하며, 학습에 포함되지 않은 화자까지 요청시 목소리 생성을 차단할 수 있는 확장성을 확보했다.

실험 결과, TruS는 특정 화자의 음성 유사도를 크게 낮추면서도 발음 정확도와 감정 표현 등 음성 품질은 유지하는 성능을 보였다. 특히 학습에 포함되지 않은 ‘미등록(unseen) 화자’에 대해서도 효과적으로 음성 생성을 억제해, 실제 서비스 환경에서도 활용 가능한 기술임을 입증해 국내 특허 출허도 완료했다.

이번 연구는 음성 합성 기술의 성능 향상뿐 아니라 사용자 동의와 개인정보 보호를 고려한 ‘책임 있는 AI(Responsible AI)’ 구현이라는 측면에서 학문적·사회적 의의를 동시에 갖는다. 음성 딥페이크 범죄 예방과 프라이버시 보호를 위한 실질적 안전장치를 제시했다는 점에서 차세대 음성 AI 보안 기술로 주목받고 있다.

이지영 교수는 “음성 합성 기술이 일상화되는 시대에 개인의 목소리를 보호하는 장치는 필수적”이라며 “학부생 연구진이 국제 무대에서 의미 있는 기술적 해법을 제시했다는 점에서 매우 뜻깊다”고 밝혔다.

(왼쪽부터) 이지영 교수, 이명진·신은지 씨

이번 성과는 학부생이 주도한 연구가 세계 최고 수준의 학술대회에 채택됐다는 점에서도 의미가 크며, 본교 인공지능학과의 연구 역량과 차세대 AI 인재 양성 성과를 보여주는 사례로 평가된다.

연구성과

이지영 교수팀, 국제학술대회 ICASSP 발표 논문 선정