Systemical Diagnostic Method of Suprasegmental Features about Korean Speech Synthesis: As an example of technology to be applied to AI for speech therapy

Hyeon-yeol Im
{"title":"Systemical Diagnostic Method of Suprasegmental Features about Korean Speech Synthesis: As an example of technology to be applied to AI for speech therapy","authors":"Hyeon-yeol Im","doi":"10.33252/sih.2023.9.78.297","DOIUrl":null,"url":null,"abstract":"본 연구는 음성합성 기술이 언어치료 영역에서 사용자들에게 불쾌한 골짜기 효과를 나타내지 않을 수 있는 방안을 모색하기 위해 시작되었다. 과거의 연구를 통해 분절음에 대한 미시적 진단과 그에 대한 해결 방안은 모색된 바 있다. 여기서는 초분절음에 대한 미시적 진단을 위해 진단해야 할 항목과 진단하는 방식을 체계화하여 제시하였다. 초분절음에 대한 진단 항목은 소리의 길이, 높이, 세기 등 세 항목으로 구분되었다. 각 항목에서는 〔길이〕 pause duration, speed rate, 〔높이〕 pitch range, pitch level, pitch variability, 〔세기〕 sound pressure level, peak amplitude, mean square amplitude 등이 진단 항목으로 포함되어야 함을 보였고, 각 항목을 진단하는 방식을 기술하였다. 또한, 공통적으로 이들 지표에 대한 측정은 단순 正誤의 문제가 아니라 정도와 수준의 문제에 따른 감정 표현의 문제와 관련되기 때문에 해당 요소들에 대해서 인간의 자연 발화에서 나타나는 특성을 면밀히 살펴, 현재의 음성합성 기술에서 구현하지 못하는 요소들을 차분히 반영해 나간다면, 더욱 완성된 형태의, 그래서 불쾌한 골짜기를 느끼지 않을 수 있는 기술 구간으로 진입할 수 있다는 점을 언급하였다. 다만, 여기에서의 언어치료 AI는 섬세한 의사소통이 필요한 AI의 사례일 뿐 본 연구에서 제안한 바는 심리상담 AI, 교육용 AI 등으로 그 적용 폭이 넓어질 수 있다는 점을 강조하였다.","PeriodicalId":483270,"journal":{"name":"Inmun gwahag yeon-gu","volume":"15 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2023-09-30","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Inmun gwahag yeon-gu","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.33252/sih.2023.9.78.297","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0

Abstract

본 연구는 음성합성 기술이 언어치료 영역에서 사용자들에게 불쾌한 골짜기 효과를 나타내지 않을 수 있는 방안을 모색하기 위해 시작되었다. 과거의 연구를 통해 분절음에 대한 미시적 진단과 그에 대한 해결 방안은 모색된 바 있다. 여기서는 초분절음에 대한 미시적 진단을 위해 진단해야 할 항목과 진단하는 방식을 체계화하여 제시하였다. 초분절음에 대한 진단 항목은 소리의 길이, 높이, 세기 등 세 항목으로 구분되었다. 각 항목에서는 〔길이〕 pause duration, speed rate, 〔높이〕 pitch range, pitch level, pitch variability, 〔세기〕 sound pressure level, peak amplitude, mean square amplitude 등이 진단 항목으로 포함되어야 함을 보였고, 각 항목을 진단하는 방식을 기술하였다. 또한, 공통적으로 이들 지표에 대한 측정은 단순 正誤의 문제가 아니라 정도와 수준의 문제에 따른 감정 표현의 문제와 관련되기 때문에 해당 요소들에 대해서 인간의 자연 발화에서 나타나는 특성을 면밀히 살펴, 현재의 음성합성 기술에서 구현하지 못하는 요소들을 차분히 반영해 나간다면, 더욱 완성된 형태의, 그래서 불쾌한 골짜기를 느끼지 않을 수 있는 기술 구간으로 진입할 수 있다는 점을 언급하였다. 다만, 여기에서의 언어치료 AI는 섬세한 의사소통이 필요한 AI의 사례일 뿐 본 연구에서 제안한 바는 심리상담 AI, 교육용 AI 등으로 그 적용 폭이 넓어질 수 있다는 점을 강조하였다.
韩语语音合成的超切分特征系统诊断方法——以人工智能语音治疗技术为例
本研究是为了探索语音合成技术在语言治疗领域不会给使用者带来不愉快的山谷效果的方案而开始的。通过过去的研究,曾探索过对分节音的微观诊断和解决方案。这里提出了对超分节音的微观诊断需要诊断的项目和诊断方式的体系化。对超分节音的诊断项目分为声音的长度、高度、强度三个项目。在每一项中,诊断项目包括:pause duration、speed rate、pitch range、pitch level、pitch variability、sound pressure level、peak amplitude、mean square amplitude等;记述了各项诊断的方式。此外,普遍对这些指标的测定是单纯更正的问题,而是根据程度和水平的问题,它涉及到感情表达的问题,有关因素对人类中出现自燃特性密切观察,目前的음성합성技术无法体现的要素下去,更加冷静地反映完成的形式,因此可以进入不让人感到不快的技术区间。但是这里的语言治疗AI只是需要细致沟通的AI事例,本研究提出的是心理咨询AI、教育用AI等,强调其适用范围可以扩大。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 求助全文
来源期刊
自引率
0.00%
发文量
0
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
确定
请完成安全验证×
copy
已复制链接
快去分享给好友吧!
我知道了
右上角分享
点击右上角分享
0
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:604180095
Book学术官方微信