Systemical Diagnostic Method of Suprasegmental Features about Korean Speech Synthesis: As an example of technology to be applied to AI for speech therapy
{"title":"Systemical Diagnostic Method of Suprasegmental Features about Korean Speech Synthesis: As an example of technology to be applied to AI for speech therapy","authors":"Hyeon-yeol Im","doi":"10.33252/sih.2023.9.78.297","DOIUrl":null,"url":null,"abstract":"본 연구는 음성합성 기술이 언어치료 영역에서 사용자들에게 불쾌한 골짜기 효과를 나타내지 않을 수 있는 방안을 모색하기 위해 시작되었다. 과거의 연구를 통해 분절음에 대한 미시적 진단과 그에 대한 해결 방안은 모색된 바 있다. 여기서는 초분절음에 대한 미시적 진단을 위해 진단해야 할 항목과 진단하는 방식을 체계화하여 제시하였다. 초분절음에 대한 진단 항목은 소리의 길이, 높이, 세기 등 세 항목으로 구분되었다. 각 항목에서는 〔길이〕 pause duration, speed rate, 〔높이〕 pitch range, pitch level, pitch variability, 〔세기〕 sound pressure level, peak amplitude, mean square amplitude 등이 진단 항목으로 포함되어야 함을 보였고, 각 항목을 진단하는 방식을 기술하였다. 또한, 공통적으로 이들 지표에 대한 측정은 단순 正誤의 문제가 아니라 정도와 수준의 문제에 따른 감정 표현의 문제와 관련되기 때문에 해당 요소들에 대해서 인간의 자연 발화에서 나타나는 특성을 면밀히 살펴, 현재의 음성합성 기술에서 구현하지 못하는 요소들을 차분히 반영해 나간다면, 더욱 완성된 형태의, 그래서 불쾌한 골짜기를 느끼지 않을 수 있는 기술 구간으로 진입할 수 있다는 점을 언급하였다. 다만, 여기에서의 언어치료 AI는 섬세한 의사소통이 필요한 AI의 사례일 뿐 본 연구에서 제안한 바는 심리상담 AI, 교육용 AI 등으로 그 적용 폭이 넓어질 수 있다는 점을 강조하였다.","PeriodicalId":483270,"journal":{"name":"Inmun gwahag yeon-gu","volume":"15 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2023-09-30","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Inmun gwahag yeon-gu","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.33252/sih.2023.9.78.297","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0
Abstract
본 연구는 음성합성 기술이 언어치료 영역에서 사용자들에게 불쾌한 골짜기 효과를 나타내지 않을 수 있는 방안을 모색하기 위해 시작되었다. 과거의 연구를 통해 분절음에 대한 미시적 진단과 그에 대한 해결 방안은 모색된 바 있다. 여기서는 초분절음에 대한 미시적 진단을 위해 진단해야 할 항목과 진단하는 방식을 체계화하여 제시하였다. 초분절음에 대한 진단 항목은 소리의 길이, 높이, 세기 등 세 항목으로 구분되었다. 각 항목에서는 〔길이〕 pause duration, speed rate, 〔높이〕 pitch range, pitch level, pitch variability, 〔세기〕 sound pressure level, peak amplitude, mean square amplitude 등이 진단 항목으로 포함되어야 함을 보였고, 각 항목을 진단하는 방식을 기술하였다. 또한, 공통적으로 이들 지표에 대한 측정은 단순 正誤의 문제가 아니라 정도와 수준의 문제에 따른 감정 표현의 문제와 관련되기 때문에 해당 요소들에 대해서 인간의 자연 발화에서 나타나는 특성을 면밀히 살펴, 현재의 음성합성 기술에서 구현하지 못하는 요소들을 차분히 반영해 나간다면, 더욱 완성된 형태의, 그래서 불쾌한 골짜기를 느끼지 않을 수 있는 기술 구간으로 진입할 수 있다는 점을 언급하였다. 다만, 여기에서의 언어치료 AI는 섬세한 의사소통이 필요한 AI의 사례일 뿐 본 연구에서 제안한 바는 심리상담 AI, 교육용 AI 등으로 그 적용 폭이 넓어질 수 있다는 점을 강조하였다.