谷歌和亚马逊服务之间的语音识别评估应用于集成安全系统ECU 911

Revista Tecnológica - ESPOL Pub Date : 2021-11-26 DOI:10.37815/rte.v33n2.840

Juan José Peralta Vásconez, Carlos Andrés Narváez Ortiz, Marcos Patricio Orellana Cordero, Paúl Andrés Patiño León, Priscila Cedillo Orellana

{"title":"谷歌和亚马逊服务之间的语音识别评估应用于集成安全系统ECU 911","authors":"Juan José Peralta Vásconez, Carlos Andrés Narváez Ortiz, Marcos Patricio Orellana Cordero, Paúl Andrés Patiño León, Priscila Cedillo Orellana","doi":"10.37815/rte.v33n2.840","DOIUrl":null,"url":null,"abstract":"El reconocimiento automático de voz (ASR) es una de las ramas de la inteligencia artificial que hace posible la comunicación entre el humano y la máquina, logrando que el usuario pueda interactuar con las máquinas de manera natural. En los últimos años, los sistemas ASR se han incrementado hasta el punto de lograr transcripciones casi perfectas, en la actualidad son muchas las empresas que desarrollan sistemas ASR tales como Google, Amazon, IBM, Microsoft. El objetivo de este trabajo es evaluar los sistemas de reconocimiento de voz de Google Speech to Text y Amazon Transcribe con el fin de determinar cuál de ellas ofrece una mayor precisión al momento de convertir el audio en texto. La precisión de las transcripciones se evalúa a través de la tasa de error por palabra (WER) la cual analiza las palabras eliminadas, sustituidas e insertadas con respecto a un texto de referencia de transcripción humana. Después de someter estos sistemas a diferentes ambientes de ruido se observa que el sistema con mayor rendimiento en el proceso de transcripción es el de Amazon Transcribe; por tal razón, se concluye que el servicio de Amazon muestra un mayor desempeño con respecto al servicio de Google tanto con audios con un nivel de ruido de fondo más alto y con audios con un nivel de ruido de fondo más bajo.","PeriodicalId":117722,"journal":{"name":"Revista Tecnológica - ESPOL","volume":"17 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2021-11-26","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"3","resultStr":"{\"title\":\"Evaluación del reconocimiento de voz entre los servicios de Google y Amazon aplicado al Sistema Integrado de Seguridad ECU 911\",\"authors\":\"Juan José Peralta Vásconez, Carlos Andrés Narváez Ortiz, Marcos Patricio Orellana Cordero, Paúl Andrés Patiño León, Priscila Cedillo Orellana\",\"doi\":\"10.37815/rte.v33n2.840\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"El reconocimiento automático de voz (ASR) es una de las ramas de la inteligencia artificial que hace posible la comunicación entre el humano y la máquina, logrando que el usuario pueda interactuar con las máquinas de manera natural. En los últimos años, los sistemas ASR se han incrementado hasta el punto de lograr transcripciones casi perfectas, en la actualidad son muchas las empresas que desarrollan sistemas ASR tales como Google, Amazon, IBM, Microsoft. El objetivo de este trabajo es evaluar los sistemas de reconocimiento de voz de Google Speech to Text y Amazon Transcribe con el fin de determinar cuál de ellas ofrece una mayor precisión al momento de convertir el audio en texto. La precisión de las transcripciones se evalúa a través de la tasa de error por palabra (WER) la cual analiza las palabras eliminadas, sustituidas e insertadas con respecto a un texto de referencia de transcripción humana. Después de someter estos sistemas a diferentes ambientes de ruido se observa que el sistema con mayor rendimiento en el proceso de transcripción es el de Amazon Transcribe; por tal razón, se concluye que el servicio de Amazon muestra un mayor desempeño con respecto al servicio de Google tanto con audios con un nivel de ruido de fondo más alto y con audios con un nivel de ruido de fondo más bajo.\",\"PeriodicalId\":117722,\"journal\":{\"name\":\"Revista Tecnológica - ESPOL\",\"volume\":\"17 1\",\"pages\":\"0\"},\"PeriodicalIF\":0.0000,\"publicationDate\":\"2021-11-26\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"3\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Revista Tecnológica - ESPOL\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.37815/rte.v33n2.840\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"\",\"JCRName\":\"\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Revista Tecnológica - ESPOL","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.37815/rte.v33n2.840","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}

引用次数: 3

摘要

自动语音识别(ASR)是人工智能的一个分支，它使人与机器之间的通信成为可能，使用户能够以一种自然的方式与机器进行交互。近年来，ASR系统已经发展到几乎完美的转录，目前有许多公司开发ASR系统，如谷歌，亚马逊，IBM，微软。这项工作的目的是评估谷歌语音到文本和亚马逊转录语音识别系统，以确定哪一种系统在将音频转换为文本时提供更高的准确性。转录的准确性是通过单词错误率(WER)来评估的，WER分析删除、替换和插入的单词与人工转录参考文本的关系。在将这些系统置于不同的噪声环境后，可以观察到在转录过程中表现最好的系统是Amazon Transcribe;因此，我们得出结论，亚马逊服务在背景噪声水平较高的音频和背景噪声水平较低的音频方面都比谷歌服务表现出更高的性能。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

查看原文本刊更多论文

Evaluación del reconocimiento de voz entre los servicios de Google y Amazon aplicado al Sistema Integrado de Seguridad ECU 911

El reconocimiento automático de voz (ASR) es una de las ramas de la inteligencia artificial que hace posible la comunicación entre el humano y la máquina, logrando que el usuario pueda interactuar con las máquinas de manera natural. En los últimos años, los sistemas ASR se han incrementado hasta el punto de lograr transcripciones casi perfectas, en la actualidad son muchas las empresas que desarrollan sistemas ASR tales como Google, Amazon, IBM, Microsoft. El objetivo de este trabajo es evaluar los sistemas de reconocimiento de voz de Google Speech to Text y Amazon Transcribe con el fin de determinar cuál de ellas ofrece una mayor precisión al momento de convertir el audio en texto. La precisión de las transcripciones se evalúa a través de la tasa de error por palabra (WER) la cual analiza las palabras eliminadas, sustituidas e insertadas con respecto a un texto de referencia de transcripción humana. Después de someter estos sistemas a diferentes ambientes de ruido se observa que el sistema con mayor rendimiento en el proceso de transcripción es el de Amazon Transcribe; por tal razón, se concluye que el servicio de Amazon muestra un mayor desempeño con respecto al servicio de Google tanto con audios con un nivel de ruido de fondo más alto y con audios con un nivel de ruido de fondo más bajo.

求助全文

通过发布文献求助，成功后即可免费获取论文全文。去求助

来源期刊

Revista Tecnológica - ESPOL

自引率

0.00%

发文量