Thalles Vargas Ribeiro Lopes, J. O. Andrade, K. Komati
{"title":"Comparação de Serviços em Nuvem para Transcrição de Fala na Língua Portuguesa em áudios com Sotaques Regionais Brasileiros","authors":"Thalles Vargas Ribeiro Lopes, J. O. Andrade, K. Komati","doi":"10.5753/erigo.2021.18436","DOIUrl":null,"url":null,"abstract":"Neste trabalho, foi realizada uma análise de dois serviços em nuvem, Google Cloud e Wit.ai, que realizam a transcrição de áudio em língua portuguesa, com o objetivo de determinar qual é a melhor ferramenta quando submetida aos diferentes sotaques brasileiros. Foi utilizada a base de dados Braccent, em um conjunto de 1.648 áudios, com sete sotaques: nortista, baiano, fluminense, mineiro, carioca, nordestino e sulista. A média da métrica de Levenshtein Normalizado para o Wit.ai é de 0,96, e para o Google Cloud é de 0,89, e em ambas as ferramentas os piores resultados foram para o sotaque carioca. Ao final, o Wit.ai apresentou resultados melhores em todos os cenários, além de transcrever os símbolos de pontuação.","PeriodicalId":125727,"journal":{"name":"Anais da IX Escola Regional de Informática de Goiás (ERI-GO 2021)","volume":"18 1 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2021-10-25","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Anais da IX Escola Regional de Informática de Goiás (ERI-GO 2021)","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.5753/erigo.2021.18436","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 0
Abstract
Neste trabalho, foi realizada uma análise de dois serviços em nuvem, Google Cloud e Wit.ai, que realizam a transcrição de áudio em língua portuguesa, com o objetivo de determinar qual é a melhor ferramenta quando submetida aos diferentes sotaques brasileiros. Foi utilizada a base de dados Braccent, em um conjunto de 1.648 áudios, com sete sotaques: nortista, baiano, fluminense, mineiro, carioca, nordestino e sulista. A média da métrica de Levenshtein Normalizado para o Wit.ai é de 0,96, e para o Google Cloud é de 0,89, e em ambas as ferramentas os piores resultados foram para o sotaque carioca. Ao final, o Wit.ai apresentou resultados melhores em todos os cenários, além de transcrever os símbolos de pontuação.