刚刚,OpenAI发布新一代语音模型,更具个性化的语音agent要来了

学术头条 2025-03-21 08:01
文章摘要
OpenAI发布了三款新的语音模型——gpt-4o-transcribe、gpt-4o-mini-transcribe和gpt-4o-mini-tts,这些模型在语音转文本(STT)和文本到语音(TTS)方面提供了更高的准确性和个性化选项。这些模型通过使用真实音频数据集进行预训练、增强的蒸馏方法和强化学习技术,显著提升了语音识别的准确性和语言适应能力。新模型在多项基准测试中表现优异,特别是在多语言语音识别方面,提供了更广泛的语言适应能力和更精确的转录效果。此外,OpenAI还提供了API和SDK,帮助开发者更容易地集成这些语音模型到他们的应用中,以构建更强大和个性化的语音agent。
刚刚,OpenAI发布新一代语音模型,更具个性化的语音agent要来了
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。
学术头条
最新文章
热门类别
相关文章
联系我们:info@booksci.cn Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。 Copyright © 2023 布克学术 All rights reserved.
京ICP备2023020795号-1
ghs 京公网安备 11010802042870号
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术官方微信