刚刚,OpenAI发布新一代语音模型,更具个性化的语音agent要来了
学术头条
2025-03-21 08:01
文章摘要
OpenAI发布了三款新的语音模型——gpt-4o-transcribe、gpt-4o-mini-transcribe和gpt-4o-mini-tts,这些模型在语音转文本(STT)和文本到语音(TTS)方面提供了更高的准确性和个性化选项。这些模型通过使用真实音频数据集进行预训练、增强的蒸馏方法和强化学习技术,显著提升了语音识别的准确性和语言适应能力。新模型在多项基准测试中表现优异,特别是在多语言语音识别方面,提供了更广泛的语言适应能力和更精确的转录效果。此外,OpenAI还提供了API和SDK,帮助开发者更容易地集成这些语音模型到他们的应用中,以构建更强大和个性化的语音agent。
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。