首页 > 中证金牛座

OpenAI发布三款语音模型

刘英杰 中证金牛座 2025-03-21 10:18

美东时间3月20日，OpenAI在其官网进行技术直播，发布了三款全新语音模型，分别是gpt-4o-transcribe、gpt-4o-mini-transcribe和gpt-4o-mini-tts。

具体来看，新发布的三款模型各有细分功能：

gpt-4o-transcribe（语音转文本）：单词错误率显著降低，在多个基准测试中优于现有Whisper模型。

gpt-4o-mini-transcribe（语音转文本）：gpt-4o-transcribe的精简版本，速度更快、效率更高。

gpt-4o-mini-tts（文本转语音）：首次支持“可引导性”，开发者不仅能指定“说什么”，还能控制“如何说”。

OpenAI表示，新推出的gpt-4o-transcribe采用多样化、高质量音频数据集进行了长时间的训练，能更好地捕获语音细微差别，减少误识别，大幅提升转录可靠性。目前，这些新发布的音频模型已经向所有开发人员开放。