传媒互联网周报：OPENAI推出音频模型腾讯发布混元T1

类别：行业机构：太平洋证券股份有限公司研究员：郑磊日期：2025-03-23

　　报告摘要

    　　OpenAI 推出3 款音频模型，实现语音情绪自定义OpenAI 推出全新语音转文本模型gpt-4o-transcribe 和轻量版gpt-4o-mini-transcribe，以及文本生成语音模型gpt-4o-mini-tts。其中，语音转文本模型gpt-4o-transcribe 基于GPT-4o 架构，运用音频数据集进行大量预训练，较此前推出的Whisper 拥有更准确的识别能力，尤其在涉及口音、嘈杂环境和不同语速的复杂场景中。从测评结果来看，该模型在大多数主要语言上的表现都优于其他模型，获得了更低的词错误率。文本生成语音模型gpt-4o-mini-tts 除了文本转语音功能外，还可在固定音色的基础上，实现情绪、语调、语速、措辞、语句停顿五方面的自定义选择，生成不同情绪的语音内容。

    　　目前，上述三款模型均已开放API，为全球开发者构建语音Agent 提供支持；且定价较低，分别为0.6 美分/分钟、0.3 美分/分钟、15 美分/分钟。从应用场景来看，模型可应用于电商智能客服或助手、广告营销音频制作、教育语言学习、情感陪伴、影视及游戏内容配音等。建议关注拥有相关应用场景的公司，如：1）智能客服或助手：

    　　焦点科技；2）广告营销：因赛集团、引力传媒、蓝色光标、天娱数科；3）教育：佳发教育、科大讯飞；4）情感陪伴应用/玩具：恺英网络、奥飞娱乐；5）影视：华策影视、博纳影业；6）游戏：巨人网络、掌趣科技等。

    　　腾讯发布混元T1 模型，实现超长文本推理、解码速度提升腾讯发布自研深度思考模型混元T1 正式版，该模型具有超长文本推理强、生成速度快的优势。从性能来看：1）超长文本：通过架构优化，有效解决长文推理中常见的上下文丢失和长距离信息依赖问题，强化T1 长文本捕捉和推理能力。2）解码速度：通过长序列处理的专项优化，实现相近参数量下解码速度提升2 倍，达到首字秒出、吐字速度高达60-80token/s。从测评结果来看，T1 在MMLU-pro、AIME 等数学、逻辑推理测试中，成绩达到业界领先水平。从成本来看：T1 沿用了混元Turbo S 的Hybrid-Mamba-Transformer 混合架构，有效降低Transformer 架构的计算复杂度，实现训练和推理成本下降。从API 定价来看：模型每百万tokens 输入1 元，输出4 元；与DeepSeek-R1 优惠时段一致，仅为标准时段价格的1/4（输入价格对比缓存未命中）。

    　　核心观点

    　　我们认为，音频模型gpt-4o-mini-tts 通过用户自定义语音情绪、语调、语速等，使得语音生成更灵活、更高效匹配不同场景的应用需求。利好拥有相关应用场景的公司，如电商智能客服或助手、广告营销音频制作、教育语言学习、情感陪伴、影视及游戏内容配音等。建议关注：1）AI+广告营销：因赛集团、天娱数科；2）AI+影视：博纳影业；3）AI+游戏：恺英网络、巨人网络等。此外，国内推理模型持续迭代，腾讯自研混元T1 进一步提升模型推理、超长文本处理、生成速度等能力，有效降低模型成本。

    　　风险提示

    　　AI 技术发展不及预期的风险、政策监管的风险、行业竞争加剧的风险。

日	一	二	三	四	五	六
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

日	一	二	三	四	五	六
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

日	一	二	三	四	五	六
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

传媒互联网周报：OPENAI推出音频模型 腾讯发布混元T1

数据推荐

传媒互联网周报：OPENAI推出音频模型腾讯发布混元T1

日	一	二	三	四	五	六
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31