2026 年 4 月 2 日,微软 AI 首席执行官 Mustafa Suleyman 宣布推出三款全新基础模型——MAI-Transcribe-1、MAI-Voice-1 与 MAI-Image-2——这是迄今为止,微软在建立完全自主 AI 能力战略上最具里程碑意义的举措,而不再仅依赖从 OpenAI 授权获取。对于一家市值 3.2 万亿美元、过去五年投入超过 130 亿美元、将 OpenAI 打造为其 AI 产品线核心的企业而言,此举具有深远的战略意义。这不是一个小幅渐进式更新,而是一份宣言:微软愿意与自己出资扶植的合作伙伴正面竞争。
背景脉络至关重要。2025 年重新谈判的微软与 OpenAI 协议,悄悄移除了一项合同条款——该条款此前禁止微软开发广泛能力的自主 AI 模型。这项限制一旦解除,由 Suleyman 从 DeepMind(经由 Google)带来的 MAI 超级智能团队便迅速行动。距离重新谈判不到十二个月,微软已开始推出生产级多模态模型,并以低于 OpenAI 和 Google 的定价,集成进 Bing、PowerPoint 与 Azure Foundry 三个平台。
其影响远超微软自身的产品路线图。每一个因 Copilot 而标准化于 Azure 的企业 AI 买家,现在都拥有了更低成本的第一方语音转录、语音合成及图像生成选项。每一个假设微软将永远只是基础模型分销商(而非制造商)的竞争 AI 实验室,如今都面临一位强大的新竞争者。而所有关注 OpenAI 估值故事的投资人,也需要重新评估这个故事中,究竟有多少依赖于微软扮演被动接受者而非主动竞争者的角色。
本文将深入剖析微软发布的内容、选择此时发布的原因,以及 MAI 战略对 2026 年企业 AI 市场的影响。
微软在 2026 年 4 月 2 日究竟发布了什么?
微软在其 MAI(Microsoft Artificial Intelligence)系列中发布了三款生产就绪的模型,全部可通过 Microsoft Foundry(前身为 Azure AI Foundry)获取。
MAI-Transcribe-1 是一款语音转文字模型,微软声称其在 FLEURS(少样本学习语音通用表示评估)基准测试中,于 25 种语言的词错误率最低。它比 Azure 先前的 Fast 层级快 2.5 倍,并专门针对嘈杂的真实声学环境加以强化——开放式办公空间、客服中心,以及混合式会议室中交叠语音和背景噪音历来会严重影响准确率的场景。定价起始为每小时处理音频 0.36 美元。
MAI-Voice-1 是一款文字转语音模型,能在一秒的计算时间内生成 60 秒的自然语音。该模型可在长篇内容中保持说话者身份一致性——这对有声书制作、交互式 AI 代理及企业旁白至关重要——并引入从短短几秒样本音频即可创建完整自定义合成声音的能力。定价起始为每百万字符 22 美元。
MAI-Image-2 是一款图像生成模型,在 Arena.ai 社区排行榜上首次亮相即进入前三名。与上一代相比,它在 Foundry 和 Microsoft Copilot 上的生成速度至少提升 2 倍,并正陆续集成进 Bing Image Creator 和 PowerPoint Designer。定价起始为每百万文字输入 token 5 美元、每百万图像输出 token 33 美元。
| 模型 | 模态 | 主要基准测试 | 速度提升 | 起始定价 |
|---|---|---|---|---|
| MAI-Transcribe-1 | 语音 → 文字 | FLEURS 25 种语言最低词错误率 | 比 Azure Fast 快 2.5 倍 | $0.36/小时 |
| MAI-Voice-1 | 文字 → 语音 | 1 秒生成 60 秒音频 | 全新能力 | $22/百万字符 |
| MAI-Image-2 | 文字 → 图像 | Arena.ai 前三名 | 比 MAI-Image-1 快 2 倍 | $5/百万文字 token |
MAI 模型与 OpenAI 和 Google 相比如何?
定价信号是最显眼的数字。微软将这三款模型定位为比 OpenAI 和 Google 同等方案更便宜,这是一个刻意的举措,旨在将企业采购对话从纯粹的能力比较,转向总持有成本的考量。
| 服务 | 供应商 | 语音转文字(每小时) | 文字转语音(每百万字符) | 图像生成(每百万 token) |
|---|---|---|---|---|
| MAI-Transcribe-1 | 微软 | $0.36 | — | — |
| Whisper (API) | OpenAI | ~$0.36–$0.72 | — | — |
| Speech-to-Text v2 | Google Cloud | ~$0.72–$1.44 | — | — |
| MAI-Voice-1 | 微软 | — | $22 | — |
| TTS HD | OpenAI | — | $30 | — |
| Cloud Text-to-Speech | — | $16–$32 | — | |
| MAI-Image-2 | 微软 | — | — | $5 文字 / $33 图像 |
| DALL-E 3 | OpenAI | — | — | ~$40 图像输出 |
| Imagen 3 | — | — | ~$20–$40 图像输出 |
在语音转录方面,微软与 OpenAI 定价大致相当,但微软声称在嘈杂环境中准确率更高。在语音合成方面,微软的定价低于 OpenAI 的 HD 层级。在图像生成方面,微软与 OpenAI 的 DALL-E 3 相比具有高度竞争力,同时声称速度提升 2 倍。
准确率和速度声明需要独立验证。但即使在定价相当的情况下,原生存在于 Azure 生态中的微软品牌模型,仍能消除 API 跳转延迟、简化合规态势,并消除受监管企业客户跨供应商的数据驻留复杂性——这些因素往往比 10 至 20% 的成本差异更为重要。
微软为何要自研基础模型?
简短的答案是:依赖风险。更长的答案涉及微软对自身在 AI 时代定位的根本性思维转变。
timeline
title 微软 AI 战略演进 2019–2026
section 2019–2023
OpenAI 投资阶段<br>2019 年初始投资 10 亿美元<br>2023 年追加投资 100 亿美元<br>GPT-4 驱动 Copilot 发布
section 2024
Mustafa Suleyman 加入<br>前 DeepMind 联合创始人受聘<br>MAI 超级智能团队成立<br>Phi 小型模型系列扩展
section 2025
合作协议重新谈判<br>移除自研模型的合同限制<br>MAI 团队开始基础模型研发<br>微软保留 OpenAI 分销权
section 2026
MAI 模型正式推出<br>MAI-Transcribe-1 MAI-Voice-1 MAI-Image-2<br>发布时即可在 Foundry 获取<br>集成进 Bing 和 PowerPoint原始的微软-OpenAI 协议以分销合作形式构建:微软提供算力基础设施和云端分销,OpenAI 提供模型。这一模式在 2023 年和 2024 年 GPT-4 及 GPT-4o 推动 Copilot 爆发式增长期间效果卓著。但随时间推移,三个摩擦点逐渐累积。
首先,OpenAI 的每次模型改进都需要进行新一轮合同谈判并通过 Azure 分阶段推出——微软无法按自身时间表交付能力更新。其次,微软工程师发现,难以针对数据主权和定制化至关重要的特定企业用例对 OpenAI 模型进行微调。第三,也是最为紧迫的是,随着 OpenAI 追求自己的企业直销策略,合作关系开始出现裂痕,微软日益沦为中间商而非受重视的合作伙伴。
2025 年重新谈判的协议解决了合同障碍,但未解决根本的激励错位问题。自研 MAI 模型则从结构上解决了这一问题。
MAI 发布对 Azure 企业买家意味着什么?
对企业技术团队而言,MAI 发布重塑了三个特定工作负载的采购考量:面向客户的语音界面、媒体和内容制作流水线,以及依赖高准确率转录的文档智能化工作流程。
flowchart TD
A[企业 AI 工作负载] --> B{模态类型}
B --> C[语音转文字]
B --> D[文字转语音]
B --> E[图像生成]
C --> F[MAI-Transcribe-1<br>25 种语言<br>$0.36/小时]
D --> G[MAI-Voice-1<br>自定义声音<br>$22/百万字符]
E --> H[MAI-Image-2<br>Arena.ai 前三名<br>$5/百万 token]
F --> I[留在 Azure Foundry<br>无跨供应商 API 跳转<br>简化合规流程]
G --> I
H --> I
I --> J[降低总持有成本<br>更佳的数据驻留合规<br>统一计费管理]下表将常见企业用例对应到 MAI 发布的影响:
| 企业用例 | 相关 MAI 模型 | 主要优势 | 迁移考量 |
|---|---|---|---|
| 客服中心转录与质量保证 | MAI-Transcribe-1 | 嘈杂环境准确率、2.5 倍速度 | 针对特定领域词汇测试词错误率 |
| 会议记录与异步沟通 | MAI-Transcribe-1 | 速度 + 多语言(25 种) | 评估说话者分离质量 |
| 交互式语音代理与 IVR | MAI-Voice-1 | 自定义声音克隆、低延迟 | 验证客户接触场景的情感表达范围 |
| 有声书与电子学习制作 | MAI-Voice-1 | 长篇说话者身份一致性 | 需进行长篇一致性测试 |
| 营销创意与社交媒体内容 | MAI-Image-2 | 生成速度 2 倍、Bing 集成 | 品牌视觉一致性 vs. 微调替代方案 |
| PowerPoint 幻灯片设计自动化 | MAI-Image-2 | 原生 PowerPoint Designer 集成 | 企业视觉规范的提示词工程 |
微软的 AI 自主化战略走向何方?
MAI 模型的发布涵盖三种模态:语音转录、语音合成和图像生成。而其明显未涵盖的是大型语言模型推理——这个领域 OpenAI 的 GPT-5.4 仍在驱动 Copilot。这个缺口是刻意为之,揭示了微软战略的轮廓。
Suleyman 明确表示,目标并非一夜取代 OpenAI,而是建立一个模型组合。微软打算运营一个多模型生态系统:在成本、延迟和控制权至关重要的模态与工作负载上,由自研 MAI 模型承担;而在需要数年才能匹配的能力方面,OpenAI 模型则继续支撑推理密集型应用。这一策略的风险在于,组合模式要求客户和开发者思考如何将工作负载路由至合适的模型——这种认知负担是竞争性单一供应商所不需要施加的。微软的答案是 Foundry:一个统一的 API 和编排层,抽象化模型选择,让开发者无需重写应用逻辑即可切换模型。
MAI 的发布是可信的开局。终局仍在书写之中。
常见问题
微软在 2026 年 4 月发布了哪三款 MAI 模型? 微软发布了 MAI-Transcribe-1(支持 25 种语言的语音转文字)、MAI-Voice-1(具备自定义声音克隆功能的文字转语音),以及 MAI-Image-2(Arena.ai 排行榜前三名的图像生成模型),全部可通过 Microsoft Foundry 使用。
MAI-Transcribe-1 与 OpenAI Whisper 相比如何? MAI-Transcribe-1 在 FLEURS 基准测试中于 25 种语言的词错误率最低,并且比 Azure 先前的 Fast 方案快 2.5 倍,专为嘈杂的真实环境(如客服中心和会议室)优化设计。
微软为何要自研基础 AI 模型,而不继续依赖 OpenAI? 2025 年重新谈判的合作协议移除了此前限制微软开发广泛能力模型的合同条款。自研模型可降低供应商依赖,并让微软对定价与产品路线图拥有更大的掌控权。
MAI 模型的发布意味着微软要与 OpenAI 分道扬镳吗? 并非如此。微软仍维持其 130 亿美元的 OpenAI 投资,并持续以 GPT-5.4 驱动 Copilot。MAI 的发布是战略性多元布局,而非决裂。
MAI 发布对目前使用 Azure AI 的企业团队意味着什么? 企业团队无需离开 Azure 生态系即可获得更具竞争力的选项,MAI-Transcribe-1 每小时 0.36 美元、MAI-Image-2 每百万 token 起价 5 美元,相较同等 OpenAI 或 Google 端点具有显著成本优势。
谁领导微软的 MAI 部门? 微软 AI 首席执行官 Mustafa Suleyman 领导 MAI 超级智能团队。他是 DeepMind 联合创始人,曾主掌 Google DeepMind,于 2024 年加入微软。