Microsoft 發布三款 MAI 模型：語音、轉錄與圖像生成正式進駐 Azure AI Foundry

Microsoft 正在擴大其內部 AI 模型陣容，發布了一款新的語音轉文字系統，並首次向開發者廣泛提供兩款現有模型。這些舉措是 Microsoft AI (MAI) 更廣泛努力的一部分，旨在擴展其專有 AI 能力，超越與 OpenAI 的合作，讓 Microsoft 在與 Google、Amazon 等公司的競爭中，對自己的未來擁有更多控制權。

MAI-Transcribe-1：最準確的語音轉文字模型

Microsoft 於 2026 年 4 月 2 日宣布推出 MAI-Transcribe-1，這是一款語音轉文字模型，據稱是目前最準確的。該公司表示，MAI-Transcribe-1 在 GPU 成本上比其他最先進的模型低一半，並且由一個僅有 10 人的團隊構建。該模型旨在處理嘈雜的現實環境，例如呼叫中心和會議室，Microsoft 正在測試與 Copilot 和 Teams 的整合。Microsoft 聲稱它提供了所有大型雲端供應商中最佳的性價比，直接與 OpenAI 的 Whisper 和 Google 的 Gemini 在 FLEURS 基準測試中競爭 [1]。

MAI-Voice-1 與 MAI-Image-2 廣泛可用

除了 MAI-Transcribe-1，Microsoft 還將其現有的語音和圖像生成模型 MAI-Voice-1 和 MAI-Image-2 廣泛用於商業用途。MAI-Voice-1 可以生成自然發音的語音，現在允許開發者從簡短的音訊樣本中創建自定義語音。MAI-Image-2 在 Arena.ai 圖像生成排行榜上排名前三，並正在 Bing 和 PowerPoint 中推出 [1]。

Microsoft 的 AI 戰略轉變

這是 Microsoft 自 Satya Nadella 執行長於 2026 年 3 月宣布重組以來，首次發布主要模型。在這次重組中，Microsoft AI 執行長 Mustafa Suleyman 轉而專注於前沿模型開發和超級智慧，而不是日常的 Copilot 監督。Suleyman 表示，如果需要，Microsoft 計劃最終構建一個前沿大型語言模型，以實現「完全獨立」 [1]。

參考資料

[1] Microsoft releases new AI models to expand further beyond OpenAI – GeekWire

想把 AI 真正應用到工作流程？

想了解企業如何把語音 AI、生成式 AI 與工作流程自動化真正落地？歡迎查詢 aicourse.com.hk 的企業 AI 培訓與實戰課程。

立即查詢課程 →

← 返回 AI 博客