Microsoft 正在擴大其內部 AI 模型陣容,發布了一款新的語音轉文字系統,並首次向開發者廣泛提供兩款現有模型。這些舉措是 Microsoft AI (MAI) 更廣泛努力的一部分,旨在擴展其專有 AI 能力,超越與 OpenAI 的合作,讓 Microsoft 在與 Google、Amazon 等公司的競爭中,對自己的未來擁有更多控制權。
MAI-Transcribe-1:最準確的語音轉文字模型
Microsoft 於 2026 年 4 月 2 日宣布推出 MAI-Transcribe-1,這是一款語音轉文字模型,據稱是目前最準確的。該公司表示,MAI-Transcribe-1 在 GPU 成本上比其他最先進的模型低一半,並且由一個僅有 10 人的團隊構建。該模型旨在處理嘈雜的現實環境,例如呼叫中心和會議室,Microsoft 正在測試與 Copilot 和 Teams 的整合。Microsoft 聲稱它提供了所有大型雲端供應商中最佳的性價比,直接與 OpenAI 的 Whisper 和 Google 的 Gemini 在 FLEURS 基準測試中競爭 [1]。
MAI-Voice-1 與 MAI-Image-2 廣泛可用
除了 MAI-Transcribe-1,Microsoft 還將其現有的語音和圖像生成模型 MAI-Voice-1 和 MAI-Image-2 廣泛用於商業用途。MAI-Voice-1 可以生成自然發音的語音,現在允許開發者從簡短的音訊樣本中創建自定義語音。MAI-Image-2 在 Arena.ai 圖像生成排行榜上排名前三,並正在 Bing 和 PowerPoint 中推出 [1]。
Microsoft 的 AI 戰略轉變
這是 Microsoft 自 Satya Nadella 執行長於 2026 年 3 月宣布重組以來,首次發布主要模型。在這次重組中,Microsoft AI 執行長 Mustafa Suleyman 轉而專注於前沿模型開發和超級智慧,而不是日常的 Copilot 監督。Suleyman 表示,如果需要,Microsoft 計劃最終構建一個前沿大型語言模型,以實現「完全獨立」 [1]。