DeepSeek 發表新論文 探索 AI 模型訓練穩定性

內地人工智能初創公司 DeepSeek 於近期發表一篇新論文,旨在提升大規模模型訓練的穩定性。該論文介紹了一種名為 mHC(流形約束超連接)的架構,試圖解決傳統超連接面對不穩定性的挑戰。 mHC 的創新之處在於將傳統 Transformer 的單一殘差流擴展為多流並行架構,並採用 Sinkhorn-Knopp 演算法,將連接矩陣約束在雙擬隨機矩陣流形上。這一方法有效解決了因超連接導致的數值不穩定和訊號爆炸問題。 論文的主要作者包括解振達、韋毅軒及 Huanqi Cao,值得一提的是,DeepSeek 創始人梁文鋒也參與其中。市場消息指,這項研究引發了投資者對 DeepSeek 在 AI 模型創新領域持續發展的關注。隨着中國在人工智能領域投入增加,初創企業的技術突破或將為行業注入新動力。