Google發布KV快取壓縮新技術 有望顯著提升大型語言模型運算效能

大型語言模型(LLM)的快速發展,使其在處理複雜任務時的效能受到市場普遍關注。然而,隨著模型上下文視窗的擴大,用於儲存鍵值(KV)快取的記憶體需求亦隨之按比例增長。這不僅大量消耗圖形處理器(GPU)記憶體,更可能降低模型的推理速度,成為制約LLM擴展性的關鍵瓶頸。 為解決此挑戰,科技巨擘Google(谷歌)近日宣佈推出一系列創新的壓縮演算法。據Google表示,這些新技術包括TurboQuant、PolarQuant以及Quantized Johnson-Lindenstrauss(QJL),旨在高效壓縮快取資料,同時不影響模型輸出的品質和準確性。 在這些技術中,新型記憶體壓縮技術TurboQuant表現尤為突出。該技術能將大型模型儲存鍵值暫存壓縮至僅3位元(bit),實現高達6倍的記憶體縮減。市場消息指,TurboQuant在提升運算速度方面亦有顯著突破,最高可達8倍加速。值得留意的是,據稱此技術能在不損失任何準確性的前提下,大幅減少大模型的快取記憶體佔用。舉例而言,在Nvidia(輝達)H100 GPU平台上,採用4位元TurboQuant的計算方式,在處理注意力邏輯值時,比未經量化的32位元鍵快達8倍。 此外,PolarQuant技術在特定的「大海撈針」(needle in a haystack)檢索任務中,展現出近乎無失真的卓越性能。分析認為,Google推出的這些快取壓縮技術,有望為大型語言模型的記憶體優化和運算效率帶來革命性進展,進一步推動AI領域的創新與應用。
TimeNews
03-26 11:06港股早市失守兩萬五關 快手急挫逾一成領跌藍籌
03-26 11:06日經指數半日微跌0.17%
03-26 11:06騰訊控股(00700)錄得三宗大手成交 涉資逾9500萬港元
03-26 11:06長飛光纖光纜(06869)現大手成交 涉資逾2500萬元
03-26 11:06阿里巴巴-W(09988)市場錄得兩宗大手成交 涉資逾5700萬元
03-26 11:06發展局推進香港仔避風塘綜合發展 擬增遊艇泊位及配套設施 冀帶動高端旅遊
03-26 11:05野村大幅下調快手(01024)目標價26% 評級降至「中性」
03-26 11:05中國石油股份 (00857) 錄得逾五千萬元大手成交
03-26 11:05手回集團(02621)年度業績轉虧為盈 純利錄得7.93億人民幣 建議派息14港仙
03-26 11:05中國石油化工(00386)錄得大手成交 涉資逾2000萬元
03-26 11:05日本警方將闖中國駐日使館疑犯送檢 中國大使館嚴正交涉
03-26 10:40富途旗下獵豹交易所全面持牌運營 深度整合富途證券 冀推虛擬資產孖展交易
03-26 10:37輝立:皖通高速(00995)獲薦買入 目標價16.3元止蝕13元
03-26 10:37市場觀望通脹憂慮緩解 油價回落帶動航空股造好 Google新技術消息衝擊儲存股
03-26 10:37凱基:泡泡瑪特去年核心業績亮麗但細項分化 歐美市場遜預期投資者宜警惕短期股價波動
03-26 10:37野村下調泡泡瑪特(09992)目標價近三成 維持「買入」評級 惟銷售指引保守遜預期
03-26 10:36恆指連日反彈逼近25500點關口 美股科技股走勢仍待觀察
03-26 10:36CSI MTN N2607-R (84435) 錄兩宗大手成交 總涉資逾4000萬人民幣
03-26 10:36泡泡瑪特(09992)錄兩宗大手交易 涉資近6,780萬元
03-26 10:36美圖(01357)澄清網傳2025年度業績 股份今早停牌待公佈