大型語言模型(LLM)的快速發展,使其在處理複雜任務時的效能受到市場普遍關注。然而,隨著模型上下文視窗的擴大,用於儲存鍵值(KV)快取的記憶體需求亦隨之按比例增長。這不僅大量消耗圖形處理器(GPU)記憶體,更可能降低模型的推理速度,成為制約LLM擴展性的關鍵瓶頸。 為解決此挑戰,科技巨擘Google(谷歌)近日宣佈推出一系列創新的壓縮演算法。據Google表示,這些新技術包括TurboQuant、PolarQuant以及Quantized Johnson-Lindenstrauss(QJL),旨在高效壓縮快取資料,同時不影響模型輸出的品質和準確性。 在這些技術中,新型記憶體壓縮技術TurboQuant表現尤為突出。該技術能將大型模型儲存鍵值暫存壓縮至僅3位元(bit),實現高達6倍的記憶體縮減。市場消息指,TurboQuant在提升運算速度方面亦有顯著突破,最高可達8倍加速。值得留意的是,據稱此技術能在不損失任何準確性的前提下,大幅減少大模型的快取記憶體佔用。舉例而言,在Nvidia(輝達)H100 GPU平台上,採用4位元TurboQuant的計算方式,在處理注意力邏輯值時,比未經量化的32位元鍵快達8倍。 此外,PolarQuant技術在特定的「大海撈針」(needle in a haystack)檢索任務中,展現出近乎無失真的卓越性能。分析認為,Google推出的這些快取壓縮技術,有望為大型語言模型的記憶體優化和運算效率帶來革命性進展,進一步推動AI領域的創新與應用。
| Time | News |
|---|---|
| 03-26 11:06 | 港股早市失守兩萬五關 快手急挫逾一成領跌藍籌 |
| 03-26 11:06 | 日經指數半日微跌0.17% |
| 03-26 11:06 | 騰訊控股(00700)錄得三宗大手成交 涉資逾9500萬港元 |
| 03-26 11:06 | 長飛光纖光纜(06869)現大手成交 涉資逾2500萬元 |
| 03-26 11:06 | 阿里巴巴-W(09988)市場錄得兩宗大手成交 涉資逾5700萬元 |
| 03-26 11:06 | 發展局推進香港仔避風塘綜合發展 擬增遊艇泊位及配套設施 冀帶動高端旅遊 |
| 03-26 11:05 | 野村大幅下調快手(01024)目標價26% 評級降至「中性」 |
| 03-26 11:05 | 中國石油股份 (00857) 錄得逾五千萬元大手成交 |
| 03-26 11:05 | 手回集團(02621)年度業績轉虧為盈 純利錄得7.93億人民幣 建議派息14港仙 |
| 03-26 11:05 | 中國石油化工(00386)錄得大手成交 涉資逾2000萬元 |
| 03-26 11:05 | 日本警方將闖中國駐日使館疑犯送檢 中國大使館嚴正交涉 |
| 03-26 10:40 | 富途旗下獵豹交易所全面持牌運營 深度整合富途證券 冀推虛擬資產孖展交易 |
| 03-26 10:37 | 輝立:皖通高速(00995)獲薦買入 目標價16.3元止蝕13元 |
| 03-26 10:37 | 市場觀望通脹憂慮緩解 油價回落帶動航空股造好 Google新技術消息衝擊儲存股 |
| 03-26 10:37 | 凱基:泡泡瑪特去年核心業績亮麗但細項分化 歐美市場遜預期投資者宜警惕短期股價波動 |
| 03-26 10:37 | 野村下調泡泡瑪特(09992)目標價近三成 維持「買入」評級 惟銷售指引保守遜預期 |
| 03-26 10:36 | 恆指連日反彈逼近25500點關口 美股科技股走勢仍待觀察 |
| 03-26 10:36 | CSI MTN N2607-R (84435) 錄兩宗大手成交 總涉資逾4000萬人民幣 |
| 03-26 10:36 | 泡泡瑪特(09992)錄兩宗大手交易 涉資近6,780萬元 |
| 03-26 10:36 | 美圖(01357)澄清網傳2025年度業績 股份今早停牌待公佈 |