百度DuMate智能體橫掃兩大評測榜單 力壓Anthropic及OpenAI稱霸「全球龍蝦執行爭霸賽」

科技巨擘百度(09888)旗下智能體DuMate近日在全球兩大頂級智能體評測基準——PinchBench及DeepResearch榜單中表現卓越,橫掃多項冠軍,尤其在備受業界關注的「全球龍蝦執行爭霸賽」中,力壓國際知名人工智能公司Anthropic及OpenAI,奪得榜首之位。 市場消息指,DuMate在智能體評測基準PinchBench榜單中脱穎而出,不僅成功登頂,更在前五位中獨佔三席。PinchBench作為OpenClaw賽道最具代表性的評測基準,主要考察智能體在23個真實工作場景下,對147個任務的多步推理、工具調用及任務閉環能力,並綜合成功率、速度與成本三個維度進行排名。榜單數據顯示,DuMate以93.3%及93.2%的總成績包攬前兩名,表現領先;作為對照,Anthropic與OpenAI的同款模型在相同場景下的成績分別為89.0%和91.6%。這項結果突顯,同一模型在DuMate框架中能展現出更強的執行力。 據瞭解,DuMate之所以能超越原生表現,關鍵在於其獨特的「端雲協同 Harness 架構」。這套系統能夠在任務抵達時進行意圖識別及敏感度判斷,涉及隱私的相關操作會留在本地執行,而複雜的推理任務則會上傳至雲端完成,此過程無需用户手動切換。此外,系統會根據任務語義及用户歷史行為,按需組裝每次執行所需的上下文,預判並注入必要的背景資訊,從而減少冗餘幹擾。Harness架構與Skills體系亦能基於歷史執行軌跡持續迭代,確保不同底層模型均能在接近其能力上限的狀態下穩定運行。 在另一項針對深度研究型智能體的評測榜單DeepResearch Bench中,DuMate同樣位列第一。DeepResearch Bench被視為目前最全面的深度研究型Agent評測基準,從洞察深度、內容準確性及可讀性等多個維度,全面考察智能體處理複雜研究任務的綜合能力。DuMate憑藉58.03的綜合分傲視羣雄,而支撐這一佳績的正是其自研Skills體系中的Deep Search與Deep Research雙引擎。其中,Deep Search負責跨平台語義檢索與高價值資訊定位,Deep Research則在此基礎上疊加多輪推理與因果分析,將碎片化的資訊提煉成結構化研究成果。 據悉,DuMate自2026年3月上線以來,一直保持「一日一版」的更新節奏,並已通過信通院兩項安全測評,且均獲得最高等級認證,進一步彰顯其在安全性與可靠性方面的實力。
TimeNews
05-09 10:40「習特會」前夕美國擴大制裁涉伊朗武器供應鏈 中港多家企業上榜
05-09 10:36美製裁中港企業涉助伊朗發展武器 特習會前夕華府再施壓
05-09 10:06人行公開市場本週淨回籠逾3600億 短期逆回購續地量
05-09 10:05政府公佈26/27年度免税額調整細節 鼓勵生育及長者照顧開支獲優化
05-09 09:362026世界盃中國及印度轉播權陷僵局 國際足協與廣播商出價分歧顯著
05-09 09:16美伊僵局未解卡塔爾重啟斡旋管道 霍爾木茲海峽衝突與經濟施壓加劇
05-09 08:37百度崑崙芯傳擬港上市估值千億人幣 掀AI股熱潮 美股創新高
05-09 08:37全球科技股熱潮帶動美股屢創新高 百度旗下崑崙芯傳擬港上市估值千億
05-09 08:36百度崑崙芯傳擬港上市目標估值逾千億 美股受利好消息刺激造好
05-09 08:36港元定存市場競爭激烈 短期高息優惠頻現 2個月年利率高達10釐 3個月現有資金息率創2.7釐新高
05-09 08:07港元定存現「雙冠軍」 高息搶錢戰升温 HIBOR走強資金迴流
05-09 08:05美國AI初創Anthropic斥18億美元與Akamai簽訂算力服務協議
05-09 07:36港股受中東局勢拖累失26400點 科指走弱 百度快手逆市獨漲 北水淨流入逾130億
05-09 07:36美股納指標指再創新高 英特爾受惠晶片協議飆升 中東局勢持續牽動油市
05-09 07:36美股三大指數波動中屢創新高 科技股受惠協議憧憬急升 中東地緣政治持續左右市場情緒
05-09 07:35夜期市場昨日偏軟 5月期指收報26250點跌17點
05-09 07:35英特爾傳與蘋果初步達成晶片製造協議 股價盤中飆逾一成九 費半指數創新高
05-09 07:05港銀定存息戰升温 銀行踏入五月率先上調多種貨幣存款利率 部分年息逾4釐吸客
05-09 06:06港元定存戰況熾熱 多間銀行調升息率 兩年期高達2.8釐冠全城
05-09 05:35Rocket Lab首季業績報捷股價創新高 訂單積壓按年倍增逾22億美元