火山引擎推出豆包語音識別模型2.0 提升多語種及視覺識別能力

火山引擎今日正式推出豆包語音識別模型2.0(Doubao-Seed-ASR-2.0),這一版本依據Seed混合專家大語言模型架構設計,顯著增強了模型的推理能力。官方表示,此次升級使上下文整體關鍵字召回率提升20%,可進行精準的深度理解與識別。 該模型支援多模態視覺識別,不僅能夠「聽得懂」,更能「看得懂」,允許透過單圖和多圖等視覺訊息,大幅度提高文字辨識的精準度。此外,2.0版本支持13種海外語種,包括日語、韓語、德語、法語等。 值得一提的是,新版本針對專有名詞、人名、地名、品牌名稱及易混淆的多音字等複雜場景進行了升級處理,旨在改善這些領域的專業辨識能力。在國際市場迅速擴展的背景下,此次技術提升有望助力公司進一步佔據市場優勢。 市場消息指出,火山引擎在人工智能領域的創新步伐正在加快,此次新產品的推出亦促使其技術能力得到廣泛關注,投資者對未來的市場表現寄予厚望。