亚洲精品视频久久_亚洲日本电影久久_亚洲午夜福利院在线观看_精品乱理伦片中文字幕

華為發(fā)布全新AI推理創(chuàng)新技術(shù)UCM

發(fā)布時間:2025-08-12 14:02

《星島》記者 周昊 實習記者 李譽

2025年8月12日,華為聯(lián)合中國銀聯(lián)共同公布AI推理領(lǐng)域最新應(yīng)用成果——AI推理創(chuàng)新技術(shù)UCM(推理記憶數(shù)據(jù)管理器)。該技術(shù)有望降低我國AI推理對HBM(高帶寬內(nèi)存)技術(shù)的依賴,提升AI大模型推理性能,完善AI推理生態(tài)體系,為AI產(chǎn)業(yè)突破“內(nèi)存墻”限制提供創(chuàng)新解決方案。

華為方面表示,作為一款以KV Cache為中心的推理加速套件,UCM融合了多類型緩存加速算法工具,分級管理推理過程中產(chǎn)生的KV Cache記憶數(shù)據(jù),擴大推理上下文窗口,以實現(xiàn)高吞吐、低時延的推理體驗,降低每Token推理成本。

隨著AI產(chǎn)業(yè)從“追求模型能力極限”轉(zhuǎn)向“追求推理體驗優(yōu)化”,推理體驗直接關(guān)系到用戶滿意度和商業(yè)落地能力,已成為衡量模型價值的核心標準。

中信建投在2025世界人工智能大會期間發(fā)布的白皮書指出,AI正從訓練向推理的結(jié)構(gòu)性躍遷。以國內(nèi)某頭部互聯(lián)網(wǎng)公司為例,每三個月Token消耗接近翻一倍,5月底為16.4萬億Token。在此背景下,AI推理體驗已成為行業(yè)落地的核心競爭力。

當前,國外主流大模型的單用戶輸出速度已達到200 Tokens/s(時延 5ms),而我國普遍小于60Tokens/s(時延50 - 100ms)。推理速度的差距直接影響智能交互、金融問答等場景下,用戶對響應(yīng)速度、答案準確性和復雜問題處理能力的體驗。

造成這一差距的重要原因之一在于底層算力和內(nèi)存技術(shù)的限制。HBM作為GPU等高性能處理器提供高速數(shù)據(jù)訪問的關(guān)鍵技術(shù),隨著GPU算力提升,AI產(chǎn)業(yè)對高效內(nèi)存的需求持續(xù)增長。

2024年,美國出臺禁令,禁止向中國出口HBM2E及以上型號芯片,這一限制直接制約了我國算力基礎(chǔ)和AI研發(fā)的進程,進一步加劇了大模型推理性能上的差距。

在AI技術(shù)方面,華為自2018年推出首款昇騰系列AI芯片以來,已聯(lián)合超1.1萬家合作伙伴,服務(wù)覆蓋全球5600多家金融機構(gòu)。其核心AI計算架構(gòu)CANN已實現(xiàn)全面開源,推動AI技術(shù)的普及與創(chuàng)新,加速AI應(yīng)用在各行業(yè)的落地和生態(tài)繁榮。


編輯︱楊睿奇
熱門文章