97人妻精品一区二区三区,狠插丁香五月av

華為發(fā)布全新AI推理創(chuàng)新技術(shù)UCM

發(fā)布時間：2025-08-12 14:02

《星島》記者周昊實習記者李譽

2025年8月12日，華為聯(lián)合中國銀聯(lián)共同公布AI推理領(lǐng)域最新應(yīng)用成果——AI推理創(chuàng)新技術(shù)UCM（推理記憶數(shù)據(jù)管理器）。該技術(shù)有望降低我國AI推理對HBM（高帶寬內(nèi)存）技術(shù)的依賴，提升AI大模型推理性能，完善AI推理生態(tài)體系，為AI產(chǎn)業(yè)突破“內(nèi)存墻”限制提供創(chuàng)新解決方案。

華為方面表示，作為一款以KV Cache為中心的推理加速套件，UCM融合了多類型緩存加速算法工具，分級管理推理過程中產(chǎn)生的KV Cache記憶數(shù)據(jù)，擴大推理上下文窗口，以實現(xiàn)高吞吐、低時延的推理體驗，降低每Token推理成本。

隨著AI產(chǎn)業(yè)從“追求模型能力極限”轉(zhuǎn)向“追求推理體驗優(yōu)化”，推理體驗直接關(guān)系到用戶滿意度和商業(yè)落地能力，已成為衡量模型價值的核心標準。

中信建投在2025世界人工智能大會期間發(fā)布的白皮書指出，AI正從訓練向推理的結(jié)構(gòu)性躍遷。以國內(nèi)某頭部互聯(lián)網(wǎng)公司為例，每三個月Token消耗接近翻一倍，5月底為16.4萬億Token。在此背景下，AI推理體驗已成為行業(yè)落地的核心競爭力。

當前，國外主流大模型的單用戶輸出速度已達到200 Tokens/s（時延 5ms），而我國普遍小于60Tokens/s（時延50 - 100ms）。推理速度的差距直接影響智能交互、金融問答等場景下，用戶對響應(yīng)速度、答案準確性和復雜問題處理能力的體驗。

造成這一差距的重要原因之一在于底層算力和內(nèi)存技術(shù)的限制。HBM作為GPU等高性能處理器提供高速數(shù)據(jù)訪問的關(guān)鍵技術(shù)，隨著GPU算力提升，AI產(chǎn)業(yè)對高效內(nèi)存的需求持續(xù)增長。

2024年，美國出臺禁令，禁止向中國出口HBM2E及以上型號芯片，這一限制直接制約了我國算力基礎(chǔ)和AI研發(fā)的進程，進一步加劇了大模型推理性能上的差距。

在AI技術(shù)方面，華為自2018年推出首款昇騰系列AI芯片以來，已聯(lián)合超1.1萬家合作伙伴，服務(wù)覆蓋全球5600多家金融機構(gòu)。其核心AI計算架構(gòu)CANN已實現(xiàn)全面開源，推動AI技術(shù)的普及與創(chuàng)新，加速AI應(yīng)用在各行業(yè)的落地和生態(tài)繁榮。

編輯︱楊睿奇

相關(guān)閱讀