ChatGPT-5已經(jīng)發(fā)布,那么國產(chǎn)大模型DeepSeek大版本更新也就不遠(yuǎn)了。
從網(wǎng)友向DeepSeek提出的問題看,該模型給出的答案是,DeepSeek-R2預(yù)計(jì)將在2025年8月15日至8月30日之間發(fā)布。
在這樣的背景下,國產(chǎn)算力鏈多家公司股價(jià)出現(xiàn)了大漲,比如寒武紀(jì)直接今天20cm漲停,股價(jià)創(chuàng)歷史新高,市值突破3550億元。
按照之前的說法,DeepSeek-R2大模型將會(huì)采用一種更先進(jìn)的混合專家模型(MoE),其結(jié)合了更加智能的門控網(wǎng)絡(luò)層(Gating Network)以優(yōu)化高負(fù)載推理任務(wù)的性能。
有分析師預(yù)計(jì),DeepSeek-R2的定價(jià)可能顯著低于OpenAI同類產(chǎn)品,預(yù)示著其可能顛覆現(xiàn)有AI服務(wù)的定價(jià)模式。
此外,還有相關(guān)消息顯示,DeepSeek-R2預(yù)計(jì)比GPT-4成本下降97%;并且是在昇騰卡上做的訓(xùn)練,主打一個(gè)全方位全產(chǎn)業(yè)鏈的自主可控。
據(jù)相關(guān)人士透露的情況,DeepSeek-R2的總參數(shù)量可能會(huì)達(dá)到1.2萬億,比DeepSeek-R1的6710億參數(shù)增加大約一倍。
DeepSeek-R2是一款基于華為昇騰910B(Ascend 910B)芯片集群訓(xùn)練的模型,在FP16精度下達(dá)到512PetaFLOPS的計(jì)算能力,芯片使用效率為82%。
據(jù)華為實(shí)驗(yàn)室統(tǒng)計(jì),這個(gè)性能相當(dāng)于英偉達(dá)上一代A100訓(xùn)練集群的91%左右。至于這些是不是真實(shí)的,還有待觀察,但看起來確實(shí)更強(qiáng)大、更自主了。
編輯︱梁景琴

- “護(hù)島神山群”被迫赴美投資,島內(nèi)反思“美國窮臺(tái)” 中美發(fā)布聯(lián)合聲明:雙方再次暫停實(shí)施24%的關(guān)稅90天 上海民警長年猥褻繼女囚8年,曾揚(yáng)言“在你媽前強(qiáng)奸你” 解放軍第三款六代機(jī)曝光,美媒:料與殲-50角逐下代戰(zhàn)機(jī)選型 關(guān)稅戰(zhàn)|白宮:特朗普簽行政命令,對(duì)華關(guān)稅暫緩期再延長90日 中國代表駁斥美方在巴拿馬運(yùn)河問題上對(duì)中國無理指責(zé) 美國鋼鐵廠房爆炸,釀1死2失蹤多人傷,工人:巨響如火車相撞 臺(tái)媒民調(diào):賴清德、卓榮泰滿意度皆跌破3成,創(chuàng)就任來新低 麥當(dāng)勞、星巴克、蘋果都被抵制,“亞洲大國”掀抗美潮 賴清德滿意度剩28%,她點(diǎn)名1現(xiàn)象:值得注意