“UE8M0 FP8是針對(duì)即將發(fā)布的下一代國產(chǎn)芯片設(shè)計(jì)。”
這是深度求索公司8月份在新發(fā)布新模型DeepSeek V3.1的文檔中所留下的一個(gè)關(guān)鍵信息。
整個(gè)8月下旬,這串“符號(hào)”成為國產(chǎn)芯片與算力行業(yè)在資本市場(chǎng)狂歡的“財(cái)富密碼”。然而,對(duì)于非行業(yè)專業(yè)投資者來說,只有一頭霧水,很難明白這串略顯晦澀的代碼到底意味著什么,可以讓市場(chǎng)如此興奮。
“UE8M0 FP8”到底是什么意思?為什么它能引發(fā)資本市場(chǎng)對(duì)國產(chǎn)芯片的高度關(guān)注?而我們又需注意哪些不確定性?21世紀(jì)經(jīng)濟(jì)報(bào)道記者采訪了數(shù)位AI和算力行業(yè)人士,并嘗試為這三個(gè)問題找到一些解答。
極致的效率追求
首先“UE8M0 FP8”是什么意思?
“FP”即“浮點(diǎn)”,是計(jì)算機(jī)二進(jìn)制計(jì)算的基礎(chǔ)單位,與“INT”整數(shù)計(jì)算相對(duì)應(yīng),常以科學(xué)計(jì)數(shù)法表達(dá)數(shù)據(jù),適用于圖形處理、科學(xué)計(jì)算、深度學(xué)習(xí)等應(yīng)用場(chǎng)景。“FP8”即代表8位浮點(diǎn),以此類推,F(xiàn)P16、FP32分別代表16位和32位浮點(diǎn)。而每個(gè)浮點(diǎn)位又分別用于記錄符號(hào)(+、-)、“E”階數(shù)(指數(shù))、“M”尾數(shù)(小數(shù))等關(guān)鍵數(shù)據(jù)信息,“通過科學(xué)計(jì)數(shù)法計(jì)算的方式”來記錄數(shù)據(jù)。
所以,“UE8M0 FP8”,即代表無符號(hào)、8位指數(shù)、0位尾數(shù)的參數(shù)格式。
一個(gè)恰如其分的比喻是,“指數(shù)位E”是人工智能丈量世界的尺的刻度,它既能測(cè)量微觀世界的塵埃,也能丈量宏觀世界的山河——但是,它需要符號(hào)位和尾數(shù)“M”來幫它確認(rèn)精度。而在主流的參數(shù)格式FP8、FP16、FP32等中,其主流參數(shù)格式對(duì)應(yīng)的指數(shù)位分別為4位、5位和8位。
其中,“FP32”是科學(xué)計(jì)算、模型訓(xùn)練和推理的金標(biāo)準(zhǔn),但因浮點(diǎn)位數(shù)高,計(jì)算資源耗費(fèi)巨大,常用“混合”了FP16、FP8的混合精度進(jìn)行高效化替代。
而“UE8M0”,就仿佛一個(gè)“百招會(huì)不如一招鮮”的高手,將自己所有的技能點(diǎn)全部聚焦到自己的量程之上,由此達(dá)到和FP32同樣的數(shù)據(jù)范圍。
“E8M0是用8位表示指數(shù)部分,尾數(shù)部分為0,所以Scale(標(biāo)度)的值范圍上和FP32差不多,因?yàn)镕P32也是8位表示指數(shù)部分,可以保證量化范圍大,有利于模型訓(xùn)練的數(shù)值穩(wěn)定。”前全球頭部數(shù)據(jù)庫企業(yè)高管許天(化名)告訴記者:“所以我理解E8M0對(duì)比FP32速度更快,對(duì)比E5M2類的FP8數(shù)值范圍更大,訓(xùn)練更穩(wěn)定。”
當(dāng)然,純粹的“UE8M0”,自然會(huì)以舍棄精度作為代價(jià)。但是,由于Transformer架構(gòu)(一種采用注意力機(jī)制的深度學(xué)習(xí)架構(gòu))下的AI大模型,其關(guān)鍵自注意力機(jī)制原本就依賴于浮點(diǎn)的大量程,因此 “UE8M0”創(chuàng)造了一種“犧牲局部精度,換取全局穩(wěn)定”的人工智能計(jì)算格式。
“UE8M0 FP8指的是一種為中國市場(chǎng)而特別定制的模型格式,能有效降低計(jì)算功耗,基于芯片規(guī)格的限制,此格式對(duì)中國的芯片廠商比較友好。”O(jiān)mdia首席分析師蘇廉節(jié)告訴記者。“相比之下,海外的廠商是直接采用標(biāo)準(zhǔn)的FP,如E3M4或E5M2等。”
為“中國AI+”而生
那么“UE8M0 FP8”為何適用于國產(chǎn)芯片?
毫無疑問,受制于技術(shù)積淀時(shí)間較短,而基于中國標(biāo)準(zhǔn)的算力生態(tài)建設(shè)還需完善,因此,國產(chǎn)算力硬件在制程、速率、電耗等標(biāo)準(zhǔn)上存在較大的提升空間。
而采用“UE8M0 FP8”格式深度適配國產(chǎn)芯片,并不僅僅是一項(xiàng)技術(shù)上的選擇,更是基于國產(chǎn)芯片的發(fā)展現(xiàn)狀、實(shí)際產(chǎn)業(yè)需求以及特定應(yīng)用場(chǎng)景所共同推動(dòng)的結(jié)果。本質(zhì)上是一次用算法創(chuàng)新彌補(bǔ)硬件短板,用生態(tài)協(xié)同構(gòu)建自主路線的戰(zhàn)略考量。
比如,國產(chǎn)芯片在先進(jìn)制程(如7nm及以下)的制造和封裝技術(shù)上與國際頂尖水平存在差距,直接影響了芯片的算力密度。主流的矩陣乘法和卷積等編碼方式需要耗費(fèi)極大算力以保留精度,而UE8M0的純指數(shù)編碼格式,將計(jì)算簡(jiǎn)化為指數(shù)移位和加法操作,大幅降低了大量算力負(fù)荷。
與此同時(shí),長期以來AI領(lǐng)域由英偉達(dá)CUDA生態(tài)主導(dǎo),導(dǎo)致國產(chǎn)芯片往往需要兼容CUDA,且難以充分發(fā)揮自身硬件特性,也很難開拓性地建立自己的生態(tài)系統(tǒng)。
而“UE8M0”作為一種更加開源、未被單一廠商綁定的格式,可能成為國產(chǎn)芯片重建生態(tài)體系的關(guān)鍵。
無獨(dú)有偶,雖然未來“UE8M0 FP8”仍然會(huì)基于混合精度模式驅(qū)動(dòng)語言類大模型應(yīng)用,但是廣義的人工智能又絕非“大語言模型”這么簡(jiǎn)單。比如,在今年年初DeepSeekV2問世之后,不僅人們?cè)谏钪虚_始處處使用大語言模型交互,而且更多的企事業(yè)單位也對(duì)DeepSeek進(jìn)行本地化、私有化部署,并通過語料后訓(xùn)練等用于各種專用用途。
事實(shí)上,除大語言模型之外,明確定義的專用用途AI大模型更需具備大量程、高穩(wěn)定、高效率的算力特點(diǎn)。
比如,常被應(yīng)用于自動(dòng)駕駛和人形機(jī)器人具身智能的多模態(tài)VLA模型,滿足高效計(jì)算、大內(nèi)存帶寬和極大動(dòng)態(tài)范圍的需求,特別是在處理多模態(tài)、大規(guī)模數(shù)據(jù)且部署在計(jì)算資源受限的邊緣設(shè)備時(shí),優(yōu)勢(shì)明顯;而在工業(yè)質(zhì)檢、政務(wù)文檔處理等場(chǎng)景,往往需要低延遲、高準(zhǔn)確率的AI模型,并且對(duì)成本敏感。
簡(jiǎn)而言之,在明確定義的專用場(chǎng)景之中,“UE8M0 FP8”能夠發(fā)揮其高效、穩(wěn)定的特點(diǎn),在配合混合參數(shù)精度的情況下,很可能是更適合“中國速度”,以及千行百業(yè)“AI+”的參數(shù)格式。
留意“不確定性”
當(dāng)然,這個(gè)“UE8M0”背后仍然蘊(yùn)藏著不確定性,如人形機(jī)器人精確操作依賴高精度的VLA架構(gòu),如原生的中文大語言模型,也需要高精度來顯得更為“智慧”。
8月以來,隨著DeepSeekV3.1的發(fā)布,AI芯片企業(yè)寒武紀(jì)股價(jià)8月漲幅高達(dá)110%。
資料顯示,寒武紀(jì)的算力芯片思元590及可能于未來發(fā)布的690系列芯片均原生支持FP8計(jì)算,而沐曦、燧原等國產(chǎn)AI芯片廠商也均表態(tài)其適配FP8計(jì)算。
8月末,阿里巴巴公司也宣稱,其即將推出自研的AI算力芯片,并且會(huì)適配英偉達(dá)的CUDA生態(tài),但未明確其是否適配FP8參數(shù)格式。
那么,DeepSeek所預(yù)言的下一代FP8芯片究竟歸屬哪家?21世紀(jì)經(jīng)濟(jì)報(bào)道記者咨詢多位業(yè)內(nèi)人士之后,仍未獲得進(jìn)一步的信息。記者獲得的絕大部分說法是:各家均沒有明確的跡象,顯示其使用了“UE8M0 FP8”混合參數(shù)模型。
“我認(rèn)為這是DeepSeek在向國產(chǎn)芯片行業(yè)提出自己的標(biāo)準(zhǔn),”另一位中資全球化數(shù)字科技企業(yè)高管告訴記者:“這一邏輯的根源是,DeepSeek已經(jīng)在中國獲得了絕對(duì)的行業(yè)地位和市占率,因此它有能力讓芯片廠商根據(jù)自己的生態(tài)系統(tǒng)去定義芯片設(shè)計(jì)。”
這位不具名高管還向記者透露,雖然國產(chǎn)芯片對(duì)英偉達(dá)Hooper架構(gòu)系列芯片的追趕已初見成效,如寒武紀(jì)等公司宣稱其新品能力在專用場(chǎng)景下的能力達(dá)到H100的80%,但隨著英偉達(dá)Blackwell系列芯片的推出(其甚至采用了FP4的混合精度架構(gòu)),以及特供中國B30a系列芯片的發(fā)貨,國產(chǎn)芯片追趕國際一流芯片能力上仍有較長的路要走。
不過,多數(shù)受訪專家認(rèn)為,國內(nèi)企業(yè)芯片最終將獲得成功,這需要仰賴其性能具備充分競(jìng)爭(zhēng)優(yōu)勢(shì)。