新京報(bào)貝殼財(cái)經(jīng)訊(記者羅亦丹)12月26日晚間,杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司推出全新系列模型DeepSeek-V3首個(gè)版本上線(xiàn)并同步開(kāi)源。相比其他“AI六小虎”公司,深度求索較為低調(diào),但DeepSeek模型由于其開(kāi)源特性,以及更小的訓(xùn)練成本、更低的花費(fèi)以及同樣優(yōu)越的性能,推出后在一天之內(nèi)就受到了國(guó)外行業(yè)專(zhuān)家們的廣泛贊譽(yù)。
12月27日,著名AI研究者、OpenAI創(chuàng)始成員之一的Andrej Karpathy評(píng)價(jià)DeepSeek-V3的表現(xiàn)時(shí)稱(chēng),“今天,一家中國(guó)AI公司輕而易舉地發(fā)布了一個(gè)前沿大語(yǔ)言模型,其僅使用2048塊GPU訓(xùn)練了2個(gè)月,只花費(fèi)了近600萬(wàn)美元。而作為參考,這種級(jí)別的能力本應(yīng)該需要接近1.6萬(wàn)塊的GPU集群,而目前正在部署的集群包含的GPU數(shù)量卻接近10萬(wàn)塊。例如,Llama 3405B模型使用了3080萬(wàn)GPU/小時(shí),而DeepSeek-V3模型看起來(lái)更加強(qiáng)大,卻僅使用了280萬(wàn)GPU/小時(shí)(計(jì)算量減少了約11倍)。如果此模型還能通過(guò)各項(xiàng)評(píng)估,那么這將是資源受限條件下研究與工程能力的高度令人印象深刻的展示?!?/p>
根據(jù)深度求索官方公布的信息,DeepSeek-V3 多項(xiàng)評(píng)測(cè)成績(jī)超越了Qwen2.5-72B和 Llama-3.1-405B等其他開(kāi)源模型,并在性能上和世界頂尖的閉源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。
此外,通過(guò)算法和工程上的創(chuàng)新,DeepSeek-V3 的生成吐字速度從20TPS大幅提高至60TPS,相比V2.5模型實(shí)現(xiàn)了3倍提升。定價(jià)方面,該公司的模型API服務(wù)定價(jià)為每百萬(wàn)輸入tokens 0.5元(緩存命中)/ 2元(緩存未命中),每百萬(wàn)輸出tokens 8元。
DeepSeek-V3的生成吐字速度展示 官方公號(hào)展示圖片
編輯 陳莉 校對(duì) 盧茜