開(kāi)欄語(yǔ)


當(dāng)人工智能的浪潮席卷全球,北京正以科技創(chuàng)新之姿,成為AI大模型領(lǐng)域的戰(zhàn)略高地。從智源的“悟道”大模型問(wèn)世,到“天使投資人”模式孵化原創(chuàng)成果,再到月之暗面、智譜等人工智能獨(dú)角獸崛起,這座城市不僅匯聚了前沿技術(shù),更以開(kāi)放生態(tài)孕育突破性成果。


如今,北京正積極打造“全球開(kāi)源之都”,一大批研發(fā)機(jī)構(gòu)、企業(yè)積極擁抱開(kāi)源,而開(kāi)源也已深入到汽車、機(jī)器人等眾多行業(yè)。發(fā)展AI將是一場(chǎng)科技長(zhǎng)征,在北京市科委、中關(guān)村管委會(huì)的支持下,新京報(bào)AI研究院推出“AI浪潮錄”系列專欄,深度訪談此次AI浪潮的親歷者與見(jiàn)證人,講述AI競(jìng)爭(zhēng)新格局與背后的故事。



北京智源人工智能研究院理事長(zhǎng)黃鐵軍。受訪者供圖


成府路150號(hào),是一棟現(xiàn)代與歷史巧妙融合的7層建筑,紅磚幕墻外觀富有濃濃的學(xué)院氣息,屋頂花園和大玻璃窗設(shè)計(jì)則讓建筑更有科技范兒。這里曾是一座破舊廠樓,經(jīng)過(guò)設(shè)計(jì)師巧妙改造,現(xiàn)如今成了中國(guó)AI發(fā)展的策源地之一。


坐落于此的北京智源人工智能研究院(下稱“智源”)緊鄰清華大學(xué),并與北京大學(xué)相望,天然資源優(yōu)勢(shì)催化下智源悄然成了中國(guó)大模型的“黃埔軍?!保浩吣陼r(shí)間,孵化了約20家AI創(chuàng)業(yè)公司。智譜唐杰、月之暗面楊植麟、面壁劉知遠(yuǎn)……不少知名AI公司的創(chuàng)始人都曾在智源從事研究。


北京智源人工智能研究院理事長(zhǎng)黃鐵軍經(jīng)常騎車往返于北大和智源之間,從1995年開(kāi)始從事人工智能研究,他親歷了近30年AI發(fā)展的技術(shù)浪潮。2018年11月,擔(dān)任北京大學(xué)計(jì)算機(jī)系主任的黃鐵軍參與創(chuàng)立了北京智源人工智能研究院并擔(dān)任首任院長(zhǎng),28個(gè)月后,智源發(fā)布了超大規(guī)模信息智能模型“悟道1.0”,填補(bǔ)了中國(guó)大模型的空缺。


黃鐵軍當(dāng)時(shí)表示,人工智能發(fā)展已經(jīng)從“大煉模型”逐步邁向了“煉大模型”,這也是“大模型”一詞首次在中文互聯(lián)網(wǎng)上被人所熟知。當(dāng)ChatGPT出現(xiàn)并引發(fā)大模型熱潮時(shí),智源作為新型研發(fā)機(jī)構(gòu)已經(jīng)在前沿領(lǐng)域默默耕耘了四年。


黃鐵軍在接受新京報(bào)AI研究院專訪時(shí)表示,科學(xué)與技術(shù)不同,前者需要天才的靈感達(dá)成原始創(chuàng)新,后者則更需要物質(zhì)條件的支持與反復(fù)試錯(cuò)。而智源的任務(wù)是完成“從0到1”的創(chuàng)新,“做大學(xué)做不了,企業(yè)不愿做的”。他把智源定位為AI人才在北京發(fā)展的“第一站”,瞄準(zhǔn)成為國(guó)際頂尖的AI機(jī)構(gòu)?!叭绻枷肷喜灰I(lǐng),只做別人做過(guò)的東西,誰(shuí)會(huì)承認(rèn)北京是國(guó)際科技創(chuàng)新中心?讓科技中心轉(zhuǎn)移到中國(guó),人才密度大的北京責(zé)無(wú)旁貸?!?/p>


迭代·模型是技術(shù)不是一門(mén)科學(xué)


新京報(bào)AI研究院:作為研究人工智能多年的專家,如何看待AI大語(yǔ)言模型技術(shù)在近些年的迅猛發(fā)展?


黃鐵軍:首先我必須強(qiáng)調(diào),人工智能大語(yǔ)言模型是一項(xiàng)技術(shù),并不是一門(mén)科學(xué)。


科學(xué)要研究出原理、公式,而技術(shù)需要依靠不斷嘗試探索、優(yōu)化改進(jìn);科學(xué)的基本原理靠個(gè)人也可以突破,比如牛頓和愛(ài)因斯坦,但技術(shù)實(shí)現(xiàn)必須有方案方法和路線工藝;科學(xué)要回答“為什么”的問(wèn)題,而技術(shù)解決“怎么做”的問(wèn)題。舉例來(lái)說(shuō),指南針就是一項(xiàng)技術(shù)發(fā)明,但要明白指南針的原理,需要理解地球磁場(chǎng)的概念。


回到人工智能也是一樣,我們有技術(shù)能力做出大模型、做出智能系統(tǒng),但大模型為什么表現(xiàn)得如此優(yōu)秀?沒(méi)有任何科學(xué)家解釋得了。大模型作為人類最新的技術(shù)進(jìn)展,正變得越來(lái)越智能、成本越來(lái)越低,這是技術(shù)和工藝不斷改進(jìn)的結(jié)果。


從2018年到2022年,大模型實(shí)現(xiàn)了一個(gè)又一個(gè)版本的迭代,智能逐漸增強(qiáng),這是技術(shù)角度上的進(jìn)步。OpenAI和智源所做的都是“從1到10”,但大模型的“從0到1”,則要追溯到Y(jié)oshua Bengio(約書(shū)亞·本吉奧)在2000年和2003年發(fā)表關(guān)于使用神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)下一個(gè)token(詞元)以訓(xùn)練模型的文章,那時(shí)模型規(guī)模不夠大、算力有限、數(shù)據(jù)不足,所以智能不顯著,一直沒(méi)引起太多的關(guān)注。


2018年之后,上述幾項(xiàng)條件逐漸成熟,因此有團(tuán)隊(duì)顯化了智能,就像發(fā)明了指南針。到2022年和2023年,我們已經(jīng)基本可以判斷大模型“有智能”,雖然有時(shí)它仍然存在幻覺(jué),但大多數(shù)時(shí)候還“挺像那么回事”,目前我們就處在這樣的階段。


新京報(bào)AI研究院:“從0到1”的創(chuàng)新需要什么條件,當(dāng)前DeepSeek等國(guó)內(nèi)大模型公司在進(jìn)行怎樣的創(chuàng)新?


黃鐵軍:包括DeepSeek在內(nèi)的許多大模型公司所做的工作,實(shí)際上更多的是“從10到100”,即讓大模型智能更強(qiáng)、成本更低。由于不存在確定路徑,工藝積累只能通過(guò)不斷試錯(cuò)進(jìn)行,許多企業(yè)遇到的“卡脖子”技術(shù)大多屬于這一類。DeepSeek擁有很多算力,這就給了它試錯(cuò)所必需的物質(zhì)條件,雖然DeepSeek公布的模型訓(xùn)練成本很低,但如果加上試錯(cuò)成本,其投入也不會(huì)小。


對(duì)于科技發(fā)展,“從10到100”的創(chuàng)新需要足夠多的資本,單靠國(guó)家支持是不夠的。但“從0到1”的創(chuàng)新,公共性資金就可以支持,但此時(shí)不要去問(wèn)科研人員“你怎么創(chuàng)新?”,他本人可能還沒(méi)想明白,我們此時(shí)能做的就是給這些有可能產(chǎn)生靈感的人穩(wěn)定的支持、基本的生活保障,讓他們“慢慢想”。


創(chuàng)新·放手做事自由之外也有紅線


新京報(bào)AI研究院:據(jù)說(shuō)DeepSeek團(tuán)隊(duì)中不少人是北京大學(xué)的學(xué)生,DeepSeek和智源是否有過(guò)接觸?


黃鐵軍:深度求索公司(DeepSeek)在2023年7月成立后,就跟智源進(jìn)行了接觸。我們也愿意和他們合作,智源跟中外所有企業(yè)、研發(fā)機(jī)構(gòu)都持開(kāi)放合作態(tài)度。


DeepSeek對(duì)我們比較有吸引力的點(diǎn),在于其擁有較強(qiáng)的算力。DeepSeek的成功說(shuō)明創(chuàng)新需要各種條件,缺一不可,算力就是其中之一。


DeepSeek成立時(shí)的第一處辦公室在蘇州橋,緊鄰北大西南門(mén),離北大計(jì)算機(jī)學(xué)院不遠(yuǎn),我們多媒體實(shí)驗(yàn)室的很多學(xué)生都到DeepSeek實(shí)習(xí)過(guò),并發(fā)表了很多學(xué)術(shù)論文。DeepSeek的北京團(tuán)隊(duì)中的關(guān)鍵崗位算法崗,北大計(jì)算機(jī)學(xué)院的學(xué)生占據(jù)了一半。充沛的算力也保證了研究條件,他們做的創(chuàng)新解法也成就了DeepSeek。這是好事,不管人才在杭州還是在北京,都為中國(guó)AI創(chuàng)新發(fā)展作出了貢獻(xiàn)。


新京報(bào)AI研究院:智源是在什么背景下成立的?


黃鐵軍:2017年,國(guó)家新一代人工智能發(fā)展規(guī)劃發(fā)布,2018年,北京市政府一號(hào)文件中提及了“建設(shè)世界一流新型研發(fā)機(jī)構(gòu)”,而人工智能是重要的方向,智源就是在這樣的背景下誕生的。


“智源”這個(gè)名字最早由第一任理事長(zhǎng)張宏江提出,希望我們成為“人工智能的源頭”。智源選址的位置方便周邊幾家機(jī)構(gòu),讓清華、北大、中國(guó)科學(xué)院的老師同學(xué)們能夠步行或騎自行車通勤,我有時(shí)也騎自行車往返北大,這樣大家交流起來(lái)更加方便。出于便利的角度,張鈸院士就在這里工作和接待來(lái)訪者。


新京報(bào)AI研究院:作為智源的首任院長(zhǎng)和現(xiàn)任理事長(zhǎng),智源這樣的新型研發(fā)機(jī)構(gòu)有何優(yōu)勢(shì)?


黃鐵軍:作為首任院長(zhǎng),我的工作包括確定智源的大致戰(zhàn)略和發(fā)展方向,以及牽頭準(zhǔn)備論證報(bào)告等材料。


我在體制內(nèi)多年,既申請(qǐng)過(guò)各類科技項(xiàng)目,也從事管理工作,對(duì)傳統(tǒng)科研體制的優(yōu)缺點(diǎn)心知肚明,當(dāng)北京出現(xiàn)了新型研發(fā)機(jī)構(gòu)、新管理體制,我也很愿意參與。智源風(fēng)氣自由,但自由度之外也有紅線。


實(shí)際上,智源同時(shí)做到了“資源支持”和“讓團(tuán)隊(duì)放手做事”。沒(méi)有支持、沒(méi)有資源,很多研究無(wú)法進(jìn)行。但管理上干預(yù)過(guò)多也會(huì)帶來(lái)麻煩,如果科研人員一半的時(shí)間用在了管理上,創(chuàng)新也就只剩下了一半時(shí)間。


制度越織越密、管理越來(lái)越細(xì)致在某種程度上并不利于科技創(chuàng)新,這是因?yàn)榭萍紕?chuàng)新是動(dòng)態(tài)變化的,跟建樓、修橋不同,存在不確定性。做不到提前半年、一年就知道之后的路怎么走,需要自己摸索。


計(jì)劃內(nèi)的創(chuàng)新首先要有人想到,但機(jī)會(huì)不是擺在大街上的,而是在細(xì)微之處,即便專業(yè)技術(shù)人員也不一定能創(chuàng)新,從事管理的領(lǐng)導(dǎo)想創(chuàng)新就更難。而智源作為北京新型研發(fā)機(jī)構(gòu),最大的創(chuàng)新就是破除項(xiàng)目立項(xiàng)制度以及繁瑣的管理流程,將方向和過(guò)程的管理完全交給各個(gè)院系自己決定。


拔尖·不拘一格招人才


新京報(bào)AI研究院:作為從事大模型研究最早的機(jī)構(gòu),智源將邁入第十個(gè)年頭,未來(lái)發(fā)展有何目標(biāo)?


黃鐵軍:2028年11月,智源成立就滿10年了。目前,智源正在向10年的目標(biāo)邁進(jìn)——成為國(guó)際頂尖的人工智能機(jī)構(gòu)。我們理解和定義的“頂尖”,是指國(guó)際前三,而其基本標(biāo)志是一定要有國(guó)際公認(rèn)的對(duì)人工智能發(fā)展具有重大影響的標(biāo)志性成果。如2016年DeepMind推出AlphaGo擊敗了人類職業(yè)圍棋選手,2022年OpenAI推出ChatGPT引領(lǐng)了大模型浪潮。因此,它們是大家公認(rèn)的頂尖的AI機(jī)構(gòu),而我們要做出不同。


我們是國(guó)內(nèi)從事大模型研究最早的機(jī)構(gòu),也對(duì)生態(tài)作出了重大貢獻(xiàn),但這和國(guó)際頂尖機(jī)構(gòu)做出的貢獻(xiàn)相比還不夠。我們現(xiàn)在的目標(biāo)是在2028年之前做出1到3項(xiàng)頂尖成果。


新京報(bào)AI研究院:北京有許多新型研發(fā)機(jī)構(gòu),智源和其他機(jī)構(gòu)有什么不同?


黃鐵軍:智源和其他研發(fā)機(jī)構(gòu)的關(guān)系,并不是“N+1”,而是“1+N”,有了這個(gè)“1”之后,讓這些“N”能夠互相打通。在AI領(lǐng)域,有了智源后,高校教授們可以不再各自為政走申請(qǐng)立項(xiàng)、發(fā)指南、進(jìn)行評(píng)審程序的“老路”。智源成立后不久,就起到了平臺(tái)作用,聚集了AI領(lǐng)域的學(xué)者們,在經(jīng)歷了約一年的討論之后,立即開(kāi)始了大模型領(lǐng)域的研發(fā)工作。


智源匯聚了國(guó)內(nèi)主要AI人才,在我們的社區(qū)里,幾乎每天都有大大小小的討論會(huì),平均每年兩三百場(chǎng)。在思想碰撞中,對(duì)于有價(jià)值的想法,我們會(huì)立刻動(dòng)手去做。當(dāng)然,由于資源有限,投入較大的想法需要在院務(wù)會(huì)上深入討論。而對(duì)于一些年輕人提出的并不耗費(fèi)過(guò)多資源的想法,如果一段時(shí)間之后得不到驗(yàn)證,我們也不再擴(kuò)大支持。


在人才規(guī)模大、密度高的北京,智源提供了讓人才相互交流、快速行動(dòng)的創(chuàng)新生態(tài)環(huán)境。當(dāng)一個(gè)想法大學(xué)做不了、企業(yè)不愿做,就到智源這樣的新研發(fā)機(jī)構(gòu)來(lái)。


智源是AI生態(tài)的一個(gè)窗口,是AI人才在北京發(fā)展的“第一站”。當(dāng)一名國(guó)外歸來(lái)的人才去高校發(fā)展,就要按照高校的程序進(jìn)行申請(qǐng),如果當(dāng)助理教授,需要至少半年到一年的人事周期才有可能批準(zhǔn),到企業(yè)則需要做企業(yè)產(chǎn)品。此時(shí),智源靈活度高的優(yōu)勢(shì)就顯現(xiàn)出來(lái)了,這也是北京市給我們的任務(wù):不拘一格招攬人才,人才在這只待三個(gè)月也行,未來(lái)無(wú)論想創(chuàng)業(yè)還是想當(dāng)教授都可以。同時(shí),我們對(duì)在這里研發(fā)的技術(shù)成果不追求高額利潤(rùn),對(duì)成果轉(zhuǎn)化持開(kāi)放的態(tài)度。


簡(jiǎn)而言之,智源負(fù)責(zé)把北京的人工智能做到世界領(lǐng)先,至于選擇什么技術(shù)路線、招哪些人、過(guò)程中遭遇哪些困難,需要自己解決。


新京報(bào)AI研究院:不少?gòu)闹窃醋叱鰜?lái)的人都創(chuàng)立了自己的公司,智源有意成為AI企業(yè)的“孵化器”嗎?


黃鐵軍:從智源走出去的人才,最后成立初創(chuàng)公司的大概有20個(gè)。不過(guò),智源的定位是國(guó)際頂尖AI研究機(jī)構(gòu),創(chuàng)業(yè)是副產(chǎn)品,如果一開(kāi)始是沖著創(chuàng)業(yè)和孵化的目的發(fā)展,我們的性質(zhì)就發(fā)生了變化。成為世界頂尖機(jī)構(gòu)不是靠創(chuàng)業(yè),我們現(xiàn)在從事的科研活動(dòng),有些暫時(shí)看不出未來(lái)有多大可能性變成產(chǎn)品,但不這么做就不能推動(dòng)前沿技術(shù)發(fā)展。


我們相信這些工作一定會(huì)以某種方式在未來(lái)發(fā)揮作用,一開(kāi)始做研究時(shí)卻不能這樣算賬,我們只能是做別人沒(méi)做過(guò)的事,做創(chuàng)新機(jī)構(gòu)要做的事。和DeepSeek等大模型企業(yè)可能不同,我們應(yīng)該是前沿,智源的成功應(yīng)該是“從0到1”的成功。


新京報(bào)AI研究院:北京在科技創(chuàng)新上發(fā)揮什么作用?


黃鐵軍:當(dāng)前,無(wú)論是智源還是字節(jié)、DeepSeek,其實(shí)都是在“從1到10”“從10到100”的過(guò)程中,一群人在不斷摸索更強(qiáng)模型、更低成本模型的過(guò)程。在此過(guò)程中,哪里人才密集度夠高,創(chuàng)新就在哪里發(fā)生。資金問(wèn)題可以通過(guò)各種方式解決,但人才密度的分布是天然的,北京的人才密度從國(guó)際范圍來(lái)看都是足夠高的,所以可以預(yù)期,未來(lái)北京會(huì)發(fā)生更多的創(chuàng)新。


智源要做國(guó)際頂尖的AI機(jī)構(gòu),北京要做國(guó)際科技創(chuàng)新中心,要想科技中心轉(zhuǎn)移到中國(guó),人才密度大的北京責(zé)無(wú)旁貸。


記者聯(lián)系郵箱:luoyidan@xjbnews.com


新京報(bào)貝殼財(cái)經(jīng)記者 羅亦丹


編輯 王進(jìn)雨


校對(duì) 柳寶慶