圖說:記者在采訪中了解到,“K2”這一名字由楊植麟所取。同時,K2也是喬戈里峰的名字,喬戈里峰被稱為攀登難度最大的山峰。


最近兩周以來,Kimi K2成為了最受國際關(guān)注的國產(chǎn)開源大模型,其不僅登頂全球開源模型榜單,在全球開發(fā)者社區(qū)引發(fā)轟動,還被《自然》雜志網(wǎng)站評價為世界迎來“又一個DeepSeek時刻”,大有在4個月后“接棒”DeepSeek之勢。


值得注意的是,兩家公司在地理上的距離也并不遠(yuǎn),均位于北京市海淀區(qū):從DeepSeek北京總部所在的融科資訊中心向南步行1.4公里,就可以抵達(dá)Kimi所在的京東科技大廈。


事實上,2024年以來,Kimi曾歷經(jīng)和豆包在“投流”領(lǐng)域的競爭,以及兩次和DeepSeek發(fā)布“撞車”。面對陡然加大的競爭壓力和市場環(huán)境的劇烈變化,這家“清華系”公司堅持住了自己的初心,并通過K2的發(fā)布證明了自己的實力。


Kimi發(fā)布K2大模型之前經(jīng)歷了哪些故事?新京報貝殼財經(jīng)記者對北京月之暗面科技有限公司進(jìn)行了探訪。


重回基礎(chǔ)研發(fā)軌道 Kimi感謝DeepSeek


“從研究者的角度,我其實非常感謝DeepSeek,它的出現(xiàn)對我們是一件好事,讓我們更加能夠以長期主義視角看待實現(xiàn)AGI的夢想。”Kimi研究人員杜羽倫在接受記者采訪時表示。


此前,Kimi1.5的發(fā)布日期曾和DeepSeek-R1“撞車”。對此,杜羽倫反思認(rèn)為Kimi1.5的反響不如deeps-R1熱烈,一部分原因是Kimi方面沒有進(jìn)行開源,另外參數(shù)規(guī)模比較小,技術(shù)上也沒有強(qiáng)調(diào)計算效率,“接下來我們并沒有‘一拍腦袋’把強(qiáng)化學(xué)習(xí)干到底,反而更加注重第一性原理,即先把基座模型做好,所以我們在3到4個月的時間里沒有發(fā)布任何模型,也拒絕了搶發(fā)模型的誘惑,而做了一件更長期的事?!?/p>


貝殼財經(jīng)記者注意到,“第一性原理”也是英偉達(dá)創(chuàng)始人黃仁勛經(jīng)常掛在嘴邊的詞語,前不久黃仁勛在北京參加鏈博會期間,也稱贊了DeepSeek和Kimi在開源領(lǐng)域取得的成功。這一原理的核心在于回歸事物本源,而在大模型領(lǐng)域,這就是基礎(chǔ)模型。


事實上,貝殼財經(jīng)記者曾在今年3月,DeepSeek火爆之后不久這一時間節(jié)點(diǎn)上探訪過Kimi。一名曾在數(shù)據(jù)公司工作,后跳槽到Kimi的員工告訴記者,“AI行業(yè)迭代速度遠(yuǎn)超傳統(tǒng)領(lǐng)域,現(xiàn)在每周都有重大技術(shù)突破,比如我們和DeepSeek曾兩次在同一天發(fā)布相似論文。在這類競爭壓力下,如果研發(fā)進(jìn)度落后,技術(shù)優(yōu)勢可能瞬間消失,一旦晚推出,就必須有更顯著的提升才有意義。”


但歷經(jīng)DeepSeek沖擊后,Kimi公司內(nèi)部卻反而有了一股“解脫”感?!爸霸S多技術(shù)人員的腦子會被產(chǎn)品帶著走,需要分出部分精力給用戶反饋的問題‘打補(bǔ)丁’、關(guān)注DAU(日活躍用戶數(shù)量),這在讓產(chǎn)品變好的同時,也或多或少影響了底層技術(shù)的開發(fā)。DeepSeek的出現(xiàn)讓我們回歸到了本來就擅長的技術(shù)領(lǐng)域,現(xiàn)在我們集中資源研發(fā)下一代模型,就像蒸汽機(jī)發(fā)明初期,重點(diǎn)在于核心技術(shù)創(chuàng)新而非局部優(yōu)化?!边@名員工對貝殼財經(jīng)記者表示。


顯然,從當(dāng)前的國際反響上來看,Kimi找到了適合自己的路,被譽(yù)為“AI搜索神器”,有望接替Google的美國知名創(chuàng)業(yè)公司Perplexity首席執(zhí)行官阿拉溫德·斯里尼瓦斯表示Kimi模型在“內(nèi)部測試中表現(xiàn)卓越”,是一個“不可思議的模型”,該公司將會利用K2來進(jìn)行訓(xùn)練,而上一個被他們拿來訓(xùn)練的模型是DeepSeek- R1。其表現(xiàn)還征服了致力于大模型生態(tài)社區(qū)建設(shè)的公司Hugging Face。公司聯(lián)合創(chuàng)始人托馬斯·沃爾夫評價Kimi模型“簡直令人震驚……月之暗面團(tuán)隊在過去幾個月里推出了一系列令人印象深刻的模型,我們很可能會在新聞中頻繁看到這些名字?!?/p>


當(dāng)大模型用鋼琴彈奏卡農(nóng) 下一版本的模型會變得更強(qiáng)


獲得國際上的“一致好評”后,Kimi還公布了官方技術(shù)報告,進(jìn)一步把開源進(jìn)行到底。作為北京的大模型公司,這也和北京“建設(shè)開源之都”的理念不謀而合。


事實上,DeepSeek開源技術(shù)細(xì)節(jié)后,Kimi K2也繼承了DeepSeek-V3的架構(gòu)。Kimi團(tuán)隊成員劉少偉表示,K2在DeepSeek-V3的基礎(chǔ)上進(jìn)行增加專家數(shù)量、減少注意力頭數(shù)量等調(diào)整,最終實現(xiàn)了較強(qiáng)的性能。K2模型架構(gòu)一共包含384個專家,每層激活其中8個,通過這種高度稀疏的設(shè)計在保證性能的同時優(yōu)化計算效率。


根據(jù)Kimi團(tuán)隊公布的技術(shù)報告,K2采用了三大核心創(chuàng)新技術(shù):MuonClip優(yōu)化器,拋棄傳統(tǒng)的Adam優(yōu)化器,創(chuàng)新性地使用了Muon優(yōu)化器。結(jié)合Muon的token效率與QK-Clip的穩(wěn)定性,支持15.5萬億token無損失spike預(yù)訓(xùn)練;大規(guī)模Agentic Tool Use數(shù)據(jù)合成,構(gòu)建可大規(guī)模生成多輪工具使用場景的合成pipeline,覆蓋數(shù)百領(lǐng)域、數(shù)千工具;通用強(qiáng)化學(xué)習(xí)框架,結(jié)合可驗證獎勵(RLVR)和自我批判評估獎勵,將對齊從靜態(tài)擴(kuò)展到開放域。


得益于這些技術(shù)創(chuàng)新,K2在多項基準(zhǔn)性能測試中取得優(yōu)異表現(xiàn),展現(xiàn)出在自主編程、智能體工具調(diào)用和數(shù)學(xué)推理等方面的領(lǐng)先能力。根據(jù)其公布的測評結(jié)果,K2在自主編程、工具調(diào)用和數(shù)學(xué)推理三個維度的表現(xiàn)上,都超過了同為開源模型的DeepSeek-V3和阿里Qwen3。


Kimi K2項目組成員詹皓冰表示,K2的前端編程能力很強(qiáng),在3D、游戲、動畫制作等場景上,用簡單的指令和K2交互,就能得到很驚艷的效果。另一方面,智能體的工具調(diào)動能力也讓模型整體上有了很大提升。


貝殼財經(jīng)記者注意到,Kimi總部的門口擺放著一架鋼琴,上面擺放了搖滾樂隊Pink Floyd的專輯《The Dark Side of the Moon》(月之暗面)。據(jù)悉,月之暗面創(chuàng)始人楊植麟就因為這張專輯定下了公司的名稱。


圖說:Kimi總部的門口擺放著一架鋼琴,上面擺放了搖滾樂隊Pink Floyd的專輯《The Dark Side of the Moon》(月之暗面)。


詹皓冰告訴記者,在K2發(fā)布的前夜,公司員工們使用K2編寫了一個MCP工具,讓它去彈奏這架鋼琴,最終K2從“扒琴譜”開始,再學(xué)習(xí)如何通過代碼彈奏鋼琴,最終完整彈奏出了一曲《卡農(nóng)》,“這就像我們聽到AI說出的那句‘hello world’,大家很激動。當(dāng)時創(chuàng)始人在會議室談發(fā)布的事,看到我們在彈鋼琴,他特意過來看了鋼琴是怎么彈奏的,然后又回去忙?!?/p>


杜羽倫表示,貫徹第一性原理,做好基座模型這一長期戰(zhàn)略看來對團(tuán)隊非常有益,“我們既得到了技術(shù)突破,也得到了一個非常好的模型,并且這個模型目前還沒有經(jīng)過大規(guī)模的強(qiáng)化學(xué)習(xí),等我們在下一版經(jīng)過了大規(guī)模的強(qiáng)化學(xué)習(xí)之后,它的能力會變得更強(qiáng)?!?/p>


貝殼財經(jīng)記者在采訪中了解到,“K2”這一名字由楊植麟所取。同時,K2也是喬戈里峰的名字,喬戈里峰被稱為攀登難度最大的山峰,也許這就是楊植麟為Kimi下一代大模型取名“K2”背后的意義。


新京報貝殼財經(jīng)記者 羅亦丹

編輯 岳彩周

校對 柳寶慶