DeepSeek論文登國際學術期刊《自然》封面

內媒報道,DeepSeek(深度求索)團隊研發的DeepSeek-R1推理模型論文登上《自然》(Nature)封面,由梁文鋒擔任通訊作者。DeepSeek-R1成為首個通過同行評議的主流大語言模型,與今年1月未經評審的初版論文相比,新版內容有顯著改進。

在同行評議中,DeepSeek團隊根據意見,減少擬人化描述,補充模型訓練的技術細節,包括訓練資料類型和安全性考慮,並回應關於知識蒸餾的質疑。團隊否認使用OpenAI模型輸出進行訓練,強調DeepSeek-V3 Base的數據全來自互聯網,雖可能包含GPT-4生成內容,但並非有意為之,亦無專門蒸餾環節。

開源後,R1在Hugging Face下載量超1090萬次,成為全球最受歡迎的開源推理模型。DeepSeek首次公開R1訓練成本僅29.4萬美元,加上約600萬美元的基礎模型成本,仍遠低於OpenAI、Google等訓練AI的成本。

《自然》將該論文選為封面,標誌中國在大模型基礎研究領域的重大突破。該期刊指出,隨着AI技術普及,無法驗證的宣傳可能帶來風險,而同行評議有助抑制AI產業過度炒作,DeepSeek的做法為業界樹立了值得歡迎的先例。

知識庫:什麼是知識蒸餾?

知識蒸餾(knowledge distillation)是AI領域的一項模型訓練技術。該技術透過類似於教師—學生的方式,令規模較小、結構較為簡單的AI模型從已經經過充足訓練的大型、複雜模型身上學習其掌握的知識。

該技術可以讓小型簡單模型快速有效學習到大型複雜模型透過漫長訓練才能得到的結果,從而改善模型的效率、減少運算開銷,因此亦被稱為模型蒸餾(model distillation)。