DeepSeek論文登國際學術期刊《自然》封面

內媒報道,DeepSeek(深度求索)團隊研發的DeepSeek-R1推理模型論文登上《自然》(Nature)封面,由梁文鋒擔任通訊作者。DeepSeek-R1成為首個通過同行評議的主流大語言模型,與今年1月未經評審的初版論文相比,新版內容有顯著改進。

在同行評議中,DeepSeek團隊根據意見,減少擬人化描述,補充模型訓練的技術細節,包括訓練資料類型和安全性考慮,並回應關於知識蒸餾的質疑。團隊否認使用OpenAI模型輸出進行訓練,強調DeepSeek-V3 Base的數據全來自互聯網,雖可能包含GPT-4生成內容,但並非有意為之,亦無專門蒸餾環節。

開源後,R1在Hugging Face下載量超1090萬次,成為全球最受歡迎的開源推理模型。DeepSeek首次公開R1訓練成本僅29.4萬美元,加上約600萬美元的基礎模型成本,仍遠低於OpenAI、Google等訓練AI的成本。

《自然》將該論文選為封面,標誌中國在大模型基礎研究領域的重大突破。該期刊指出,隨着AI技術普及,無法驗證的宣傳可能帶來風險,而同行評議有助抑制AI產業過度炒作,DeepSeek的做法為業界樹立了值得歡迎的先例。

知識庫:什麼是知識蒸餾?

知識蒸餾(knowledge distillation)是AI領域的一項模型訓練技術。該技術透過類似於教師—學生的方式,令規模較小、結構較為簡單的AI模型從已經經過充足訓練的大型、複雜模型身上學習其掌握的知識。

該技術可以讓小型簡單模型快速有效學習到大型複雜模型透過漫長訓練才能得到的結果,從而改善模型的效率、減少運算開銷,因此亦被稱為模型蒸餾(model distillation)。

華為任正非、DeepSeek梁文鋒及宇樹王興興上榜 與黃仁勳馬斯克等齊名

美國《時代》雜誌公布「人工智能(AI)領域最具影響力100人」榜單,深度求索DeepSeek行政總裁梁文鋒、宇樹科技行政總裁王興興、華為創辦人任正非均入選上榜,列入在4大類別中的「領袖(Leaders)」類別,與芯片大廠英偉達(美:NVDA)創辦人黃仁勳、台積電TSMC(美:TSM)董事長魏哲家、xAI兼Tesla(美:TSLA)創辦人馬斯克、軟銀孫正義等人並列。

AI百大影響力人物分四大類別:「Leaders(領袖)」、「Innovators(創新者)」、「Shapers(塑造者)」和「Thinkers(思想家)」,涵蓋AI技術、產業及倫理等各領域的重要人物。

任正非「無懼轉型與創新」
《時代》評述梁文鋒時指,DeepSeek以600萬美元訓練成本受到關注,但實際未計入巨額算力與人才投入;R1發佈前已有Google(美:GOOG)旗下DeepMind推出類似且更低成本的模型,顯示AI開發成本持續下降。儘管如此,梁文鋒善於市場操作,成功帶動產業與資本市場氛圍。

對於任正非,《時代》開首就形容他「無懼轉型與創新」,帶領華為成為全球最具影響力的AI企業之一,儘管屢受美國嚴厲制裁,華為2024年營收依然超過1180億美元,按年增22.4%。

王興興方面,《時代》提到,宇樹科技雖春晚表演成名,而王興興更重視機器人在實際應用的價值,堅持簡單設計、提升耐用性。隨著AI技術進步,他強調未來機器人將能自主完成更多任務,AI與機器人發展密不可分。

台積電魏哲家展現靈活領導力
《時代》指出,隨美國加強對中國高端AI芯片出口限制,台積電在地緣政治中的關鍵性不斷上升,魏哲家展現靈活領導,巧妙平衡大國博弈下的台積電角色。

對於黃仁勳,《時代》認為他帶領英偉達成為AI晶片領域的焦點,也因供應鏈與國際情勢成為全球矚目人物。雖曾希望企業遠離政治,但隨著AI產業發展,黃仁勳積極參與國際事務,多次訪中並與美國領導人會晤,推動放寬對華芯片出口限制。

百大AI影響力人物還有其他亞裔面孔,包括自動駕駛公司小馬智行創始人彭軍,獲評為「創新者」;被譽為AI教母、史丹佛教授李飛飛,屬於「塑造者」。OpenAI模型行為負責人Joanne Jang、清華大學蘇世民書院院長薛瀾、記者郝珂靈則歸為「思想家」,史丹佛教授崔藝珍同樣名列榜中。

教宗良十四世被納入榜單
《時代》也將關注AI對人類社會影響、強調倫理風險的天主教教宗良十四世納入榜單,反映AI議題跨足科技、政治與倫理等多重層面。

捷克基於安全考慮 禁公共行政部門使用DeepSeek

捷克總理費亞拉(Petr Fiala)今天表示,出於資料安全方面的考量,捷克政府已禁止公共行政部門使用中國人工智慧(AI)新創公司深度求索(DeepSeek)的任何服務。

據路透社報導,費亞拉在現場直播記者會中表示:「政府決定禁止捷克公共行政部門使用DeepSeek所提供的AI產品、應用程式、解決方案、網頁和網路服務。」

費亞拉表示,DeepSeek身為一家中國公司,有義務與中國政府機構合作,這讓北京得以存取DeepSeek位於中國伺服器上的資料。

此前,包括德國、義大利和荷蘭等國家基於資料保護理由,也對DeepSeek實施各種限制。原因是憂慮公司將用戶個人數據,非法傳送到中國。

中方曾經強調,高度重視並依法保護數據私隱和安全,從來沒有、也不會要求企業或個人,違法採集或儲存數據,中方亦一貫反對泛化國家安全概念,以及將經貿科技問題政治化,將堅定維護中國企業合法權益。

美眾議院兩黨議員提案:政府機構禁用DeepSeek等中國AI

美國眾議院的民主共和兩黨議員提出法案,禁止美國政府機構使用中國開發的人工智能(AI)模型,包括深度求索(DeepSeek)。

法案同時針對俄羅斯、伊朗和北韓,要求聯邦採購安全委員會制定一份有關這些國家開發的AI模型清單,並定期更新。如果沒有美國國會或預算管理局的豁免,聯邦機構無法購買或使用這些AI技術。法案還包括一項條款,如果能證明有關技術不受外國敵對勢力控制或影響,就可以從名單上刪除。

有份提案的共和黨籍眾議院美中戰略競爭特別委員會主席穆勒納爾(John Moolenaar)發表聲明指,美國必須劃定明確界限,敵對AI系統不應該在美國政府內部運行。這項立法將建立永久防火牆,將敵對AI擋在美國最敏感的網絡之外,原因是入侵代價太高。

委員會又就確保美國的人工智能優勢舉行聽證會。穆勒納爾說,現正處於一場新冷戰,人工智能是核心的戰略技術,未來的權力平衡很可能取決於誰在人工智能領域處於領先地位。

按照美國立法程序,一部法案需要參眾兩院分別由全院通過文字一致的版本並由總統簽署,才能成為法律。

黃仁勳電話會議狂呻政策錯誤 500億美元市場幻滅 美國平台應吸納DeepSeek、通義千問 「美國就贏了」

Nvidia(美:NVDA;英偉達)公布2026財年首季業績,收入440.62億美元,超預期的433億美元,按年升69%,純利187.75億美元,升26%,經調整盈利198.94億美元,升31%,經調整每股盈利0.81美元。英偉達特別指出,撇除H20芯片及相關關稅影響,經調整每股盈利為0.96美元,超預期的0.93美元,但假如計入H20影響,則遜預期。每股現金股息0.01美元。

英偉達盤後升5%,報141.98美元。

H20銷售額46億美元 另有25億美元H20未能付運
英偉達指,2025年4月9日,公司收到美國政府通知,H20產品出口至中國市場需取得許可證,這些新要求導至H20產品庫存過剩和採購義務承擔了45億美元的費用,因為H20產品的需求下降。在新規出台前,H20於第一季的銷售額46億美元,而有額外的25億美元的H20芯片未能付運,若沒出口管制,該25億美元便可成為收入。

H20第二季少收80億美元
英偉達同時預計,第二季收入450億美元,因H20出口管制導至少收80億美元。預計Blackwell Ultra將於第二季開始發貨。

英偉達創始人兼行政總裁黃仁勳表示,中國是全球最大的AI市場之一,也是邁向全球成功的跳板。全球半數AI研究人員在中國,贏得中國市場的平台將有實力引領全球。

中國500億美元市場已成泡影 問題不在於中國是否有AI
「然而,今天,500億美元的中國市場實際上對美國產業關閉了。H20出口禁令終結了我們在中國的Hopper資料中心業務。我們無法再進一步降低Hopper以符合新規定。因此,我們正在對無法銷售或重新利用的庫存進行數十億美元的減記。我們正在探索有限的方式參與競爭,但Hopper已不再是選項。」

「中國的AI發展將在有或沒有美國芯片的情況下繼續推進。它需要算力來訓練和部署先進模型。問題不在於中國是否有AI——它已經有了。問題在於世界最大的AI市場之一,是否將運行在美國平台上。」

「讓中國芯片製造商避開美國競爭,只會增強它們在國外的實力,並削弱美國的地位。出口限制刺激了中國的創新和規模。」

將世界一半的AI人才推向競爭對手 美國領導地位岌岌可危
「AI競賽不僅關乎芯片,更關乎世界運行在哪個技術堆疊(指哪一組技術)之上。隨着這個堆疊擴展到包括6G和量子計算,美國的全球基礎設施領導地位岌岌可危。」

「美國的政策基於一個假設:中國無法製造AI芯片。這個假設一直值得懷疑,現在顯然是錯誤的。中國擁有巨大的製造能力。最終,贏得AI開發者的平台將贏得AI。出口管制應該強化美國平台,而不是將世界上一半的AI人才推向競爭對手。」

黃仁勳續指,中國的DeepSeek和阿里巴巴的Qwen(通義千問)屬於全球頂尖的開源AI模型。它們免費發布,已在美國、歐洲及其他地區獲得廣泛採用。DeepSeek R1,如同ChatGPT,引入了推理AI(reasoning AI),其思考時間愈長,給出的答案愈好。推理AI能夠進行逐步解決問題、規劃和工具使用,將模型轉變為智能體(intelligent agents)。

「推理是運算密集型的,每項任務需要的token(語言模型處理文本的基本單位)數量比之前的單次推理多出數百至數千倍。推理模型正在推動推論需求的階梯式激增。AI擴展法則依然穩固,不僅適用於訓練,現在也同樣適用於需要大規模運算的推理。」

「DeepSeek也凸顯了開源AI的戰略價值。當受歡迎的模型在美國平台上訓練和優化時,它會推動使用、反饋和持續改進,從而強化美國在整個技術堆疊的領導地位。」

美國平台必須保持成為首選平台
「美國平台必須保持作為開源AI的首選平台。這意味著要支持與全球頂尖開發者(包括中國的開發者)的合作。當像DeepSeek和Qwen這樣的模型在美國基礎設施上運行得最好時,美國就贏了。」

關於美國建廠,黃仁勳指,「特朗普總統概述了一個大膽的願景:將先進製造業遷回本土、創造就業機會並加強國家安全。未來的工廠將是高度電腦化和機器人化的。我們認同這一願景。」

台積電(TSMC)正在亞利桑那州建造六座晶圓廠和兩座先進封裝廠,為NVIDIA生產芯片。製程認證正在進行中,預計年底開始量產。矽品(SPIL)和艾克爾(Amkor)也在亞利桑那州投資,建設封裝、組裝和測試設施。在休斯頓,英偉達正與富士康合作,建造一座百萬平方英尺的工廠,用於建造AI超級電腦。緯創(Wistron)正在德克薩斯州沃斯堡(Fort Worth)建造一座類似的工廠。

一年內在美國本土生產
「為鼓勵和支持這些投資,我們已做出重大的長期採購承諾,這是對美國AI製造未來的一項深度投資。我們的目標是:從芯片到超級電腦,一年內在美國本土製造。每個GB200和NVLink 72機架包含120萬個元件,重近兩噸。以前從未有人製造過這種規模的超級電腦。我們的合作夥伴正在做出非凡的努力。」

黃仁勳指,主權AI是NVIDIA的一個新增長引擎。「現在每個國家都將AI視為下一次工業革命的核心——這是一個生產智慧,和為每個經濟體提供必要基礎設施的新產業。各國正競相建立國家AI平台,以提升其數位能力。在Computex上,我們宣布與富士康和台灣政府合作建立台灣首個AI工廠。上週,我在瑞典啟動了其首個國家AI基礎設施。日本、韓國、印度、加拿大、法國、英國、德國、義大利、西班牙等更多國家現在都在建設國家AI工廠,以賦能新創公司、產業和社會。」

財務總監:H20除了中國以外 難以散貨
英偉達財務總監Colette Kress表示,在上一屆政府批准下銷售H20,並已在市場上銷售超過一年,H20除了中國以外,並沒有市場,而且針對H20的新出口管制,並未提供寬限期讓公司消化庫存。

她指出,45億美元的費用低於最初預期,因為能夠重複使用某些材料。目前仍在評估有限的選項,以供應符合美國政府修訂後出口管制規定的資料中心運算產品。「失去近500億美元的中國AI加速器市場的准入權,將對我們未來的業務產生重大的不利影響,並使我們在中國及全球的外國競爭對手受益。」

Kress續指,數據中心收入增長73%,Blackwell貢獻了其中收入的近70%,Hopper的轉換已接近完成。GB200 NVL系統的推出是一項根本性的架構變革,旨在實現數據中心規模的工作負載,並達到最低的每推論 token(語言模型處理文本的基本單位)成本。GB200 NVL機架現已全面上市,供企業和主權客戶開發和部署AI。平均而言,主要超大規模雲端業者每週各自部署近1,000個NVL 72機架(即72,000個Blackwell GPU),並預計在本季度進一步提高產量。例如,微軟已部署了數萬個Blackwell GPU,預計將隨著OpenAI作為其關鍵客戶之一,擴展到數十萬個GB200。

Blackwell GB300預計本季量產
從GB200導入中獲得的關鍵經驗將確保順利過渡到公司產品路線圖的下一階段——Blackwell Ultra。GB300系統的樣品已於本月早些時候開始提供予主要雲端服務供應商處,預計量產出貨將於本季度晚些時候開始。

她指,GB300將利用與GB200相同的架構、相同的物理佔地面積以及相同的電氣和機械規格。GB300的即插即用設計,將使雲端企業能夠無縫轉換其用於GB200的系統和製作流程,同時保持高良率。配備多50% HBM的B300 GPU,與B200相比,將在密集FP4推理運算性能上再提高50%。

黃仁勳在業績報告中指出,具突破性的Blackwell NVL72 AI超級電腦——一台專為推理而設計的「思考機器」已全面投產,涵蓋系統製造商和雲服務供應商。全球對NVIDIA AI基礎設施的需求極為強勁。AI推理token(語言模型處理文本的基本單位)生成量在短短一年內激增十倍,隨著AI代理成為主流,對AI計算的需求將加速增長。世界各國正認識到AI是如同電力和互聯網一樣的基礎設施,而NVIDIA正處於這一深刻變革的中心。

英偉達表示,數據中心的AI芯片業務收入391億美元,按年升73%,季內已宣布在美國設廠,以生產AI超級電腦。同宣布與HUMAIN合作,在沙特阿拉伯建設AI工廠,推動下一波人工智能發展。阿聯酋揭幕Stargate UAE,與G42、OpenAI、Oracle、SoftBank Group和Cisco等戰略合作夥伴共同打造的下一代AI基礎設施集群。公司亦與富士康及台灣政府合作,計畫建設AI工廠超級電腦。同時宣佈在日本開設研究中心,擁有全球最大的量子研究超級電腦。

回應南韓對DeepSeek指控 京:從未要求企業違法採集數據

南韓個人情報保護委員會公布針對深度求索(DeepSeek)進行的實態調查,指DeepSeek擅自將南韓用戶情報移轉給國外業者,其中包括TikTok的母公司字節跳動(Bytedance)旗下公司。中國外交部表示,中國政府從來沒有也不會要求企業或個人以違法形式采集或存儲數據。

當被問及南韓稱DeepSeek未經同意將用戶數據傳輸至境外,在北京,外交部發言人郭嘉昆回應指,不了解具體情況,但強調中國政府高度重視並依法保護數據隱私和安全,從來沒有也不會要求企業或個人以違法形式采集或存儲數據。

郭嘉昆還表示,中方一貫反對泛化國家安全的概念,將經貿、科技問題政治化的做法,同時中方也將堅定維護中國企業的合法權益。

據南韓方面發表的「DeepSeek事前實態盤點結果」,DeepSeek自今年1月15日在南韓上架服務,至2月15日被暫停服務為止,將用戶資訊轉移給3家位於中國的業者及1家位於美國的業者,其中包括字節跳動旗下的火山引擎。

黃仁勳晚上見何立峰 外電:黃仁勳曾見DeepSeek梁文鋒 訪京時機不尋常

  • 黃仁勳應邀訪京
  • 指中國是英偉達非常重要的市場,希望將繼續與中國合作
  • 英偉達H20芯片出口中國需申請許可,被指未有向部分主要客戶預警

英偉達(Nvidia 美:NVDA)昨日證實美國政府限制其H20芯片對中國(包括香港及澳門)出口後,行政總裁黃仁勳應邀訪京。

新華社晚上報道,國務院副總理何立峰於4月17日晚,會見美國英偉達公司總裁兼首席執行官黃仁勳。何立峰表示,中國市場投資和消費潛力巨大,產業轉型升級加快推進,是新一輪科技革命和產業變革的最佳應用場景,始終是外資企業投資和貿易的沃土。歡迎包括英偉達公司在內的更多美資企業深耕中國市場,在中國盡展產業優勢和能力,進而在全球競爭中贏得先機。黃仁勳表示,看好中國經濟前景,願繼續深耕中國市場,為推動美中經貿合作發揮積極作用。

央視玉淵譚天微博其後發文,引述黃仁勳指,對於此前美政府新增的芯片對華出口限制,黃仁勳承認,該限制對英偉達造成很大影響,中國市場對英偉達的增長尤為關鍵。

玉淵譚天微博發文稱,4月17日,英偉達黃仁勳應中國貿促會邀請抵達北京。3個月前,黃仁勳曾在華表態稱要繼續與中國合作。

央視新聞中午指,中國貿促會會長任鴻斌在北京與黃仁勳舉行會談。黃仁勳在會談中表示,中國是英偉達非常重要的市場,希望將繼續與中國合作。

據外電部道,黃仁勳還會見了DeepSeek創始人梁文鋒會談,商討為中國客戶設計新芯片事宜。

由於黃仁勳大約一周前與特朗普晚餐,加上幾天前宣布5000億美元的美國投資、H20芯片受限制等,反映此行時機非比尋常。

紐約時報引述消息指,政府還在考慮實施處罰措施,以阻止DeepSeek購買美國技術,並且在討論禁止美國人使用它的服務。

報道指,美國眾議院評估英偉達是否向DeepSeek提供了開發人工智慧的關鍵技術,因而可能違反了美國法規。而特朗普政府亦計劃限制美國企業向不同國家出口AI芯片的數量。

此次訪京,黃仁勳未有身穿其標誌性的皮褸,而是改以西裝現身,格外引人注目。

英偉達股價隔晚大跌6.9%,收報104.49美元,夜盤最新回穩,升0.4%,報104.88美元。

另一方面,英偉達日前表示收到美國政府通知,向中國出口H20芯片「在可預見的未來」需要申請許可證。不過,路透引述知情人士透露,英偉達早於一星期前4月9日已獲悉美國新出口規則,卻沒有向部分主要客戶「預警」相關信息。

英偉達:嚴格遵守政府的指示
報道引述知情人士透露,中國主要的雲端運算公司仍預計H20芯片將於年底前交付,並未意識到即將實施的限制措施。消息人士又表示,英偉達的中國銷售團隊似乎也沒有在公開宣布之前接獲通知。

英偉達聲明中表示,其銷售地點遵守美國出口法:

美國政府指示美國企業可銷售的產品與銷售地點,我們嚴格遵守政府的指示。

H20是英偉達在內地合法銷售的「降級版」芯片,於2023年10月美國最新一輪出口限制生效後所推出。據透露,自今年初以來,英偉達已獲得價值180億美元的H20訂單。

浙江近30萬干部齊學AI 提升科技素養

DeepSeek「大本營」浙江日前啟動4個月左右的對全省干部的AI專題培訓。這是目前內地針對干部的最大規模AI培訓活動。此前,該專題培訓已完成兩期教學,授課的均是內地AI領域的大咖。

浙江的此次專題培訓開班於3月18日,全稱為「AI通識及應用網絡專題培訓」。開班第一課由中國工程院院士、之江實驗室主任、阿里雲創始人王堅講授,他以《從DeepSeek看全球AI發展趨勢》為題,全面分析了全球AI的發展趨勢、行業應用和產業生態。

3月27日第二課開講,此次課程聚焦AI產業應用,由阿里雲智能副總裁、中國信息化百人會執委、清華大學互聯網產業研究院顧問委員會委員安筱鵬講授《擁抱雲+AI定義的智能時代》。

據了解,培訓班採用「主課堂+分課堂」「線上+線下」的形式,在浙江省委黨校設主會場,各市委黨校設分會場,培訓對象為省委黨校春季學期主體班次學員、各市黨政領導班子成員和市委黨校春季學期主體班次學員。此外,還通過浙江領導干部網絡學院,面向全省各級干部同步開展線上直播授課。「浙江組工」公布的數據顯示,參加開班第一課線上學習的共有29.6萬人,參加第二次課程在線學習的有29.17萬人。

DeepSeek用於地震救援 7小時開發中緬英互譯系統

緬甸地震牽動人心,中國救援隊早前到達災區,人工智能亦大顯身手。中國駐緬甸使館稱,前方在使用基於DeepSeek緊急開發的中緬英互譯系統。

據央視報道,中國駐緬甸使館稱,前方在使用基於DeepSeek緊急開發的中緬英互譯系統。據了解,該系統是國家應急語言服務團秘書處和北京語言大學迅速組建的語言服務支持團隊,利用DeepSeek在僅僅七小時內開發出來的,至今緬甸已有700多人持續使用該平台。

「國家應急語言服務團」是由教育部、國家語委、應急管理部等部委指導成立的公益聯盟組織,主要任務是針對各類突發公共事件應急處置及國家其他領域重要工作中急需克服的語言障礙,提供國家通用語言文字、少數民族語言文字、漢語方言、手語、盲文、外國語言文字等方面的語言服務,是國家語言服務體系的重要組成內容。

DeepSeek低調發布V3模型 編程能力評分媲美Claude 3.7、更勝OpenAI

內地人工智能初創DeepSeek無預告下,3月24日(周一)晚上在Hugging Face上傳最新版本模型「DeepSeek V3-0324」,並保持開源和免費風格。綜合DeepSeek介紹、內地傳媒和海外用戶分析,DeepSeek V3並非推理模型,但採用具有6710億參數的專家混合模型(MoE),激活參數370億,並且主要集中在編程能力提升。

根據開源評測平台kcores-llm-arena 最新測試數據,DeepSeek V3-0324的程式碼能力達到328.3分,更勝DeepSeek-R1、OpenAI-o1、普通版Claude 3.7 Sonnet,但未及接近Claude 3.7 Sonnet思維鏈版本的334.8分。

相對於Anthropic的Claude和OpenAI的付費服務,DeepSeek繼續以免費模式開放。

DeepSeek今年1月成為蘋果美國應用商店最受歡迎的免費應用,其較低開發成本的AI模型R1被認為能力可與OpenAI的最強模型媲美,引發市場重新審視巨資建設算力的必要性,令多家美國AI基建產業鏈公司股價受壓。

鄭永年:中國轉向技術原創 美西方打壓為時已晚

香港中文大學(深圳)公共政策學院院長鄭永年昨日(23日)在中國發展高層論壇2025年年會受訪時表示,隨著中國轉向技術原創,美國與西方打壓限制事實上為時已晚,甚至未來西方可能在一些原創技術上依附於中國。

鄭永年強調,中國正在轉向技術原創,這一趨勢不僅讓外部壓力顯得蒼白無力,更為中國未來的發展開辟新道路。他預測,未來西方在某些原創技術上,甚至可能對中國產生依賴。

他認為,制裁與打壓無法阻擋中國前進的步伐。相反,它們將激發中國更大的創新動力和發展潛力。他堅信,在未來十年或更長的時間裡,中國將在一些原創技術領域取得重大突破,讓西方刮目相看。

對於近期爆火的DeepSeek和電影《哪吒2》,鄭永年說,二者都是以先進技術為核心的產品,但其實都只是「冰山一角」,無論在杭州還是深圳都是如此。從現代化的經驗來看,日本、韓國等亞洲經濟體基本採取同樣的方式,但中國更有效,規模也更大。

是否使用DeepSeek?蘋果CEO庫克:感覺很好

中國發展高層論壇在京舉行,據內媒報道,蘋果CEO庫克(Tim Cook)被問及是否有使用過DeepSeek時,他回答當然,並形容感覺很好(That’s great)。

論壇主要中方代表包括商務部部長王文濤 、人民銀行行長潘功勝、國家金融監督管理總局局長李雲澤、聯想集團(00992)董事長兼首席執行官楊元慶、小鵬汽車(09868)董事長、首席執行官何小鵬、新希望集團董事長劉永好、宇樹科技創始人兼首席執行官王興興、香港交易所主席唐家成等。

據年會主要外方代表名單,西門子股份公司董事會主席、總裁、首席執行官博樂仁(Roland Busch)、蘋果公司首席執行官蒂姆·庫克(Tim Cook)、三星電子會長李在鎔(Jay Y. Lee)、寶馬集團董事長齊普策(Oliver Zipse)、梅賽德斯-奔馳集團股份公司董事會主席康林松(Ola Källenius)、高通公司總裁、首席執行官安蒙(Cristiano Amon)等參加。

英偉達GTC發布新AI芯片 個人電腦可裝入DeepSeek模型運行

  • Nvidia 宣布新一代 AI 芯片,Vera Rubin 芯片預計 2026 年交付
  • Blackwell Ultra 芯片今年下半年上市
  • 發布新的個人電腦芯片,令其可以運行大型AI模型,例如Llama 或 DeepSeek

Nvidia(美:NVDA;英偉達)在年度 GTC 會議上發布新芯片,以助建構及部署artificial intelligence(AI)模型,行政總裁黃仁勳表示,Blackwell Ultra芯片系列將於下半年付運,而下一代芯片Vera Rubin將於2026年交付。

由於發布會技術含量高,未有太多訂單消息,英偉達股價挫3.4%,收報115.43美元,成交348.22億美元,為成交最活躍美股。

Feynman芯片將於2028年上市
自AI狂潮以來,英偉達新的芯片架構由兩年一代,加速至每年一代。在Rubin芯片之後的新一代芯片,將以物理學家Richard Feynman命名,延續其以科學家名字命名芯片系列的傳統,Feynman芯片將於2028年上市。

英偉達發布會預計將有 25,000 名與會者和數百家公司討論如何將該公司的硬體用於人工智能,包括 Waymo、微軟和福特,其中通用汽車亦宣布新一代汽車使用英偉達的服務。

AI PC芯片 可以運行大型AI模型
英偉達同時發布新的電腦芯片,包括兩款用於AI PC的DGX Spark及DGX Station,令其可以配置大型AI模型,例如Llama 或 DeepSeek。

同時宣布更新芯片聯網部件,令其可以將數百或數千個 GPU 連接在一起,使它們作為一個整體工作,同時還發布了一款名為 Dynamo 的軟體包,幫助用戶充分利用他們的芯片。

英偉達預期Vera Rubin芯片將於2026年下半年交付,系統有兩個組件,分別為中央處理器(CPU)Vera以及圖像處理器(GPU)Rubin,名字來自天文學家Vera Rubin。Vera是英偉達首款客製化 CPU 設計,基於 Olympus 的核心設計。

英偉達指,以前當需要 CPU 時,英偉達會使用Arm 的現成設計,這些客制化的設計來自高通及蘋果,因為已更度身定制並實現更好的性能。而英偉達使用Vera CPU,比去年Grace Blackwell 芯片快兩倍速度。

Rubin推理管理 50 petaflops 為Blackwell兩倍
與 Vera 搭配使用時,Rubin 可以在進行推理時管理 50 petaflops,是該公司當前 Blackwell 芯片 20 petaflops 的兩倍多。Rubin 還可以支援高達 288 GB 的快速內存,這是 AI 開發人員關注的核心規格之一。

英偉達也對 GPU 進行更改, 英偉達表示,Rubin 其實有兩塊 GPU。目前市場上的 Blackwell GPU 實際上是兩個獨立的芯片組裝在一起,並作為一個芯片運作。從Rubin開始,當兩個或多個芯片組合成一個芯片時,它會稱為各自獨立 GPU。2027 年下半年,英偉達計劃發布一款「Rubin Next」芯片,將四個芯片組合成一個,使 Rubin 的速度提高一倍,並將其稱為四個 GPU。英偉達表示,這款產品將安裝在名為 Vera Rubin NVL144 的機架上。

至於Blackwell Ultra,每秒將可產生更多tokens(代幣),令芯片可產生更多內容。雲端供應商可以使用 Blackwell Ultra去提供進階的AI服務,是2023年推出Hopper的50倍。

四大雲端運算公司買入Blackwell 為Hopper3倍
Blackwell Ultra 將推出與 Arm CPU 配對的版本GB300,以及僅備 GPU 的版本B300,並將推出在單一伺服器中配備八個 GPU的版本以及配備 72 個 Blackwell 芯片的機架版本。

英偉達表示,四大雲端運算公司部署的 Blackwell 芯片數量是 Hopper 芯片的三倍。

國產AI語言大模型DeepSeek於1月發布後,英偉達指,將使用該模型對其幾款新產品進行基準測試。Blackwell Ultra將更適合推理模型。

美商務部據報在政府設備禁用DeepSeek

據路透社報道,美國商務部各部門最近幾周通知工作人員,中國人工智能(AI)模型深度求索(DeepSeek)已被禁止在其政府設備上使用。

根據路透和兩名知情人士看到的消息,一封發給美國商務部各部門員工的群發電郵稱,為了確保商務部信息系統的安全,所有政府提供的設備廣泛禁止訪問DeepSeek。

郵件指,「請勿下載、查看、訪問任何與DeepSeek相關的應用程式、桌面應用程式或網站。」

華府官員及國會議員早已提出,關注DeepSeek威脅數據私隱及敏感的政府資料。

眾議院情報委員會兩名議員上月提出法案,禁止政府設備使用DeepSeek,本月初再去信各州長,提出同樣要求,指美國的數據一旦落入中共手上,將會是一筆巨大資產。

王亞軍:外資才是港股成交增2000億主力 DeepSeek讓長線基金「信仰改變」

  • 港股成交從前兩年平均約1000億元,增至近期接近3000億
  • 高盛ECM主管王亞軍:國際長綫基金參投IPO活動恢復至正常水平
  • 長綫基金回來有三關鍵,包括DeepSeek帶來「投資信仰改變」

高盛亞洲(日本除外)股票資本市場聯席主管王亞軍接受本報訪問時稱,港股日均成交近逼近3000億,較前兩年平均多出近2000億,北水只佔約30%貢獻,外資才是主力,並形容國際長綫資金「真正回來了」。

他解釋,港股通近期日均買入金額從200多億增至800多億,增加約600多億元,其餘增加的量不可能是印鈔機印出來,只可能是國際投資者參與。

高盛:國際長線基金參投IPO已恢復至正常水平
對於部分投行引用數據指國際長倉基金未明顯流入,王亞軍就認為,每家投行的交易生態不同,數據難免有偏見,即使長綫基金交投量肯定不如對冲基金活躍,

(從近期參與的交易)我們真實看到他們回來買東西,而他們對市場股價穩定性和長期發展起了發揮基石作用,但沒有回到牛市是毫無疑問,買入的股票亦是非常有選擇性的、估值很自律

王亞軍指出,近期高盛參與的香港新股發行(IPO)中,國際長綫基金的平均訂單數量逾20個,是過去兩年的4至6倍,基本已恢復至正常水平。他相信,國際長綫基金對中資股低配兩年有多,不會一下子全數歸來,相信近期香港火熱的股票融資活動可延續數季。

去年中國境外股票發行量按年回升1.3倍,當中新股集資額139億美元,香港市場佔約112億美元。王亞軍認為,今年港股新股集資要做到250億美元(約1,950億港元),

我覺得是可以期待的。我們今年特別的忙,我基本都回不了家,天天都在外面做專案。

高盛:DeepSeek「AI創新或許不到1%」 足以令投資者如夢初醒
王亞軍分析長綫基金回流主要有3大關鍵:

首先,去年中央政府表態支持經濟起了築底作用

其次,即使中國經濟風險沒有減少,但中國市場市盈率在刺激政策前僅為美股、印股一半,隨最新估值回升至12.7倍,仍較標普、MSCI印度指數折讓40%。

第三,DeepSeek帶來「投資信仰」改變。王亞軍稱,回到內地時亦會聽到評論「DeepSeek在AI世界的創新可能連1%也佔不到」,但它足以帶來巨大反差,

大家以前都覺得中國AI沒戲了,沒晶片、沒人員。DeepSeek的出現令投資者如夢初醒,中國仍是具有創新能力。當國際對中國資產信仰改變的時候,就會帶來大量的買賣。

DeepSeek謹慎對待商業化 梁文鋒據報不急於融資

DeepSeek熱度不減,有資本遞出橄欖枝。不過,有消息稱,創始人梁文鋒表示不急於獲得投資,原因是擔心外界干預決策。

梁文峰據傳暫不考慮融資

有消息指,騰訊及阿里巴巴等科技巨頭高層與梁文峰會面,探討合作機會,但梁文峰表明暫不考慮融資,擔心外部投資者會干預公司決策。

此外,據知情人士透露,部分國有銀行已提出向DeepSeek 提供低息貸款。

還有知情人士透露,梁文峰不打算對DeepSeek的核心AI模型收費。

報道稱,自2023年底以來,DeepSeek曾向多間家風投機構自薦,包括部分外資公司,但這些機構因看不見明確的回報路徑而拒絕投資。隨著近期R1模型的崛起,投資者興趣大增,但梁文峰基於公司長期戰略考慮後予以拒絕。

目前,DeepSeek面臨的最大挑戰是如何應對激增的用戶流量。由於大量用戶湧入,服務頻繁崩潰,使用者每日可與聊天機器人的互動次數受限。為緩解伺服器壓力,DeepSeek甚至為凌晨使用服務的付費用戶提供大幅折扣。有業界人士認為,鑒於當前困境,公司應考慮接受外部投資。

DeepSeek理論日賺47.6萬美元 為何實際上未做到預期?

深度求索DeepSeek近日宣布,其線上服務「成本利潤率」(Cost Profit Margin)高達 545%,向外界暗示其未來潛在利潤率水平,不過外界或有一個疑問,為何DeepSeek現時實際收入仍低於理論水平?

首先成本利潤率高達545%在於DeepSeek模型的稀疏優化能力及硬件利用率極高。

DeepSeek推理成本壓縮到極致
稀疏優化能力簡單來說,就是通過減少實際參與計算的激活節點,避免全參數計算,但同時保持推理水平,配合「計算-通信重疊」、「動態負載均衡」等技術,將單位 token 的推理成本壓縮到極致。

其次是硬件利用率極高,白天高峰期段使用全部節點(即H800 GPU資源)全用於推理,夜間低負載時,會釋放GPU資源用於訓練研究,避免閒置成本。

高峰時期佔用278個節點

DeepSeek表示,V3與R1推理服務合併計算,高峰時佔用節點達278,平均佔用226.75個節點,每個節點相當於8塊H800 GPU。假設一塊H800 GPU 的租賃成本為每小時2美元,則每天的總成本為87,072 美元。

DeepSeek又統計,V3及R1在24小時內總輸入及總輸出的Token為6080億及1680億個, 如果所有Toekn都按照 DeepSeek-R1 的定價計費,則每日總收入將達到 562,027 美元,成本利潤率為545%。

DeepSeek-R1收費:0.14 美元/每100萬輸入Token(快取命中)、0.55 美元/每100萬輸入Token(快取未命中)、2.19 美元/每100萬輸出Token。

3原因令實際收入不及理論

然而,實際收入存在落差的原因包括DeepSeek-V3 的定價明顯低於 R1。

其次是DeepSeek為擴大用戶覆蓋,換取用戶黏性、市場份額,網頁和APP服務免費,變相無法變現部分Token 流量。

第三是非高峰時段,DeepSeek將自動採用夜間折扣,令收費再打折扣。

而且DeepSeek 的成本利潤率「Cost Profit Margin」概念與毛利率相似,將收入減去營收成本,然而,AI 公司的研發開支、模型訓練成本、人力成本、資本開支巨大,故DeepSeek 成本利潤率雖然優秀,但相信與實際列帳利潤水平仍有差距。

百度搜索接入DeepSeek、文心大模型深度搜索功能

百度 (09888) 宣布,旗下「百度搜索」和文心智能體平台,將全面接入DeepSeek 和自家文心大模型最新的深度搜索功能,搜尋用戶可免費使用相關功能,而文心智能體平台的開發者可以調用DeepSeek模型創建並調優智能體。

百度指,文心大模型深度搜索功能2月13日上線,可為用戶提供專家級內容回覆,並處理多場景任務,實現多模態輸入與輸出。

Google人工智能負責人:DeepSeek花費不足600萬美元開發AI的說法「誇大、有些誤導」

  • DeepSeek開發成本低於競爭對手
  • DeepMind質疑DeepSeek成本計算方式
  • DeepSeek可能利用西方模型

DeepSeek出現令市場重新關注中國人工智能的發展,負責訓練Alphabet(美:GOOG)旗下Google人工智能的DeepMind行政總裁Demis Hassabis認為,DeepSeek花費不足600萬美元開發AI系統的說法「誇大了,而且有些誤導人」。

可能只是總成本的冰山一角

DeepSeek聲稱,其聊天機器人和AI模型的開發成本遠低於DeepMind和OpenAI等美國競爭對手,震驚市場。

不過,Hassabis稱,DeepSeek似乎僅公佈了最後一輪的訓練成本,而這是總成本的冰山一角。

沒有看到新的尖端技術

Hassabis也反駁DeepSeek的出現,顛覆AI開發經濟效益的看法,指「我們沒有看到新的尖端技術,DeepSeek並非效率曲線上的一個異類」,並指DeepSeek似乎倚賴一些西方模型作為來源。

DeepSeek稱其以560萬美元的計算成本,使用英偉達(美:NVDA)上一代芯片訓練其AI模型。美國當局已經啟動調查,評估DeepSeek是否通過新加坡採購芯片,藉以規避芯片禁令。

南韓國防部、外交部等部門 封禁DeepSeek

據韓聯社報道,南韓外交、國防和產業部門週三(5日)對DeepSeek採取封禁措施。

據多數政府相關人士消息,國防部、外交部和產業通商資源部自行決定限制通過支援外網連接的電腦登錄DeepSeek。國防部相關人士受訪時表示,各方對DeepSeek存在技術性憂慮,國防部針對用於軍部工作的聯網電腦採取了封禁措施。另一名官員表示,利用支援外網連接的電腦訪問DeepSeek網站時顯示「訪問限制」的提示。

報道稱,隨著DeepSeek過度採集用戶數據的質疑發酵,政府部門採取封禁措施,以消除利用生成式AI工具可能導致敏感資訊外泄的擔憂。上述這些部門處理的資訊中涉及外交安保和經貿通商領域的機密較多,因此採取如上的封禁措施。

智雲健康接入DeepSeek-R1模型提升智雲大腦 股價高開近15%

  • 智雲健康:將DeepSeek-R1模型接入智雲大腦
  • 進一步增強智雲大腦的數據挖掘能力
  • 提升公司醫院SaaS及藥店SaaS的慢病管理效率

智雲健康 (09955) 公布將DeepSeek-R1模型接入其專屬醫療人工智能智雲大腦,進一步增強智雲大腦的數據挖掘能力並提升公司醫院SaaS及藥店SaaS的慢病管理效率。智雲健康昨炒上後今早再高開14.9%,開報1.85元,成交117.4萬元。

智雲健康表示,智雲大腦對DeepSeek-R1模型的接入,結合了先進的數據分析和人工智能技術,通過大數據分析及機器學習算法,為慢病管理提供精準的決策支持。此次接入後,藉助公司超過10億份電子病歷,本公司的ClouD GPT及ClouD DTx模型將實現醫療知識圖譜和臨床決策支持系統的功能升級,以優化用戶體驗並提高診斷效率。

澳洲以國安風險為由 下令禁所有政府設備使用DeepSeek

外界對DeepSeek安全性的質疑正逐步浮現,繼美國、台灣等地,澳洲政府以國安風險為由,宣布禁止人員在政府設備上使用所有DeepSeek產品、應用程式和服務。

綜合外媒報道,澳洲政府宣布,由於中國突破性AI計畫帶來的私隱和惡意軟件等國安風險,下令禁止所有政府設備使用DeepSeek產品、應用程式和網路服務。內政部長Tony Burke表示,澳洲情報機構的威脅評估認為,DeepSeek相關技術將構成不可接受的風險。

澳洲網路安全特使Andrew Charlton則指出:「這是政府根據安全機構建議採取的行動。我們不想讓政府系統暴露於這些應用程式之下。」澳洲澳洲內政部秘書長 Stephanie Foster則對政府人員發布指令,表示從今(5日)起,所有非企業聯邦機構必須「識別並刪除澳洲政府所有系統和行動裝置全部現有的DeepSeek產品、應用程式和網路服務」。這項指令還要求防止政府系統和行動裝置「存取、使用或安裝DeepSeek產品」。這一措施已獲得澳洲兩黨政治人士的支持。

澳洲反對黨副主席Sussan Ley亦表示,社會大眾也應仔細考慮是否將DeepSeek從私人電話和電腦中移除。

廣東省高質量發展大會 提及華為和DeepSeek

廣東省高質量發展大會今日(5日)召開。廣東省委書記黃坤明在會上提及華為和深度求索(DeepSeek),並稱DeepSeek以不怕虎的勇氣、銳氣撼動美國人工智能巨頭,產生連鎖效應。

黃坤明表示,當前,新一輪科技革命和產業變革正在重塑全球產業版圖,能否建成具有21世紀時代特徵的現代化產業體系,決定了能否在未來發展和激烈國際競爭中贏得戰略主動。

他說,華為以領先的數字技術賦能千行百業,DeepSeek以不怕虎的勇氣銳氣撼動美國人工智能巨頭、產生連鎖效應,宇樹科技的機器人登上央視春晚舞台,中國已經顯示出引領時代浪潮的全新氣象,廣東更應該在百舸爭流中奮力爭先。

他還說,我們要主動作為、前瞻布局,全面優化升級產業體系,沖出中低端、搶佔制高點、致勝新賽道,以更具國際競爭力的現代化產業體系,托起一個勇立時代潮頭、不斷向新向上的新廣東。