阿里巴巴推通義千問QwQ-32B 股價升逾6%再試140元關口

  • 阿里巴巴推出通義千問QwQ-32B大語言模型
  • 模型效能媲美DeepSeek-R1
  • 已在Hugging Face和ModelScope開源

阿里巴巴 (09988) Qwen團隊宣布最新研究成果通義千問QwQ-32B大語言模型,阿里巴巴股價升逾6%,早段高見139.6元。Qwen團隊表示,QwQ-32B是一款擁有320億參數的模型,其效能可與具備6,710億參數(其中370億被啟動)的DeepSeek-R1 媲美,指這項成果突顯了將強化學習應用於經過大規模預訓練的強大基礎模型的有效性。此外,還在推理模型中整合了與Agent相關的能力,使其能夠在使用工具的同時進行批判性思考,並根據環境回饋調整推理過程。

QwQ-32B 在一系列基準測試中進行了評估,測試了數學推理、程式設計能力和通用能力,結果展示了QwQ-32B 與其他領先車型的效能對比,包括DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 以及原始的DeepSeek-R1。

Qwen團隊表示,在冷啟動的基礎上進行了大規模強化學習。在初始階段,特別針對數學和程式設計任務進行了RL訓練。與依賴傳統的獎勵模型(reward model)不同,透過校驗產生答案的正確性來為數學問題提供回饋,並透過程式碼執行伺服器評估產生的程式碼是否成功透過測試案例來提供程式碼的回饋。隨著訓練輪次的推進,這兩個領域的表現均表現出持續的提升。在第一階段的RL 過後,增加了另一個針對通用能力的RL。此階段使用通用獎勵模型和一些基於規則的驗證器進行訓練。團隊發現,透過少量步驟的通用RL,可以提升其他通用能力,同時在數學和程式設計任務上的表現並沒有顯著下降。

團隊表示,QwQ-32B已在Hugging Face和ModelScope開源,採用了Apache 2.0開源協定,可透過Qwen Chat直接進行體驗。

Apple 推出 M3 Ultra芯片 支援逾 500GB 統一記憶體

芯片可算是移動裝置的心臟,蘋果(Apple)推出 M3 Ultra,是現時Mac最強勁的 CPU 與 GPU、雙倍神經網絡引擎核心,同時支援個人電腦歷來容量最多的統一記憶體。M3 Ultra 支援 Thunderbolt 5,每一連接埠的頻寬增加 2 倍以上,實現更快的連接速度與更強大的擴展能力。

M3 Ultra 採用 Apple 創新、擁有共 1,840 億顆電晶體的 UltraFusion 封裝架構,將兩顆 M3 Max 芯片以逾 10,000 個高速連接點連接,提低延遲及高頻寬的傳輸能力。此技術讓系統得以將連接的芯片作為單一芯片,維持 Apple 領先業界的能源效益。

具備 32 核心 CPU
Apple 硬件技術高級副總裁 Johny Srouji 表示,M3 Ultra 專為運行最繁重複雜多執行緒且需要高頻寬 app 的用户而設。有賴其 32 核心 CPU、龐大 GPU、支援個人電腦歷來容量最多的統一記憶體,市面上沒有其他晶片可與 M3 Ultra 相媲美。

M3 Ultra 具備 32 核心 CPU,包括 24 個高效核心及 8 個節能核心,相較 M2 Ultra,效能最高可達 1.5 倍;相較 M1 Ultra ,最高可達 1.8 倍。M3 Ultra 更擁有 Apple 晶片歷來最大的 GPU,擁有多達 80 個圖像核心,相較 M2 Ultra,效能表現最快可達 2 倍;相較 M1 Ultra,最快可達 2.6 倍。

專為AI而設
M3 Ultra 採用先進圖像架構,具備「動態快取」、硬件加速網格著色技術與光線追蹤,因而得以快速應付最繁重的內容創作工作流程與遊戲運行工作。

32 核心神經網絡引擎為 AI 與機械學習 (ML) 提供動力,同時支援個人智能系統 Apple Intelligence,讓其將強勁的生成模型整合至全新 Mac Studio重。因此,M3 Ultra 可說專為 AI 而設,包括內置 CPU 的機械學習加速器、Apple 最強大 GPU、神經網絡引擎以及逾 800GB/s 的記憶體頻寬。AI 專業人士可運用配備 M3 Ultra 的 Mac Studio 直接運行具有逾 6000 億參數的內置大型語言模型 (LLM),使其成為 AI 開發的終極桌面電腦。

M3 Ultra 的統一記憶體架構整合個人電腦中歷來最高頻寬、最低延遲的記憶體:96GB 起,最高可配置至 512GB,或逾 500GB 統一記憶體。