- 阿里巴巴推出通義千問QwQ-32B大語言模型
- 模型效能媲美DeepSeek-R1
- 已在Hugging Face和ModelScope開源
阿里巴巴 (09988) Qwen團隊宣布最新研究成果通義千問QwQ-32B大語言模型,阿里巴巴股價升逾6%,早段高見139.6元。Qwen團隊表示,QwQ-32B是一款擁有320億參數的模型,其效能可與具備6,710億參數(其中370億被啟動)的DeepSeek-R1 媲美,指這項成果突顯了將強化學習應用於經過大規模預訓練的強大基礎模型的有效性。此外,還在推理模型中整合了與Agent相關的能力,使其能夠在使用工具的同時進行批判性思考,並根據環境回饋調整推理過程。
QwQ-32B 在一系列基準測試中進行了評估,測試了數學推理、程式設計能力和通用能力,結果展示了QwQ-32B 與其他領先車型的效能對比,包括DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 以及原始的DeepSeek-R1。
Qwen團隊表示,在冷啟動的基礎上進行了大規模強化學習。在初始階段,特別針對數學和程式設計任務進行了RL訓練。與依賴傳統的獎勵模型(reward model)不同,透過校驗產生答案的正確性來為數學問題提供回饋,並透過程式碼執行伺服器評估產生的程式碼是否成功透過測試案例來提供程式碼的回饋。隨著訓練輪次的推進,這兩個領域的表現均表現出持續的提升。在第一階段的RL 過後,增加了另一個針對通用能力的RL。此階段使用通用獎勵模型和一些基於規則的驗證器進行訓練。團隊發現,透過少量步驟的通用RL,可以提升其他通用能力,同時在數學和程式設計任務上的表現並沒有顯著下降。
團隊表示,QwQ-32B已在Hugging Face和ModelScope開源,採用了Apache 2.0開源協定,可透過Qwen Chat直接進行體驗。