Google以乒乓球訓練模型自主學習 減少人手調整參數

乒乓球訓練涵蓋感知能力、戰略決策能力,機械人甚至需精準控制擊球角度與速度。DeepMind看中這種複雜物理模擬的特性,希望以此鑽研AI技術,將其轉移至工業製造,甚至未來的家居應用。

機械人對打訓練 仍需人類助破困局
Deepmind借鑑了AlphaGo的策略,以機械人訓練機械人,在實驗中讓兩組機械臂對打乒乓球,當一方進步,另一方也被迫升級應對。機械先進行合作訓練,之後轉向更具挑戰性的「競技模式」,逐步擴展機械人的球路。然而,因球路劇烈變化,模型難以兼顧新舊擊球技巧,其中一方容易無力回擊,陷入局部。

此時,研究發現仍要採用人機對戰,無法完全脫離人類。人類的球路連續性更佳,為機械人提供學習樣本。Deepmind 另外利用了「Zero-shot sim-to-real」技術,使模型能儘快適應陌生對手。現時機械人雖不敵頂尖選手,但對初學者全勝,訓練可謂初見成效。

應用視覺語言模型 創造AI教練
另外,Deepmind希望透過是次訓練探索視覺語言模型(VLM)的潛力,讓VLM未來擔任教練一職。其更開發了SAS提示框架:Summarize總結、Analyze分析、Synthesize合成。這能持續分析學員表現並提出改進方案。

機械人訓練暫時仍需人力,但Deepmind現正努力降低對人類調整的依賴。未來或能孕育出可自主掌握多元技能的機械夥伴。