科技巨頭蘋果(Apple)及Nvidia再度聯手!Apple今(19日)宣布,透過將其開源Recurrent Drafter(ReDrafter)推測解碼方法,整合至Nvidia的TensorRT-LLM,攜手提升大型語言模型(LLM)的文本生成效能和速度。
Apple工程師發布網誌提到,該企今年初發布並開源了的ReDrafter,結合了兩種技術:波束搜尋(Beam search)用於探索多種可能性,與動態樹狀注意力(Dynamic tree attention)以高效處理選擇,從而讓開源模型每步驟產生最多3.5個 tokens,超越先前推測性解碼技術的效能。
而最新就決定與Nvidia聯手,將ReDrafter應用於實際產品中,即Nvidia曾用來加速GPU上的LLM推理過程的TensorRT-LLM。基準測試結果顯示,在Nvidia GPU上使用整合了ReDrafter 的TensorRT-LLM框架,數百億參數規模的生產模型,其解碼速度提升了2.7倍。這可降低了用戶體驗延遲,還減少GPU使用量和功耗。
Apple工程師表示,LLM在實際應用中日益普及,提高推理效能至關重要,因為可以降低計算成本,也能減少用戶的延遲。