ReDrafter – 網網

科技巨頭蘋果（Apple）及Nvidia再度聯手！Apple今（19日）宣布，透過將其開源Recurrent Drafter（ReDrafter）推測解碼方法，整合至Nvidia的TensorRT-LLM，攜手提升大型語言模型（LLM）的文本生成效能和速度。

Apple工程師發布網誌提到，該企今年初發布並開源了的ReDrafter，結合了兩種技術：波束搜尋（Beam search）用於探索多種可能性，與動態樹狀注意力（Dynamic tree attention）以高效處理選擇，從而讓開源模型每步驟產生最多3.5個 tokens，超越先前推測性解碼技術的效能。

而最新就決定與Nvidia聯手，將ReDrafter應用於實際產品中，即Nvidia曾用來加速GPU上的LLM推理過程的TensorRT-LLM。基準測試結果顯示，在Nvidia GPU上使用整合了ReDrafter 的TensorRT-LLM框架，數百億參數規模的生產模型，其解碼速度提升了2.7倍。這可降低了用戶體驗延遲，還減少GPU使用量和功耗。

Apple工程師表示，LLM在實際應用中日益普及，提高推理效能至關重要，因為可以降低計算成本，也能減少用戶的延遲。

S	M	T	W	T	F	S
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

網網

Tag: ReDrafter

Apple夥Nvidia藉開源ReDrafter推測解碼　提升AI LLM推理效能