AI的發展已漸漸進入推論時代,意指完成訓練的 AI 模型,在接收新資料後,能利用所學知識作出預測、分類或決策的過程。各大科企亦努力在「推論時代」中突圍。如Google Cloud 宣布,第 7 代 Tensor Processing Unit(TPU)Ironwood將於數星期內上市。
訓練和推理快上一代4倍
TPU Ironwood 高效能、擴展性佳的客製化 AI 加速器,為滿足嚴苛的工作負載需求而設計。與上一代相比,Ironwood 在訓練和推理工作負載方面的性能提升逾 4 倍。
事實上,包括Google的 Gemini、Veo、Imagen 和 Anthropic 的 Claude等模型,也是在TPU 上進行訓練和提供服務。不少機構或組織,現時的關注點,已從訓練模型轉而如何利用 TPU 實現高效、反應迅速的互動。不斷變化的模型架構、智能體工作流程的興起以及對算力需求的增長,共同定義了推理的新時代。
從大規模模型訓練和複雜的強化學習 (RL) 到高容量、低延遲的 AI 推理和模型服務,第七代 TPU Ironwood 都能輕鬆勝任。與 TPU v5p 相比,Ironwood 的峰值性能提升了 10 倍;與 TPU v6e (Trillium) 相比,其單芯片在訓練和推理工作負載方面的性能,均提升了 4 倍以上。
支援生成式 AI
ronwood 的建構是為了支援生成式 AI 的下一個發展階段,及其龐大的運算和通訊需求。Ironwood 可以擴展到高達 9,216 顆液冷芯片(liquid cooled chips),芯片可透過突破性的芯片間互連(Inter-Chip Interconnect, ICI)網路相連。透過 Ironwood,開發者還能利用 Google 自家的 Pathways 軟體堆疊,輕鬆地利用數萬個 Ironwood TPU 的組合運算能力。
總括而言,Ironwood 的主要功能包括:
- 在效能大幅提升的同時,也注重於能源效率,使 AI 工作負載能夠以更符合成本效益的方式運行。
- 大幅增加高頻寬記憶體(HBM)容量。Ironwood 每顆芯片提供 192 GB 容量,是 Trillium 的 6 倍,
- HBM 頻寬大幅提升,單顆芯片可達 7.2 Tbps,是 Trillium 的 4.5 倍。
- 增強晶片間互連(ICI)頻寬


