谷歌发布第八代TPU:8t强训8i快推,为AI智能体发展筑牢算力根基

   时间:2026-04-23 12:05 来源:快讯作者:柳晴雪

在近期举办的 Cloud Next '26 峰会上,谷歌正式推出第八代 TPU 架构,包含专为训练设计的 TPU 8t 和聚焦推理的 TPU 8i。这两款芯片将于 2026 年下半年面向市场开放,采用申请制分配,Google Cloud 用户需通过官网提交使用需求。目前原生 PyTorch 对 TPU 的支持处于预览阶段,谷歌正与特定合作伙伴及早期客户开展小规模测试,以优化算力资源分配策略。

TPU 8t 通过多项技术创新重塑模型训练格局。其搭载的 SparseCore 核心专为混合专家模型优化,可解决此类模型因参数不规则激活导致的内存访问瓶颈。结合谷歌自研的 Virgo 网络拓扑,芯片间通信带宽翻倍,外部数据中心连接带宽提升四倍。通过 Direct Storage 技术绕过 CPU 直接读取高速存储数据,训练速度提升达十倍。在算力集群方面,单个超级计算单元集成 9600 颗 TPU 8t 芯片,共享 2PB 内存,总算力达 121 ExaFlops,单位成本算力较前代提升 2.7 倍,能效比实现两倍增长。

针对实时推理场景,TPU 8i 通过硬件架构革新突破延迟限制。其配备的 288GB 高带宽内存和 384MB 片上 SRAM(容量为前代三倍),可将完整对话上下文缓存于芯片内部,减少外部数据交互。集体通信加速引擎(CAE)将芯片同步延迟降低五倍,互联带宽提升至 19.2 Tb/s。新型 Boardfly 网络拓扑借鉴 Dragonfly 架构思想,使千颗芯片系统中任意两点通信路径缩短 56%,从 16 跳减少至 7 跳。这些改进使推理任务性价比提升 80%,搭配谷歌自研 Arm Axion 架构 CPU 后,系统整体能效再获显著优化。

谷歌此次技术迭代精准回应了 AI 发展对芯片的差异化需求。训练场景需要极致算力与高效协同,推理场景则要求低延迟与高能效。第八代 TPU 通过架构分型实现专业分工,TPU 8t 构建的超级计算集群可支撑千亿参数模型训练,TPU 8i 的长上下文处理能力则推动 AI 从简单预测向复杂决策演进。随着这两款芯片向全球云客户开放,开发者无需掌握新编程语言即可调用算力资源,谷歌提供的开源参考模型代码将进一步降低技术门槛。这一布局或将重新定义智能体时代的算力基础设施标准。

 
 
更多>同类内容
全站最新
热门内容