N
NVIDIA
2026-05-05
Architecture Shift 影响: Major 强度: High 置信: 90%

NVIDIA提出面向智能体系统的“极端协同设计”基础设施栈

内容摘要

NVIDIA发布技术博客,系统阐述AI智能体(Agent)工作负载对基础设施的颠覆性需求,并提出其‘极端协同设计’(Extreme Co-Design)技术栈与Vera Rubin平台作为解决方案。核心观点是传统单处理器架构无法满足智能体在长上下文、高缓存命中率和低延迟交互方面的苛刻要求,必须通过计算、网络、存储的跨层优化来重塑AI基础设施。

核心要点

NVIDIA基于对Anthropic等厂商真实Agent会话(如Claude Code)的深度分析,揭示了智能体工作负载的复杂性:一次33分钟的会话涉及283次推理请求,上下文窗口从15K激增至156K,随后通过“上下文压缩”事件降至20K。智能体层级(主Agent/子Agent)架构和工具调用导致Token消耗模式呈“结构性概率分布”,远超传统聊天机器人。

博客指出,实现Agent经济性的关键在于在高交互性区域维持规模化吞吐,这要求极高的KV缓存命中率(95-98%)和极低的缓存访问延迟。NVIDIA认为,这需要将推理任务解耦,并针对不同阶段(如KV缓存管理、低延迟通信、低精度推理)进行硬件专门化,其提出的“极端协同设计”栈整合了Vera Rubin NVL72、NVLink 6、ConnectX-9 SuperNIC、BlueField-4和Spectrum-X等技术。

重要性说明

这是对AI基础设施架构演进的明确指引。NVIDIA正在定义下一代企业AI(智能体系统)的硬件和系统级需求,将竞争焦点从单一芯片算力转向跨计算、网络、存储的全栈优化能力。这标志着AI基础设施竞赛进入‘系统协同’新阶段,将深刻影响企业构建和部署生产级AI应用的方式。

PRO 决策建议

**控制层转移型**
- **厂商/Vendors**: 必须评估自身在‘智能体系统栈’中的定位。试图在单一芯片层竞争可能失效,需投资或联盟以覆盖KV缓存管理、低延迟网络等系统层能力,否则将失去对AI应用开发者的相关性。
- **企业/Enterprises**: 应重新评估AI基础设施采购策略。未来18个月,选择支持‘协同设计’架构的供应商将更易部署经济可行的智能体应用。需在试点项目中测试长上下文、高缓存场景的实际性能。
- **投资者/Investors**: 关注价值从‘纯算力’向‘系统协同与软件定义硬件’迁移的信号。监测在专用网络、内存层次优化、推理调度软件等领域出现的新玩家和并购机会。
来源: blog
查看原文 →

💬 评论 (0)