情报
AI 生成的结构化厂商动态简报
NVIDIA 发布容器化 AI 模型文档自动生成工具包,集成 RAG 与 NIM 应对监管
NVIDIA 推出 Model Card Generator (MCG) 工具包,一个容器化流水线,可在一分钟内自动从源代码生成符合 Model Card++ 标准的 AI 模型文档。该工具利用 NVIDIA Nemotron RAG 进行高精度信息检索,并由大语言模型(如 GPT-OSS-120B)提取和格式化内容,旨在应对欧盟 AI 法案等法规要求。
NVIDIA将Step 3.7 Flash多模态模型深度整合至其企业AI全栈
NVIDIA宣布在其加速平台上全面支持StepFun的Step 3.7 Flash模型,这是一个1980亿参数的MoE多模态模型。通过TensorRT-LLM、vLLM进行优化推理,并通过NVIDIA NIM提供生产就绪的容器化微服务部署,同时支持基于NeMo框架的Day 0微调。
AMD发布面积优化型Versal Prime Gen 2自适应SoC,推动边缘计算硬件小型化
AMD宣布扩展其Versal Prime Series Gen 2自适应SoC产品线,新增三款面积优化型器件(2VM3454/3254/3104)。这些器件采用4核Arm Cortex-A78AE应用处理器配置,提供最小23x23mm封装,并在单位面积内提供更高的可编程逻辑密度,旨在为专业音视频、工业物联网等嵌入式应用平衡性能、尺寸与功耗。
AMD 以 EPYC 4005 与紧凑型系统重塑零售边缘基础设施
AMD 通过其 EPYC 4005 系列 CPU,与 Supermicro 等合作伙伴推出专为零售边缘设计的紧凑型服务器平台。这些系统强调在有限空间和功耗下的高性能(DDR5, PCIe Gen5)、远程管理(BMC)与硬件安全(TPM),旨在将数据中心级能力下沉至门店,实现工作负载整合与集中化运维。
Google Cloud 系统解构无服务器AI冷启动,定义生产级部署新范式
Google Cloud 发布深度指南,将AI模型在Cloud Run上的冷启动分解为四个技术阶段,并针对每阶段提出具体优化策略,包括模型4-bit量化、镜像流传输、启动CPU Boost、专用网络路径及精细的并发度调优公式。此举旨在将无服务器平台从支持AI升级为为AI深度优化的一级生产环境。
NVIDIA CUDA 13.3 通过 Tile C++、编译器自动调优与 Python 生态巩固软件栈控制权
NVIDIA 发布 CUDA 13.3,核心动作包括将高级 CUDA Tile 编程模型扩展至 C++、正式发布稳定的 CUDA Python 1.0 并引入进程检查点等功能,以及推出 CompileIQ 编译器自动调优框架。此举旨在通过更高层级的抽象和自动化工具,进一步降低 GPU 编程门槛并提升性能。
NVIDIA发布RTX PRO 4500 Blackwell加速基因组与蛋白质折叠计算
NVIDIA推出基于Blackwell架构的RTX PRO 4500服务器GPU,通过集成Parabricks、Openfold3等软件,在基因组序列比对、变异检测和蛋白质结构预测等关键生命科学工作负载上实现2倍以上性能提升,显著降低计算时间与能耗。
AWS SageMaker 通过 OpenAI 兼容 API 争夺 AI 推理控制权
AWS 宣布其 Amazon SageMaker AI 推理端点现支持 OpenAI 兼容的 API 接口。此举使开发者无需修改代码即可将基于 OpenAI API 构建的 AI 应用迁移至 SageMaker 平台,显著降低了从 OpenAI 向 AWS AI 基础设施迁移的技术与锁定门槛。
NVIDIA 开源医学图像生成框架,推动 3D 医疗 AI 数据瓶颈突破
NVIDIA 发布并开源了基于 MAISI-v2 (Latent Rectified Flow) 架构的 NV-Generate-CTMR 框架及其新模型 NV-Generate-MR-Brain。该框架旨在规模化生成高质量的 3D CT 和 MRI 合成数据,并配套发布了大规模开源多模态 MRI 数据集 MR-RATE,以解决医疗 AI 开发中的数据稀缺和隐私限制问题。
NVIDIA开源GPU Usage Monitor,简化Kubernetes集群GPU监控
NVIDIA发布开源项目GPU Usage Monitor,通过一个预集成的Helm Chart,将DCGM Exporter、kube-state-metrics、Prometheus和Grafana打包部署,为Kubernetes集群中的GPU资源提供开箱即用的实时监控能力。此举旨在解决AI工作负载在K8s环境中GPU利用率不透明、资源调度盲点等运营难题。
NVIDIA在COMPUTEX展示Vera Rubin NVL72等AI基础设施创新
NVIDIA在COMPUTEX 2026上获得多项最佳选择奖,其Vera Rubin NVL72机柜级AI超算、Jetson Thor边缘平台及Alpamayo自动驾驶开放平台获奖,展示了其在AI工厂、边缘推理和物理AI领域的基础设施布局。
BadHost漏洞(CVE-2026-48710):Starlette单字符绕过认证,全球AI Agent基础设施面临暴露风险
安全机构X41 D-Sec在OSTIF资助的vLLM审计中发现Starlette框架认证绕过漏洞CVE-2026-48710(BadHost)。根因:Starlette用HTTP Host头拼接重建request.url时未验证Host值合法性——注入/、?或#字符可导致request.url.path与ASGI路由的scope[path]产生解析不一致,path-based认证中间件被欺骗放行受保护资源。MCP Server特别高危:MCP规范要求/.well-known/oauth-authorization-server等Discovery端点默认公开,为攻击者提供最可靠的Host头注入路径。X41 D-Sec扫描发现生物制药临床试验数据库、企业邮箱完整访问权、AWS云拓扑、身份验证公司PII、工业设备堡垒机SSH等生产系统暴露。Starlette 1.0.1(5月21日)已修复,但3个月补丁周期(2月发现→5月发布)和间接依赖链导致大量部署仍受影响。X41评级CVSS 7.0(High),Starlette维护者评级6.5(Moderate)——分歧在于path-based auth是否为anti-pattern。
谷歌发布Antigravity 2.0,定义AI Agent本地开发控制平面
谷歌在I/O 2026上推出Antigravity 2.0,这是一个独立的桌面应用,旨在成为构建、测试和编排复杂AI工作流的“Agent-First”本地控制平面。它通过CLI/SDK、动态子代理和与企业云安全环境的直接集成,将AI Agent的开发与部署流程从云端延伸至本地环境,试图统一AI应用生命周期管理。
思科通过芯片层智能包流重塑AI数据中心网络架构
思科推出基于Silicon One G300芯片的智能包流技术,将网络从高速传输层转变为具备感知、适应和优化能力的智能系统,以应对大规模AI工作负载。该技术通过硬件级遥测、自适应路由和拥塞管理,显著提升AI集群的集体完成时间和GPU利用率。
英特尔以集成SoC架构推动边缘AI机器人计算从独立GPU迁移
英特尔宣布其Core Ultra Series 3处理器正被多家机器人公司采用,以集成CPU、GPU、NPU的SoC架构替代昂贵、高功耗的独立GPU,用于边缘AI推理。这标志着机器人“大脑”向成本效益更高、更易部署的集成化异构计算架构转变。
AMD定义“智能代理计算机”新品类,推动AI推理本地化
AMD提出“智能代理计算机”概念,旨在通过本地化硬件(Ryzen™ AI Max处理器、Radeon™ AI PRO显卡)运行持续AI推理工作负载,以应对云API成本上升。其核心是推动AI从云端按需消费模式向本地固定成本、高吞吐量模式转移。
AMD发布AI Halo开发平台与Max PRO 400系列处理器,瞄准本地AI代理计算
AMD发布Ryzen AI Halo开发者平台和Ryzen AI Max PRO 400系列处理器,旨在为本地AI代理(Agent)应用提供开发与运行环境。新平台支持高达2000亿参数模型本地运行,并提供高达192GB统一内存,推动AI工作负载从云端向边缘设备迁移。
NVIDIA与Google Cloud深化开发者生态融合,推进AI基础设施与应用栈整合
NVIDIA与Google Cloud联合开发者社区规模超10万人,提供从JAX优化、NVIDIA Dynamo推理优化到AI水印(SynthID)的全栈学习路径。此举旨在通过整合双方底层硬件(Blackwell/Rubin GPU)、云平台(GKE, AI Hypercomputer)与软件框架(Nemotron, Gemma),加速企业级AI应用从原型到生产的落地。
谷歌发布统一AI Agent开发工具包,整合本地与云端部署
谷歌在I/O大会上发布统一AI Agent开发工具包,包含Antigravity 2.0和Managed Agents API,旨在通过共享的A2A协议层,为开发者提供从本地快速原型到安全合规云部署的完整路径。该举措将Gemini Enterprise Agent Platform能力延伸至本地开发工具,提供从低代码到完全代码控制的多层次选择。
NVIDIA与戴尔发布全栈AI工厂,加速企业级Agentic AI部署
NVIDIA与戴尔深化合作,推出更新版Dell AI Factory with NVIDIA,旨在为企业提供从工作站到数据中心的端到端Agentic AI推理与部署平台。该平台整合了NVIDIA Vera Rubin GPU、Vera CPU、Confidential Computing及Nemotron模型,强调安全、高性能的本地化AI基础设施,以应对激增的AI推理需求。