情报
AI 生成的结构化厂商动态简报
英伟达发布TensorRT for RTX插件,优化虚幻引擎AI推理性能
英伟达发布针对虚幻引擎5(UE5)的TensorRT for RTX插件,作为其Neural Network Engine(NNE)的新运行时选项。该插件通过即时编译优化,在RTX GPU上为AI后处理(如超分、去噪)任务提供比DirectML等运行时更高的推理吞吐量,展示了英伟达将高效AI推理能力嵌入主流实时图形引擎工作流的努力。
NVIDIA通过AI Agent技能库实现GPU内核跨语言自动化迁移
NVIDIA发布TileGym项目,通过构建包含17条关键规则、API映射和验证脚本的AI Agent技能库,实现了cuTile Python GPU内核向Julia(cuTile.jl)的自动化、可重复转换。此举旨在降低高性能计算生态间的迁移成本。
NVIDIA 集成 Blackwell MIG 与 vGPU 20,重塑企业虚拟化数据中心 GPU 控制层
NVIDIA 发布技术指南,展示如何将 RTX PRO 4500 Blackwell Server Edition GPU 的 Multi-Instance GPU (MIG) 硬件分区能力与 vGPU 20 软件栈深度集成于 VMware vSphere 环境。该组合使单物理 GPU 可被安全划分为多个具备 QoS 保证的虚拟 GPU 实例,旨在高效加速从知识工作到轻量级 AI 开发的混合企业负载。
NVIDIA 发布多节点 GPU 互联性能基准测试工具 NVbandwidth
NVIDIA 在其开发者博客上正式发布 NVbandwidth 工具,这是一个基于 CUDA 的基准测试套件,用于测量单节点及多节点 GPU 系统内各种内存拷贝模式的带宽与延迟。该工具支持 NVLINK、PCIe 等多种互联拓扑,并集成 MPI 以支持跨节点集群的性能评估。
NVIDIA发布全球首个开源量子AI模型Ising
NVIDIA发布全球首个开源量子AI模型家族Ising,包含校准模型(350亿参数VLM)和解码模型(3D CNN),性能超越行业标准2.5-3倍,校准时间从数天缩短到数小时。黄仁勋称AI成为量子机器操作系统。IonQ、Harvard、Fermi Lab等机构已采用,量子股票大涨18%。
诺基亚获英伟达投资,联合推出AI-RAN平台加速6G演进
诺基亚与英伟达达成战略合作,后者将投资10亿美元并联合推出基于英伟达计算平台的AI-RAN产品。该合作旨在将AI数据中心能力嵌入无线接入网,推动5G向AI原生6G网络转型,T-Mobile将成为首个部署客户。
NVIDIA优化VC-6解码器架构,提升批量AI视觉管道性能
NVIDIA通过Nsight工具分析,对其VC-6视频解码器进行架构级重构,从单图解码器转向支持批量处理的单一解码器,并优化GPU内核,显著降低批处理场景下的解码延迟,提升AI视觉管道效率。
英伟达联合谷歌优化Gemma 4,强化本地AI代理基础设施
英伟达宣布与谷歌合作,针对其RTX、DGX Spark及Jetson平台,对Gemma 4系列开源模型进行深度优化。此举旨在将高性能、多模态AI推理能力从云端扩展至边缘设备和个人工作站,为本地AI代理(Agentic AI)提供从2B到31B参数的全栈模型支持。
NVIDIA 优化 Gemma 4 模型以加速本地代理 AI
NVIDIA 与 Google 合作优化 Gemma 4 系列模型,使其能够在从边缘设备到高性能 GPU 的各种 NVIDIA 硬件上高效运行。这些模型支持多种任务,包括推理、编码和代理功能,适用于本地代理 AI 应用。
思科推出Nexus Hyperfabric AI方案,集成800G交换机与HGX B300 GPU
思科发布Nexus Hyperfabric AI基础设施方案,整合800G以太网交换机和NVIDIA HGX B300 GPU,提供全栈预集成或灵活的'自带'模式。该方案符合NVIDIA Cloud Partner计划,旨在简化AI基础设施部署与运维。
NVIDIA cuDF加速Spark数据处理,优化企业A/B测试工作流
NVIDIA通过cuDF GPU DataFrame库和CUDA-X库,在Google Kubernetes Engine上加速Apache Spark工作流,使Snap实现4倍性能提升和76%成本节省。该方案支持无需代码修改的Spark应用迁移,处理超10PB数据。
NVIDIA与达索系统集成虚拟孪生与AI物理模型平台
NVIDIA与达索系统合作,将达索的虚拟孪生平台与NVIDIA加速计算、AI物理开放模型及CUDA-X和Omniverse库结合。该集成通过SIMULIA软件实现基于AI的物理行为模拟,支持多行业即时预测仿真结果。
NVIDIA在CCCL库中引入浮点确定性控制层级
NVIDIA在其CUDA核心计算库(CCCL)3.1中,为CUB库的规约算法新增了单阶段API和可配置的确定性级别。用户可在“不保证”、“运行间一致”和“GPU间一致”三个级别间权衡性能与结果可复现性,并引入了基于分桶算法的可复现浮点累加器(RFA)技术。
NVIDIA将CUDA Tile编程模型扩展至Julia语言
NVIDIA通过cuTile.jl包将其CUDA Tile高级GPU编程模型引入Julia语言生态。此举旨在降低高性能GPU内核开发门槛,通过数据块抽象简化底层线程与内存管理,并保持与Python版本在语法和性能上的高度一致性。
Trend Micro发布AI安全报告,揭示AI供应链风险与模型攻击面
Trend Micro发布《AI生态系统断层线》报告,系统性地分析了AI供应链中的安全风险,包括模型训练数据污染、第三方插件漏洞以及模型窃取攻击。报告指出,企业AI应用的安全边界已从传统IT基础设施扩展至模型层和数据管道。
AMD推出企业AI套件强化硬件软件整合
AMD发布企业AI套件,整合硬件与软件生态系统,提供从模型优化到部署的端到端工具链。该套件针对Instinct加速器和Ryzen AI处理器优化,旨在提升AI工作负载性能并降低开发复杂性。
AMD推出AI开发者计划强化软件生态
AMD推出集中式AI开发者门户,提供ROCm软件栈、优化框架和工具支持,旨在降低开发门槛并提升其硬件性能。该计划通过预优化模型和社区支持系统性地补强AI软件生态,直接挑战NVIDIA的CUDA主导地位。
NVIDIA 通过 NVFP4 量化与 TeaCache 技术将 FLUX.2 图像生成模型推理速度提升 10 倍
NVIDIA 与 Black Forest Labs 合作,针对 FLUX.2 [dev] 图像生成模型,在 Blackwell 数据中心 GPU 上应用了包括 NVFP4 4-bit 量化、Timestep Embedding Aware Caching (TeaCache)、CUDA Graphs 及多 GPU 支持在内的一系列推理优化技术。这些优化使模型在双 B200 GPU 配置下相比 H200 实现了 10.2 倍的延迟降低,并将内存占用减少超 40%,显著降低了高质量图像生成模型的部署门槛。
NVIDIA推动将可训练神经网络直接集成至实时图形渲染管线
NVIDIA发布技术博客,详细阐述如何将可训练的神经网络模型(神经着色)直接集成到实时图形渲染管线中。此举旨在利用专用AI硬件(如Tensor Cores)提升渲染质量与性能,标志着图形计算架构从纯手工编程向数据驱动、可学习的混合模式演进。
NVIDIA发布开源数据科学代理原型,整合Nemotron LLM与CUDA-X加速库
NVIDIA在官方博客开源了一个交互式数据科学AI代理原型。该代理使用Nemotron Nano-9B-v2作为推理引擎,通过自然语言理解用户意图,并调用基于CUDA-X库(如cuDF、cuML)的GPU加速工具层,自动化执行数据清洗、模型训练与超参数优化等任务。其模块化架构旨在实现从自然语言到高性能计算的端到端加速,据称可获得3倍至43倍的性能提升。