Filter

×
当前筛选 清除全部
关键词: vLLM ×
22 情报总数
1/2 当前页
NVIDIA Other 强信号 2026-06-01

NVIDIA RTX Spark发布:AI PC时代的开启

NVIDIA在Computex 2026正式发布RTX Spark——首款面向AI Agent时代的Windows PC超级芯片。该芯片基于TSMC 3nm工艺,整合Blackwell架构GPU(6144 CUDA核心+第五代Tensor Core,FP4精度)与20核Grace CPU,通过NVLink-C2C互联(600GB/s),提供1 petaflop AI算力和最高128GB统一LPDDR5X内存(300GB/s带宽)。笔记本最薄14mm、最轻3磅,支持本地运行1200亿参数大模型。NVIDIA与微软合作推出OpenShell运行时和Windows安全原语,Adobe正在为RTX Spark重新架构Photoshop和Premiere。首批设备秋季上市,来自ASUS、Dell、HP、Lenovo、Microsoft Surface、MSI,Acer和GIGABYTE随后跟进。预计售价$3000-4000。RTX Spark路线图延伸至2030年:2027年升级Vera CPU+Rubin GPU+LPDDR6,2029-2030年Rosa CPU+Feynman GPU。这是继2020年Apple M1之后PC行业最大的架构变革信号。

NVIDIA Other 强信号 2026-05-30

NVIDIA 发布 DynoSim 仿真框架,将 AI 服务栈优化从硬件试错转向模拟优先

NVIDIA 推出 DynoSim,这是一个基于 Rust 的、全栈离散事件仿真框架,用于对 NVIDIA Dynamo AI 服务栈进行原子级模拟。它通过虚拟时钟和组件化事件队列,将配置搜索和算法研究从昂贵的 GPU 硬件实验转变为快速模拟验证循环,旨在高效探索服务部署的帕累托前沿。

NVIDIA Other 强信号 2026-05-29

NVIDIA将Step 3.7 Flash多模态模型深度整合至其企业AI全栈

NVIDIA宣布在其加速平台上全面支持StepFun的Step 3.7 Flash模型,这是一个1980亿参数的MoE多模态模型。通过TensorRT-LLM、vLLM进行优化推理,并通过NVIDIA NIM提供生产就绪的容器化微服务部署,同时支持基于NeMo框架的Day 0微调。

Google Other 强信号 2026-05-27

Google Cloud 系统解构无服务器AI冷启动,定义生产级部署新范式

Google Cloud 发布深度指南,将AI模型在Cloud Run上的冷启动分解为四个技术阶段,并针对每阶段提出具体优化策略,包括模型4-bit量化、镜像流传输、启动CPU Boost、专用网络路径及精细的并发度调优公式。此举旨在将无服务器平台从支持AI升级为为AI深度优化的一级生产环境。

Other Other 强信号 2026-05-22

BadHost漏洞(CVE-2026-48710):Starlette单字符绕过认证,全球AI Agent基础设施面临暴露风险

安全机构X41 D-Sec在OSTIF资助的vLLM审计中发现Starlette框架认证绕过漏洞CVE-2026-48710(BadHost)。根因:Starlette用HTTP Host头拼接重建request.url时未验证Host值合法性——注入/、?或#字符可导致request.url.path与ASGI路由的scope[path]产生解析不一致,path-based认证中间件被欺骗放行受保护资源。MCP Server特别高危:MCP规范要求/.well-known/oauth-authorization-server等Discovery端点默认公开,为攻击者提供最可靠的Host头注入路径。X41 D-Sec扫描发现生物制药临床试验数据库、企业邮箱完整访问权、AWS云拓扑、身份验证公司PII、工业设备堡垒机SSH等生产系统暴露。Starlette 1.0.1(5月21日)已修复,但3个月补丁周期(2月发现→5月发布)和间接依赖链导致大量部署仍受影响。X41评级CVSS 7.0(High),Starlette维护者评级6.5(Moderate)——分歧在于path-based auth是否为anti-pattern。

AMD Other 强信号 2026-05-20

AMD发布AI Halo开发平台与Max PRO 400系列处理器,瞄准本地AI代理计算

AMD发布Ryzen AI Halo开发者平台和Ryzen AI Max PRO 400系列处理器,旨在为本地AI代理(Agent)应用提供开发与运行环境。新平台支持高达2000亿参数模型本地运行,并提供高达192GB统一内存,推动AI工作负载从云端向边缘设备迁移。

AMD Other 强信号 2026-05-12

AMD联合清华开源项目,展示AI教育多智能体架构的端云协同部署

AMD与清华大学OpenMAIC团队合作,将多智能体交互式AI课堂框架部署在其ROCm软件栈上。该方案利用Instinct GPU进行云端课程内容生成,通过Ryzen AI PC和Lemonade本地服务器处理实时、低延迟的课堂交互,实现基于统一软件栈的端云协同架构。

AMD Other 强信号 2026-05-12

AMD定义AI网络概念并推出专用AI NIC

AMD发布博客,系统性地定义了“AI网络”概念,强调其为满足分布式AI工作负载同步需求而构建的专用网络解决方案。核心是推出Pensando Pollara 400 AI NIC,通过智能流量控制、低延迟数据移动和可编程结构服务,优化GPU集群间通信。此举旨在将网络提升为与计算同等关键的基础设施层。

AMD Other 强信号 2026-05-08

AMD EPYC CPU获AWS RDS for SQL Server支持,提升云数据库性价比

AWS宣布在Amazon RDS for SQL Server中引入基于第五代AMD EPYC处理器的实例选项。此举为关键数据库工作负载提供了新的高性价比计算选择,并可能改变云上关系型数据库服务的成本与性能基准。

NVIDIA Other 强信号 2026-05-05

NVIDIA将cuOpt优化引擎封装为AI Agent技能,加速供应链决策

NVIDIA发布cuOpt Agent Skills,将GPU加速的决策优化引擎封装为AI Agent可调用的标准化技能。该方案允许LLM通过自然语言理解业务问题,并自动调用cuOpt进行数学建模与求解,将传统需数周的供应链优化流程缩短至秒级。

AMD Other 中信号 2026-05-04

AMD联合戴尔展示企业AI异构计算战略

AMD在戴尔技术世界大会上强调其异构计算产品组合,旨在为不同企业AI负载匹配合适的算力,并突出硬件安全与可管理性。此举标志着AI基础设施正从通用方案转向针对具体场景的精细化部署。

AMD Other 强信号 2026-04-27

AMD发布IDC白皮书,强调AI PC是企业部署Agentic AI的关键基础设施

AMD发布IDC白皮书,指出超过80%的企业正在规划、试点或部署AI PC,以支持Agentic AI的规模化应用。报告强调,高性能NPU和端侧AI处理对于实现实时、安全的工作流至关重要,标志着企业AI基础设施正从云端向端侧扩展。

NVIDIA Other 强信号 2026-04-24

英伟达内部规模化部署GPT-5.5驱动AI代理,定义企业AI基础设施新范式

英伟达宣布其超过1万名员工已通过Codex应用,在基于GB200 NVL72的NVIDIA基础设施上规模化使用GPT-5.5。此举不仅展示了前沿模型推理在企业内部工作流中实现‘变革性’生产力的技术可行性,更通过专用的安全云VM架构,为企业部署AI代理提供了可审计、隔离的参考范式。

Google Other 强信号 2026-04-22

Google发布Gemini企业级代理平台,定义AI代理时代技术栈

Google在Next '26上发布Gemini企业级代理平台,提供构建、扩展、治理和优化AI代理的端到端解决方案。该平台整合了新的AI基础设施、数据云、安全防御和任务执行能力,旨在将企业流程统一为单一智能工作流。

NVIDIA Other 强信号 2026-04-15

英伟达推动AI基础设施评估指标从FLOPS转向每token成本

英伟达提出应将“每token成本”而非“每美元FLOPS”作为评估AI基础设施的核心经济指标。这标志着从衡量计算输入转向衡量商业输出,涉及硬件、软件、网络的全栈优化,以降低企业AI推理的总拥有成本。

Google Other 强信号 2026-04-03

谷歌发布Gemma 4开源模型,瞄准边缘推理与AI代理架构

谷歌推出Gemma 4开源模型家族,包含从2B到31B的四个版本,强调单位参数性能突破,并原生支持AI代理工作流、多模态与长上下文。其小参数模型专为边缘设备优化,旨在将前沿推理能力扩展至移动与IoT场景。

Google Other 中信号 2026-04-03

Google发布Gemma 4开源模型系列

Google推出Gemma 4开源模型系列,包含四种规模变体,特别优化边缘计算和移动设备。该系列支持多模态处理、长上下文窗口和140多种语言,采用Apache 2.0许可。

AMD Other 强信号 2026-04-02

AMD发布突破性MLPerf 6.0推理结果,展示多节点扩展与多模态能力

AMD在MLPerf Inference 6.0基准测试中,凭借Instinct MI355X GPU在Llama 2 70B和GPT-OSS-120B模型上首次突破每秒100万令牌的推理吞吐量。其提交强调了多节点扩展效率、对新型文本到视频模型(Wan-2.2-t2v)的快速启用,以及广泛的合作伙伴生态系统复现结果。

Meta Other 强信号 2026-03-11

Meta加速自研AI芯片路线图,专注推理优化

Meta计划两年内推出四代自研AI芯片MTIA系列,采用‘推理优先’设计策略,专注于生成式AI推理任务优化。芯片基于PyTorch和开放计算标准构建,支持数据中心无缝部署。这一快速迭代策略旨在提升计算效率和成本控制。

NVIDIA Other 强信号 2026-03-11

英伟达Jetson平台推进边缘AI开源模型本地化部署

英伟达通过Jetson边缘AI平台实现开源生成式AI模型的本地化部署,支持包括Qwen3 4B和Mistral 3在内的多种模型在边缘设备运行。平台提供从Jetson Orin Nano到Thor的完整硬件选项,集成计算与内存于SoM以简化设计。关键性能指标显示,Jetson Thor可实现52 tokens/秒的Mistral 3推理速度。