LLM - AI基础设施情报搜索

Palo Alto Networks 其他 2026-07-17

Palo Alto Networks推出AI Gateway，意图成为企业AI流量的统一控制平面

Palo Alto Networks宣布AI Gateway正式全面上市，整合收购的Portkey技术，定位为企业的AI控制平面。该平台提供统一执行点支持LLM、MCP和A2A协议，已处理超68万亿token，实现亚毫秒级路由延迟。

NVIDIA 其他 2026-07-16

NVIDIA联手日本打造主权AI与物理AI生态，发布T3000/T2000模块和Cosmos 3 Edge

NVIDIA发布基于Thor架构的T3000/T2000超级计算模块和Cosmos 3 Edge世界模型，与日本Noetra联盟签约部署13750颗Vera CPU+27500颗Rubin GPU（140MW），主权AI收入FY2026三倍增长至300亿美元以上，物理AI生态加速成型。

Google 其他 2026-07-15

Google BigQuery深度集成Gemini Enterprise，重塑AI治理控制权

Google Cloud推出方案，将Gemini Enterprise应用的遥测数据（用户提示、模型响应、活动日志）实时路由到BigQuery。利用BigQuery的AI分析能力（Conversational Analytics、自动Schema生成），实现大规模AI部署的自动化审计、合规治理和业务洞察，强化数据驱动的AI可观测性。

Apple 其他 2026-07-15

Apple洽谈PrismML压缩Qwen 27B模型，端侧AI实现15倍内存缩减

Apple正与AI初创公司PrismML洽谈，利用其压缩技术将阿里巴巴Qwen 27B参数模型部署到iPhone上。该技术通过1-bit量化、蒸馏和架构优化，使模型仅需10GB VRAM运行，实现15倍内存减少，推动端侧AI从云端调用转向本地推理。

Other 其他 2026-07-14

SANS发现49个IP分布式扫描MCP服务器，AI基础设施成安全新靶

SANS Internet Storm Center披露攻击者系统性地扫描MCP服务器、AI助手配置文件和本地LLM端点。49个独立IP发起MCP握手，利用CVE-2026-25536和CVE-2026-34742，标志AI基础设施成为攻击焦点。

AMD 其他 2026-07-10

AMD实验性Topological Ghost Protocol使MI300X推理吞吐量飙升10倍

AMD在MI300X GPU上实验性推出Topological Ghost Protocol（TGP），通过KV-cache回收与分段状态管理，在高并发推理中实现431 tokens/秒吞吐量，较标准vLLM的42.7 tokens/秒提升10倍，成功率100%。该技术仍处实验阶段，但可能重新定义AI推理性能基准。

CrowdStrike 其他 2026-07-08

CrowdStrike借AIDR五倍增长切入身份安全，争夺AI运行时控制平面

CrowdStrike报告其AI检测与响应产品AIDR需求增长五倍，并借此拓展至身份安全领域。该产品监控AI应用数据流、检测提示词注入与模型越狱，同时发布Shadow AI Discovery for Endpoint，自动发现终端上的AI应用与LLM运行时。此举标志着安全控制点从传统端点向AI工作负载与身份融合的转移。

Check Point 其他 2026-07-02

Check Point推出AI编排平台并收购Deepchecks，意图控制安全策略平面

Check Point发布Agentic网络安全编排平台，将静态防火墙规则转为基于意图的策略，并收购Deepchecks LLM团队以集成持续评估与监控。核心是专有网络知识图谱，四个模块涵盖策略转换、零信任收紧、自主排障和持续合规。

OpenAI 其他 2026-06-25

OpenAI联合博通发布推理ASIC Jalapeño，摆脱NVIDIA GPU依赖

OpenAI与博通合作推出首款定制AI推理芯片Jalapeño，9个月完成流片，专为大模型推理优化。OpenAI负责架构，博通负责网络硬件，Celestica集成。计划2026年底大规模部署，配套千兆瓦级数据中心，旨在降低推理成本并减少对NVIDIA的依赖。

Huawei 其他 2026-06-25

华为推AI原生网络架构：从字节计费转向Token货币化，UCM缓存突破长上下文瓶颈

华为在MWC上海2026发布AI原生网络架构，集成服务-网络-计算，实现从流量中心到智能中心的转变。核心是Unified Cache Manager（UCM）将KV缓存扩展至PB级外存，在GLM-5.1模型128K序列长度下实现372% token吞吐量提升。同时推出token货币化框架，允许运营商按AI推理容量计费，并引入agentic运营模式。

NVIDIA 其他 2026-06-25

高通发布Dragonfly数据中心CPU与HBC内存，以推理优先架构挑战NVIDIA霸权

高通在投资者日公布完整数据中心路线图，包括250核Oryon CPU（Dragonfly C1000）、近内存计算HBC（声称133TB/s带宽）、AI300推理加速器（54x带宽提升），以及800G/1.6T互联。与Meta签署多年CPU供应协议，2028年商用，旨在以低功耗高带宽颠覆AI推理市场。

OpenAI 其他 2026-06-25

OpenAI联手Broadcom推出Jalapeno推理芯片，重塑AI硬件生态

OpenAI与Broadcom合作开发了名为Jalapeno的LLM推理加速芯片，采用多芯片模块、HBM3E内存，9个月完成流片。该芯片专为OpenAI模型栈优化，旨在降低推理成本并减少对NVIDIA GPU的依赖，计划2026年底部署。

Huawei 其他 2026-06-24

华为联合湖北移动验证AI推理加速：外置存储KV Cache提升吞吐372%

华为与湖北移动完成全国首个运营商AI推理加速方案现网测试，基于OceanStor A800存储与昇腾A3超节点，通过UCM技术将KV Cache外置至PB级存储，实现长序列推理TPS最高提升372%。该方案针对GLM-5.1和MiniMax M2.5模型在8K-190K序列场景验证。

CrowdStrike 其他 2026-06-21

CrowdStrike用SPIFFE+持续授权重构AI代理身份安全控制层

CrowdStrike发布Continuous Identity for AI Agents，基于SPIFFE标准为每个AI代理分配加密可验证身份，通过Falcon AIDR实时检测提示和意图，实现零常驻特权与动态授权，取代传统静态策略，解决AI代理身份管理的核心挑战。

Google 其他 2026-06-19

Google联合XREAL推Android XR眼镜，AI平台控制层争夺战升级

Google与XREAL联手发布全球首款搭载Android XR系统、骁龙Reality Elite芯片及Gemini AI的XR眼镜Project Aura。此举旨在通过开放平台与AI能力，争夺空间计算的操作系统控制权，直接挑战Apple与Meta的封闭生态。

Fortinet 其他 2026-06-19

Fortinet联手NVIDIA推出FortiAIGate，AI安全控制点从边界转向GPU加速内联

Fortinet发布FortiAIGate，集成NVIDIA Blackwell GPU与Dynamo推理框架，以内联模式实时保护数据中心和云端AI工作负载、数据与自主代理。声称极低延迟、多租户扩展，支持地端、云端、混合云及边缘部署。

CrowdStrike 其他 2026-06-19

CrowdStrike以Continuous Identity方案抢占AI Agent身份安全控制平面

CrowdStrike发布Continuous Identity for AI Agents，基于SGNL收购技术，通过SPIFFE标准、实时风险评估和上下文感知授权，取代传统静态权限模型，将Falcon平台定位为智能体企业的身份安全控制平面。

NVIDIA 其他 2026-06-18

NVIDIA借法国AI基建合围欧洲：开放模型Nemotron背后的硬件锁定

NVIDIA联合法国政府、Mistral、Scaleway等部署GB200、Blackwell B300及Vera Rubin NVL72硬件，并通过Nemotron开放模型联盟吸引LINAGORA、H Company等，构建以NVIDIA为中心的AI基础设施生态，表面开放实则强化硬件依赖。

HPE 其他 2026-06-17

HPE整合Morpheus与GreenLake，打造统一代理控制平面锁定混合云与AI

HPE宣布将Morpheus软件深度集成至GreenLake平台，提供统一代理编排与控制平面，覆盖AI工厂和传统工作负载。同时推出GreenLake Intelligence代理AIOps，并与ServiceNow、Citrix深化合作，旨在以单一运营模型降低虚拟化成本、简化混合云复杂性。

NVIDIA 其他 2026-06-17

NVIDIA ACE本地化：用RTX硬件锁定游戏AI，控制点从云端移至GPU

NVIDIA发布ACE Game Agent SDK（开源C/C++框架）和UE5插件（ASR/SLM/TTS），将AI NPC推理完全本地化至GeForce RTX。配套DLSS 4.5插件支持多帧生成。此举旨在将游戏AI控制权从云服务商转移到NVIDIA GPU生态，但隐藏了硬件锁定与模型性能折衷。

情报

筛选