AI 生成的结构化厂商动态简报
OpenAI推出了名为PaperBench的新基准测试,旨在评估AI智能体复现前沿人工智能研究论文的能力。该基准测试聚焦于智能体在真实、复杂研究任务中的表现,而非通用问答。此举标志着对AI智能体在专业、创造性工作流中实用性的评估进入更具体、更严谨的新阶段。