量子位

搜索文档
腾讯AI Lab开源可复现的深度研究智能体,最大限度降低外部依赖
量子位· 2025-08-06 05:56
行业技术发展 - 深度研究智能体(Deep Research Agents)凭借大语言模型(LLM)和视觉-语言模型(VLM)的强大能力,正在重塑知识发现与问题解决的范式 [1] - 现有开源智能体框架多依赖付费工具,限制了可复现性和普适性 [2] 公司产品创新 - 腾讯AI Lab推出全开源、多模块、层次化的智能体框架Cognitive Kernel-Pro,为深度研究智能体的开发与训练提供突破性解决方案 [4] - Cognitive Kernel-Pro在GAIA基准全集上超越开源免费框架SmolAgents,性能逼近依赖付费工具的智能体,在GAIA-text上训练的8B模型超越WebDancer和WebSailor-7B [5] - 公司公开Agent Foundation Model的训练配方,提供可复现的训练路径 [7] - 相关技术报告及代码已开源,框架以Python代码为动作空间,充分发挥现代LLM的推理和代码生成能力 [8][10] 技术架构设计 - 模块化架构:采用两层多模块设计,包含主智能体和多个子智能体,确保模块独立性和扩展性 [11] - 状态管理与规划:通过"进度状态"机制记录已完成步骤、待办任务等,提升复杂任务处理效率 [11] - 标准化任务接口:主智能体与子智能体通过简洁文本接口通信,子智能体以Python函数形式定义 [11] - 测试时优化:引入反思机制和投票机制,通过评估和优化动作轨迹提升任务完成质量 [11] 数据训练方法 - 训练流程覆盖网页导航、文件处理、代码生成和推理等多个领域,包含高质量Web Agent数据构建、Persona Hub数据增强、推理数据优化和轨迹采样等创新方法 [15][16][17] - 使用OpenWebVoyager、Multihop URLQA、AgentWebQA等数据集,涉及1,259至32,231不等的查询和步骤数量 [16] 性能对比优势 - 在GAIA基准测试中,Cognitive Kernel-Pro(使用Claude-3-7模型)平均得分70.91,超越多数开源框架 [19] - 8B模型CK-Pro-8B在GAIA-text基准测试中超越WebDancer和WebSailor类似大小模型,体现框架和训练方法优越性 [22][23] - 反思功能消融实验显示,开源模型Qwen-3-32B能提供接近GPT-4.1的反思效果 [24][25] 开源与工具策略 - 框架强调LLM和VLM的内在能力,最大限度降低外部依赖,实现真正的全开源 [20] - 支持灵活切换免费API(如DuckDuckGo),提升可访问性 [20] - 相较于依赖Jina Reader、FireCrawl等付费工具的现有开源框架,Cognitive Kernel-Pro更具功能全面性和开源优势 [14][20]
“神经-符号”融合规划器性能显著超越o1:借鉴人类运动学习机制|中国科学院磐石研发团队
量子位· 2025-08-06 05:56
科研智能规划技术突破 - 中国科学院磐石研发团队提出新型"神经-符号"融合规划器,融合神经规划系统与符号规划系统优势,解决传统智能规划方法效率低下和盲目性高的问题[1] - 该技术借鉴人类闭环反馈机制构建双向规划机制,在表达能力、适应能力、泛化能力和可解释性上显著提升[3] - 规划器已集成至"磐石·科学基础大模型",面向科学领域提供专用模型支持[5] 闭环反馈机制设计原理 - 基于人类运动学习的Knowledge of Result(KR)闭环系统,通过反馈、错误检测和纠正实现动态调整[6][7] - 规划任务与人类运动学习具有相似性,将问题、规划器和动作序列对应为试验、学习者和行动序列[8] - KRCL机制通过正向神经规划器生成动作序列与反向KR反馈构成动态闭环,实现双向信息传递和持续校正[10] 神经与符号系统融合架构 - 采用神经规划器与符号规划识别器双向连接模式,结合神经网络的表示能力与符号系统的可解释性[11][12] - 正向神经规划器生成高效灵活的动作序列,反向符号规划识别器推理最可能目标并增强模型可解释性[14][15][16] - KR增强信息通过文本相似度量化,校正结果并提升规划精准度[17] 自适应反馈控制机制 - 引入自我控制机制,根据问题难度和模型表现动态激活反向规划识别器,避免固定KR机制的冗余反馈[18][20] - 通过预定义阈值控制反馈频率,减少规划器对反馈的依赖性,提升模型自主性和学习效率[21][22] 性能评估与行业对比 - 在IPC竞赛8个规划任务中,KRCL平均覆盖率达70.81%,显著高于ASNet(57.12%)和OpenAI o1等竞品[23][24] - PlanBench测试显示KRCL在Blocks和Mystery Blocks任务中覆盖率均达100%,平均耗时0.8秒,远优于o1的75.33%覆盖率和61.9秒耗时[25][26]
英伟达推理服务器被曝高危漏洞,云端AI模型被攻击直接裸奔
量子位· 2025-08-06 05:56
英伟达Triton推理服务器漏洞事件 漏洞概述 - 英伟达Triton推理服务器被曝存在一组高危漏洞链,可被组合利用实现远程代码执行(RCE),攻击者可读取或篡改共享内存数据,操纵模型输出,控制整个推理后端行为[2] - 漏洞可能导致模型被盗、数据泄露、响应操纵及系统失控等严重后果[3][5] - 英伟达已发布补丁,但25.07版本之前的系统均存在风险,需更新至最新版本[4] 漏洞危害性 - 攻击者可窃取专用且昂贵的AI模型(Model Theft)[5] - 可实时读取模型输入输出,截取敏感数据如用户信息或财务数据(Data Breach)[5] - 可操纵AI模型输出,使其产生错误、有偏见或恶意回应(Response Manipulation)[5] - 攻击者可利用被攻陷服务器作为跳板,进一步攻击组织内其他系统(Pivoting)[6] 漏洞技术细节 - 漏洞链由三个漏洞组成:CVE-2025-23320(信息泄露)、CVE-2025-23319(越界写入)和CVE-2025-23334(越界读取)[8][9][10] - 攻击路径:通过CVE-2025-23320获取共享内存标识符,再利用CVE-2025-23319和CVE-2025-23334实现越界读写,最终完全控制服务器[12][14] - 具体攻击方式包括破坏共享内存数据结构、伪造和操控IPC消息队列等[15][16] 漏洞成因分析 - Triton采用模块化后端架构,Python后端被广泛用于推理流程中,成为安全薄弱点[18][22] - Python后端的C++组件与stub进程间采用命名共享内存进行高速数据交换,共享内存名称泄露可能被攻击者利用[25] - 通用平台设计虽灵活但增加了安全风险,一处漏洞可影响整个系统[26] 当前状态 - 漏洞目前仅存在于实验室环境,尚未发现实际攻击案例[27] - 英伟达已修复漏洞并发布Triton Inference Server 25.07版本[28]
AI时代硬核EMBA来了!交大高金「科技强国计划」全额奖学金等你来拿
量子位· 2025-08-06 05:56
交大高金2026级EMBA项目升级 - 上海交通学院上海高级金融学院2026级EMBA项目全新升级,首次将AI技术与法律规则深度融入金融与管理教育 [1][6] - 项目构建「科技强国人才培养专项奖学金」,针对优秀科创人才提供全额或半额奖学金支持 [1][20] - 项目面向新兴战略产业、具备鲜明科创属性的企业实际控制人、联合创始人或主要股东开放招生 [4] 课程体系与方向 - 以「交叉融合」为核心理念,深度整合上海交通大学人工智能学院等多学科顶级资源 [6][11] - 新增「金融×AI」方向,将AI从技术概念转化为金融机构和企业实际业务场景的解决方案 [7] - 新增「金融×法律」方向,助力企业决策者和金融机构管理者提升「法商融合」实战能力 [8] - 课程体系包含13大系列、70+门课程,打造交叉复合的系统知识体系与综合能力素养 [17] 学术资源与合作 - 高金与上海交通大学人工智能学院达成战略合作,共同开展「金融×AI」交叉学科课题研究 [7] - 合作内容包括整合金融与人工智能领域资源,开设「金融×AI」课程体系,加速孵化高端复合型人才 [7] - 项目师资包括两院院士及海内外科创大咖 [13] 项目优势与排名 - 金融学中国内地NO.1(2021年软科世界一流学科排名) [15] - 计算机学科人工智能分项全球NO.1(2025年"CS Rankings") [15] - 工商管理等46个学科A+评级(2023泰晤士高等教育中国学科评级) [15] - 商业与管理研究中国内地Top1(2023 QS世界大学学科排名) [15] 奖学金计划 - 「科技强国人才培养专项奖学金」提供全额或半额学费支持 [20][24] - 全额奖学金覆盖全部学费,授予最具颠覆性潜力、最符合国家战略需求的顶尖科创人才 [24] - 半额奖学金覆盖50%学费,授予综合表现优秀、潜力突出的科创人才 [24]
AlphaGo开发者创业挑战DeepSeek,成立仅一年目标融资10亿美元
量子位· 2025-08-06 05:56
公司概况 - Reflection AI由前谷歌DeepMind成员、AlphaGo开发者创立,致力于开发开源大语言模型 [1][10] - 公司CEO Misha Laskin是Gemini系列核心研究员,CTO Ioannis Antonoglou曾参与AlphaGo研究并领导Gemini工作 [11][13] - 团队由来自DeepMind、OpenAI和Anthropic的前工程师和科学家组成 [14] 融资与估值 - 公司目标融资10亿美元用于新模型开发 [8][17] - 此前已获1.3亿美元风投,估值达5.45亿美元 [17] 产品与技术 - 首款AI智能体Asimov已发布,较Claude Code Sonnet 4等模型获得更多用户偏好 [5][19] - Asimov专为代码理解设计,能索引代码仓库、架构文档、GitHub讨论串等多种信息 [20] - 采用多智能体协同架构,由小型智能体负责检索信息,大型推理智能体整合回答 [21] - 能捕捉决策原因、系统实际运作方式等隐性信息,并转化为团队共享资源 [22] - 每个答案附带确切引用来源,提高可验证性 [24] 市场定位与战略 - 公司目标成为美国领先的开源AI模型供应商 [4][18] - 战略受中国开源模型如DeepSeek等影响,瞄准美国本土市场 [9][15][17] - 开源模型因成本低、灵活性高、可微调等特点,企业需求大增 [16] 行业影响 - 中国开源模型如Qwen系列、Kimi K2等势头火热,对美国AI行业产生催化作用 [3][15] - Meta因模型表现不佳,正大规模招聘改进,甚至考虑开发封闭大模型 [15]
一个APP就能拍短片!人物、字幕、BGM……AI Agent统统自己搞定
量子位· 2025-08-06 05:56
核心观点 - 剪映旗下内容创作Agent小云雀通过文生数字人和参考图生视频功能显著降低视频创作门槛 [3][18] - 该工具能自动完成分镜、台词、字幕、转场等全流程制作实现"一句话打造爆款" [3][36] - 在主体一致性、风格多样化方面表现突出解决传统AI视频割裂感问题 [20][21][38] - 已从单纯生成工具升级为可交付商业级内容的创意智能伙伴 [33][34] 功能特性 文生数字人 - 通过提示词直接生成定制化数字人演员支持多角色同框 [3] - 自动分析用户需求设计角色并学习抖音爆款节奏生成分镜脚本 [13] - 测试案例显示5分钟内可完成拿破仑生平故事视频制作 [14] 参考图生视频 - 突破传统图生视频局限能基于单图生成完整叙事内容 [19] - 测试案例中哈利波特角色图被扩展为退休摇滚乐手故事 [20] - 乐高版成语课堂案例展示跨场景角色一致性控制能力 [22] 商业应用 - 服装带货视频测试实现单图生成多场景穿搭展示 [24][25] - 预计可降低电商产品80%实拍成本替代模特布景等环节 [26][27] - 内置Seedream3 0模型可输出商业级海报及视频封面 [28][29] 技术突破 - 采用多智能体协同架构实现自然语言驱动的创作流程 [38] - 系统具备自主判断能力可根据任务动态调整创作策略 [38] - 中文渲染水平达业界第一梯队解决图文排版错乱问题 [29] 市场定位 - 覆盖短剧、自媒体、电商营销三大核心场景 [31] - 当前处于限时免费阶段已上线主流应用商店 [38] - 定位为"创意智能伙伴"而非单纯执行工具 [34][35]
谷歌“世界模拟器”深夜上线!一句话生成3D世界,支持分钟级超长记忆
量子位· 2025-08-06 01:43
产品发布 - 谷歌DeepMind发布新一代通用世界模型Genie 3 [2] - Genie 3支持720P画质、每秒24帧实时导航以及分钟级一致性保持 [4] - 相比Genie 2,Genie 3在画质、交互方式、时长和实时性方面大幅提升 [14] 性能对比 - Genie 3分辨率从Genie 2的360p提升至720p [5] - 交互方式从有限的键盘/鼠标操作升级为导航和可提示世界事件 [5] - 交互时长从10-20秒延长至多分钟,并实现实时交互 [5] - 与同类产品相比,Genie 3在分辨率、领域通用性和交互时长上具有优势 [15] 技术特性 - Genie 3生成结果具备3D空间一致性,世界更加丰富且更具动态 [15] - 能够模拟世界的物理特性,处理水面等自然现象和复杂环境相互作用 [16] - 支持构建现实场景、虚拟场景如动画和童话世界 [18][20][22][23] - 可超越地理和时间界限,探索不同地方和时代 [25] 核心优势 - 长期环境一致性:画面中物体在几分钟内保持物理一致性 [27][28] - 视觉记忆可追溯至一分钟前,误差累积问题得到改善 [29][30] - 支持基于文本提示在世界中生成事件,如更换物体或添加动态元素 [33][35] 应用场景 - 推动具身智能体研究,为智能体训练生成兼容性环境 [37][39] - 在面包店、农贸市场等场景测试智能体操作和未来事件模拟 [41][43] - 有望在AGI发展过程中发挥关键作用,推动智能体技术落地现实世界 [44] 测试反馈 - 前DeepMind科学家生成57秒城市高空漫游场景,评价其通用性强且具备物理学习能力 [6][7][9] - Reddit网友认为Genie 3可能是通往AGI的最后一块拼图 [10] - 目前以研究预览形式发布,邀请专业研究者和创作者测试 [13]
刚刚,OpenAI开源2个推理模型:笔记本/手机就能跑,性能接近o4-mini
量子位· 2025-08-05 21:09
开源模型发布 - 公司时隔6年再次开源大模型,推出gpt-oss-120b(1170亿参数)和gpt-oss-20b(210亿参数)两个推理模型,采用Apache 2.0许可证允许商用[1][3][4] - 模型名称直接标注为开源系列(Open Source Series),性能达到开源模型第一梯队,但在代码生成和复杂推理任务中仍略逊于闭源模型[4][5] - 大模型采用MoE架构,gpt-oss-120b激活参数51亿/总参数1170亿,gpt-oss-20b激活参数36亿/总参数210亿,分别支持单张80GB GPU和16GB内存消费级设备运行[6][30] 技术参数对比 - 在MMLU(通用学科测试)中,gpt-oss-120b得分90分,接近o4-mini的93分;gpt-oss-20b得分85.3分[7][50] - 竞赛数学AIME测试中,gpt-oss-120b在2024/2025年分别取得96.6/97.9分,超越o3-mini但略逊于o4-mini的98.7/99.5分[7] - 健康问答HealthBench和工具调用TauBench测试中,gpt-oss-120b表现超越o4-mini,gpt-oss-20b达到或超过o3-mini水平[41][42][47] 架构与训练 - 采用Transformer+MoE架构,使用分组多查询注意力(组大小8)和旋转位置嵌入(RoPE),支持128k上下文长度[29][31] - 训练数据聚焦STEM、编程和通用知识领域,使用o200k_harmony分词器(同步开源)[33] - 后训练流程包含监督微调和强化学习阶段,支持低/中/高三种推理强度调节,通过系统提示语即可设置[35][38][39] 应用演示 - 实测显示gpt-oss-120b在Macbook Pro(配2块H100)上可实现40-50 tokens/s生成速度,成功完成断网环境下的工具调用和游戏修改[13][17][18][20][22][24] - 模型展现优秀的思维链能力,能通过多次调用Python工具完成天气查询等任务,虽存在中间错误但最终输出正确[14][15][18] 开源战略意义 - 公司称此次开源是"开源权重模型的重要进步",旨在降低AI门槛、推动研究创新,特别帮助资源受限组织获取先进AI工具[59][60][61] - 开源模型作为托管模型的补充,可促进AI开发民主化,实现更安全透明的AI生态[60][62] - 这是自GPT-2后首个开放权重的语言模型,包含数十亿美元研究成果[7][28]
叫板英伟达RTX 5090!GPU初创公司做出13倍路径追踪性能的怪兽显卡
量子位· 2025-08-05 13:34
核心观点 - 芯片初创公司Bolt Graphics推出的Zeus 4C GPU在路径追踪场景中性能达到RTX 5090的13倍,但并非针对游戏市场,而是专注于高精度图形渲染领域[1][7][8] - Zeus GPU在浮点运算性能上远逊于NVIDIA旗舰产品,且内存带宽不足,游戏表现可能不及RTX 3060[9][10][11] - 公司技术路线聚焦于电影特效、建筑可视化等专业渲染领域,采用FP64双精度浮点运算架构[12][14] - 产品量产时间表显示2026年推出开发者套件,2027年正式量产,当前缺乏第三方测试验证[29][30] 产品性能对比 硬件规格 - 板卡功耗:Zeus 2c26-064仅250W,显著低于RTX 5090的575W[9] - 浮点运算:FP32性能20 TFLOPS,仅为RTX 5090(105 TFLOPS)的19%[9] - 内存配置:采用LPDDR5X内存,带宽725GB/s,比RTX 5090的GDDR7(1.8TB/s)低60%[9][10] - 路径追踪:154 gigarays性能,是RTX 5090(32 gigarays)的4.8倍[9] 架构特点 - 采用模块化设计:基础型号含1个计算核心,顶配Zeus 4c26-256集成4个计算核心+4个I/O核心[17][18][19] - 扩展能力:提供2-8个SODIMM插槽弥补内存带宽限制[20] - 视频编码:支持4路8K60 AV1编码,优于RTX 4090的3路[9] 市场定位 - 目标行业:电影视觉特效(占渲染市场38%)、建筑可视化(24%)、工业设计(18%)等高精度图形渲染领域[12] - 技术优势:路径追踪性能突破现有硬件水平,4K/120fps渲染效率达行业标杆13倍[8][14] - 竞争策略:避开游戏/AI主战场,专注设计类工作负载的能效比优化[24] 商业化进展 - 开发进度:尚未公布基准测试方法论,缺乏与竞品的直接对比数据[29] - 时间规划:开发者套件预计2026年面世,量产计划定于2027年[30] - 定价策略:未披露具体价格区间,社交媒体回应"Pricing soon"[33] 行业影响 - 潜在颠覆:可能打破NVIDIA/AMD在专业渲染市场的垄断,但需验证实际商用表现[26][27] - 技术壁垒:双精度浮点架构在HPC领域具备差异化优势,但游戏/AI生态建设滞后[14][24] - 市场验证:需观察2026-2027年产品落地后的客户采纳率与生态建设[28][30]
首批“数字员工”组团进大厂!7个岗位干爆KPI,提前锁定年度最佳企业级Agent
量子位· 2025-08-05 13:34
核心观点 - 百度智能云发布7款"数字员工",覆盖招聘顾问、营销经理等核心岗位,具备自主决策、执行、洞察、反哺能力,能显著提升业务效率[6][7][9] - 数字员工采用"超强双脑"架构(智能决策大脑+拟真交互小脑),结合行业SOP与大模型技术,实现类人类工作闭环[35][37][48] - 产品支持开箱即用,预置100+行业模板,提供低代码接入方式,可快速融入企业现有系统[26][27][28] 产品功能 岗位覆盖 - 招聘顾问数字员工:批量处理候选人信息,缩短招聘周期40%,自动完成初筛与面试邀约[12][4] - 营销经理数字员工:解读高价值客户需求,复刻顶级销冠逻辑提升转化率[15] - 汽车电销数字员工:基于用户意图秒级生成定制方案,覆盖跟单全链路[18] - 课程顾问数字员工:7×24小时追踪客户行为,提升教育行业转化效率40%[21][22][4] 技术架构 - 智能决策大脑:基于大模型Agent架构,集成意图识别、多智能体协同系统,支持原子级任务拆解[37][41] - 拟真交互小脑:采用4D扫描技术生成4K数字人形象,支持小时级数字分身生成,语音识别准确率达98%[45][46][48] - 自进化能力:通过实时交互优化话术策略,部署时间越久专业度越高[48][59] 行业应用 部署优势 - 预置教育、快消、汽车、金融等行业模板,支持全业务流程环节[26][38] - 提供SaaS化/私有化/混合云部署方案,兼容企业微信等主流平台插件[26][28] - 支持企业定制数字员工形象与文化标识[29] 市场前景 - 企业AI营销市场规模预计从2023年172亿元跃升至2029年万亿级[52] - 重点拓展教育、汽车、金融三大行业,解决传统AI工具割裂化与交互机械化痛点[53][61] - 百度智能云凭借"云智一体"战略形成技术-场景-数据自进化飞轮壁垒[55][57][59]