Workflow
机器之心
icon
搜索文档
让大模型合成检查器:UIUC团队挖出Linux内核90余个长期潜伏漏洞
机器之心· 2025-09-28 00:32
这篇论文的作者来自伊利诺伊大学香槟分校(UIUC)张令明老师团队,包括:杨晨源,四年级博士生,研究方 向是基于 AI 大模型的软件系统可靠性保障;赵子杰,四年级博士生,研究方向是模糊测试等软件工程技术与 AI 大模型的结合;谢子晨,科研实习生,目前为弗吉尼亚大学一年级博士生;李皓宇,科研实习生,目前为 UIUC 一年级博士生。张令明老师现任 UIUC 计算机系副教授,主要从事软件工程、机器学习、代码大模型的 相关研究。 想象一下,大语言模型不仅能生成代码,还能通过静态分析看代码找漏洞:在千万行的 Linux 内核代码中挖出 92 个长期潜伏的真实缺陷 —— 这也可能是 LLM 首次在 Linux 内核中发现如此多的实际漏洞。最近的报道指 出,OpenAI 的 o3 模型已经在 Linux 内核中发现了一个零日漏洞;而本文的 KNighter 更进一步,通过自动生成 静态分析检查器,把模型的洞察沉淀为工程可用、用户可见的逻辑规则,实现了规模化的软件漏铜、缺陷挖 掘。 一句话亮点: 别再让大模型直接扫几千万行代码了 —— 让它从历史修复补丁学模式、再自动合成静态分析检查 器 。KNighter 把 LLM 的归纳 ...
规范对齐时代:GPT-5 断层领先,让安全与行为边界更明晰
机器之心· 2025-09-27 06:18
张昊然,上海交通大学人工智能学院的博士一年级学生,主要研究兴趣为大模型推理和可信人工智能。 去年 12 月,OpenAI 提出的 Deliberative Alignment 引发了广泛关注。面对用户安全风险,大模型不再止于简单拒绝,而是将规范意识融入思考过程,主动识别边 界,清楚哪些可以回应,哪些必须避免。推动这一转变的核心是「规范」(specification,spec),即在特定情境下约束模型行为的规则与准则。近年来, OpenAI、Google 等基础模型厂商纷纷将规范融入大模型,以此明确智能体应当遵循的行为标准。 想想我们日常的世界。社会有法律条款,明确划出不可触碰的禁区;行业有职业规范,提醒我们该怎么做事;还有道德准则,提醒我们别越过良心底线。这些就 像是模型需要遵守的 安全规范 (safety-spec),是一条条必须坚守的红线。与此同时,在工作和生活中,我们还要面对一套又一套灵活多变的规则:公司 KPI、岗 位职责、写报告要有逻辑、客服回复要有温度。这些就是 行为规范 (behavioral-spec),它们会随着场景和目标不断变化,甚至时时更新。 问题随之而来:在这样一个多规并存的现实中,大 ...
OpenAI研究大模型对GDP贡献,三大行业已能代替人类,并自曝不敌Claude
机器之心· 2025-09-27 06:13
GDPval评估方法 - OpenAI推出名为GDPval的新评估方法 用于跟踪模型在具有经济价值的现实世界任务上的表现[1] - 该方法以国内生产总值(GDP)作为关键经济指标 从对GDP贡献最大的行业中的关键职业中提取任务[3] - GDPval是首个版本 涵盖从对美国GDP贡献最大的9个行业中甄选出的44个职业 如软件开发人员 律师 注册护士和机械工程师等[16] 评估结果与模型表现 - 在GDPval黄金数据集的220项任务中 前沿模型已接近行业专家的工作质量[3][4] - Claude Opus 4.1是该数据集中表现最佳的模型 在49%的任务中被评为优于或与行业专家相当[9] - GPT-5在准确性方面更为出色 从2024年春季的GPT-4o到2025年夏季的GPT-5 性能提高了一倍多[9][10] - 前沿模型完成GDPval任务的速度比行业专家快约100倍 成本也低100倍[13] - AI在政府部门 零售和批发上的能力已经达到或超越人类水平[7] 评估体系设计 - GDPval全套评估包含1320项专业任务 黄金开源评估包含220项任务[18] - 每项任务均由平均拥有超过14年相关领域从业经验的专业人士设计并审核[18] - 每项任务基于真实工作成果 如法律摘要 工程蓝图 客户支持对话或护理计划 经过至少5轮审查[18] - 任务附带参考文件和上下文 预期交付成果涵盖文档 幻灯片 图表 电子表格和多媒体[19] 评估方法 - 通过专家评分员在盲评下比较AI和人类的交付成果 给出"更好" "相当"或"更差"的排名[21] - 任务编写者制定详细评分标准确保一致性和透明度[21] - OpenAI开发了"自动评分员"作为辅助工具 但目前可靠性不如专家评分员[21] 未来发展与影响 - OpenAI计划继续扩展GDPval 涵盖更多职业 行业和任务类型 提高交互性[22] - 模型能够比专家更快 更低成本地完成重复性 明确规定的任务[21] - 人工智能可以处理日常任务 让人们将更多时间投入到创造性和判断性较强的工作中[21] - 人工智能补充工人可以转化为显著的经济增长[21]
AI能「拍」好电影?五部短片亮相釜山电影节,答案出乎意料
机器之心· 2025-09-27 06:13
全AI生成剧情长片技术突破 - 全AI生成高质量剧情长片在技术上已成为可能 [1] - 中国香港动画公司ManyMany Creations Limited成功制作首部全AI生成短片《九宵》,片长17分钟且每个镜头均由AI生成 [2][3][5] - 该短片入选第30届釜山国际电影节AI电影国际峰会,成为香港首部全AI短片 [5] AI影像技术应用与工业链发展 - 五部入围釜山电影节的AI短片均使用字节跳动旗下即梦AI及火山引擎的Seedance(视频生成)和Seedream(图像创作)模型 [17] - 基础模型实现高速迭代,AI影像在质感、流畅度与真实感上全面提升,并能通过文字描述生成精准运镜与叙事节奏 [18] - 火山引擎Seedream 4.0实现多图融合功能,支持通过角色照片和分镜描述批量生成连环画式分镜 [23] - 首尾帧功能解决AI视频生成的一致性与可预测性挑战 [24] 博纳影业的AI战略与实践 - 博纳影业2023年底成立国内首个AI制作中心,联合抖音、即梦AI推出科幻短剧集《三星堆:未来启示录》 [20] - 第一季采用"AI+"模式,利用AI不确定性生成大量场景与人物供人工筛选 [21] - 第二季升级为"+AI"模式,整合传统电影工业流程(剪辑、调色、特效、后期),达到院线级别成片水准 [22] - 制作周期压缩至1.5-2年,成本低于传统院线电影 [25] - 基于火山引擎多模态底座打造"博卡短剧平台"和"博卡圆桌—剧本生成平台",实现从一句话成片到年轻创作者发掘 [29] AI对创作生态的重塑 - 非影视科班创作者也能通过AI工具实现影像叙事,入围作品作者包含非专业背景人员 [31] - 小型团队产能大幅提升:《九宵》20多人团队在半年内完成传统3D流程难以实现的高质量作品 [31] - AI带来创作自由:通过概念图即可生成相应场景和角色,频繁更换人物造型和服装成为可能 [31][32][42] - 虚拟歌手Yuri案例:AI Talk团队5-6人工作室打造虚拟歌手,首支歌曲《Surreal》播放量突破1100万 [34][35] - OmniHuman技术实现数字人自然表现,1.5版本实现手部动作配合、镜头自由切换和表情自适应变化 [36] 技术瓶颈与未来展望 - 长镜头生成存在限制:超过5秒画面稳定性急剧下滑,难以支撑复杂调度叙事 [46] - AI需理解物理规律:人物与大型道具同框时比例和透视失真问题待解决 [47] - 奥斯卡自2026年起允许AI参与创作影片参评 [45] - 火山引擎Seedance 1.0 Pro缩短从创意到成品时间,使AI内容具备可交付性 [39] - 创作者核心价值凸显:当通用内容由AI自动生成后,艺术鉴赏力与独特创作理念成为差异化关键 [48]
先验+后验加持,大模型能否 hold 住推理预测的现实「溢出」?
机器之心· 2025-09-27 01:30
本文来自PRO会员通讯内容,文末关注「机器之心PRO会员」,查看更多专题解读。 引言 :近日,字节跳动等推出的 FutureX 动态评测基准,让大模型在答案未知、数据动态更新和闭环检验的情况下直面预测型「考卷」。这项工作在模型预测力和记忆力之 间做了区分,也探究了模型在长程推理、执行稳健性和不确定性环境下的表现。此外,大模型在财务预测、疾病评估等场景的落地效果正在优化过程中,业内研究者也在寻 找能填平推理和执行鸿沟的新机制。 目录 当推理「用兵」碰上财务预测等现实场景,模型能否稳定「指挥」从而落地?... 03 . 模型推理预测哪家强,先验后验不同路径 「各显神通」? 过往的模型预测技术在往哪些方向发力?先验记忆与后验反思机制,未来能为模型预测带来新的突破吗?... 01 FutureX 「出世」,从长程推理到现实预测大模型「顶」住了吗? 1、目前,大多数用于评估大型语言模型的基准都依赖于预先存在的、固定不变的数据集。 2、这种评估方式在衡量模型的事实性知识或在已知数据集上的简单推理能力时表现较好,但在面对动态的真实世界进行预测时,则难以考察模型真实的推理实力。 ① 静态基准通常处理的是在已有解决方案的情况下 ...
Agentic Coding表现创新高,全新KAT系列模型上榜SWE-Bench
机器之心· 2025-09-26 10:35
图 近期,快手 Kwaipilot 团队推出了 KAT 系列两款突破性 Agentic Coding 大模型 : 开源 32B 参数模型 KAT-Dev-32B 与 闭源旗舰模型 KAT-Coder 。 这两款模型在 Code Intelligence 领域分别体现出轻量级的超强表现和极致性能。其中,在 SWE-Bench Verified 上,KAT-Dev-32B 展现出强劲性能并取得了 62.4% 的 解决率,在所有不同规模的开源模型中排名第 5。与此同时,KAT-Coder 以 73.4% 的解决率在 SWE-Bench Verified 上取得了极佳的单模型表现,比肩全球顶尖闭源 模型。 核心贡献点摘要 KAT-Dev-32B 和 KAT-Coder 在多个训练阶段进行了创新和优化,包括 Mid-Training 阶段、监督微调 (SFT) 阶段、强化微调 (RFT) 阶段,以及大规模智能体强化学 习 (RL) 阶段,具体如下: KAT 系列模型的核心技术路线 一、Mid-Training Kwaipilot 团队对经过预训练的模型进行了两阶段训练,该阶段被称为 Mid-Training。在其中的第 ...
IEEE TPAMI 2025 | 北京大学提出分布驱动的终身学习范式,用结构建模解决灾难性遗忘
机器之心· 2025-09-26 10:35
近日,北京大学王选计算机研究所周嘉欢助理教授与彭宇新教授合作在人工智能重要国际期刊 IEEE TPAMI 发布一项最新的研究成果: DKP++(Distribution- aware Knowledge Aligning and Prototyping for Non-exemplar Lifelong Person Re-Identification) 。该工作针对终身学习中的灾难性遗忘问题,提出分布建模引导 的知识对齐与原型建模框架,不仅有效增强了对历史知识的记忆能力,也提升了模型的跨域学习能力。 本文的第一作者为北京大学北京大学王选计算机研究所助理教授周嘉欢,通讯作者为北京大学王选计算机研究所教授彭宇新。目前该研究已被 IEEE TPAMI 接 收,相关代码已开源。 行人重识别(Person Re-Identification, ReID)旨在针对跨相机视角、跨地点、跨时间等场景中,基于视觉特征实现对同一行人图像的匹配与关联。该技术在多摄像 头监控、智能交通系统、城市安全管理以及大规模图像视频检索等实际场景中具有广泛应用价值。然而,在现实环境中,由于采集地点、拍摄设备和时间条件的 不断变化,行人图像的分 ...
京东AI「结果」:深度应用已成当下,万亿生态瞄准未来
机器之心· 2025-09-26 10:35
核心观点 - 京东AI大模型品牌JoyAI已实现产业深度应用 在供应链全链路和多个业务场景中形成成熟解决方案 [2][3][31] - 公司通过"通用数据+供应链原生数据"结合模式 走出一条差异化的大模型落地路径 强调场景理解而非单纯技术指标竞争 [31][33] - AI价值公式被定义为模型×体验×产业厚度的平方 其中产业厚度涵盖零售/物流/健康/工业等十余领域真实场景与数据 [33] 产品发布 基础模型升级 - JoyAI大模型实现3B到750B全尺寸覆盖 新增数字人大模型JoyAI LiveHuman与语音大模型JoyAI LiveTTS [6] - 采用稀疏MOE训推一体架构 推理速度较传统方法提升1.8倍 单卡吞吐量达3000 tokens/秒 [7] - 在Rbench0924评测获76.3分 推理能力国内第一全球第二 LiveBench深度思考得分75.7超越DeepSeek-R1 [9] 面向个人用户产品 - 京犀App定位AI原生购物和生活服务超级入口 支持语音一站式完成购物/点餐/订票等操作 预计10月上线 [11][14] - "他她它"数字人助手以"万能博士"为核心 支持视频实时互动 具备医疗问诊/外卖点单等综合服务能力 [15] - JoyInside 2.0实现与智能硬件融合 接入后用户对话次数平均提升超120% 已合作超30家头部品牌和10余家机器人厂商 [16][17] 行业应用落地 零售场景 - 发布电商创新AI架构体系Oxygen 包含语义可控生成式推荐模型OxygenRec和多模态理解大模型OxygenVLM [22] - 智能搜索推荐功能"爱购"将于10月上线 通过自然语言交互实现个性化购物体验 [22][24] - 京点点(Oxygen Vision)帮助零售商家将素材迭代效率提升千倍以上 基于Oxygen的50+AI应用已服务300多万商家 [24] 物流场景 - 物流超脑大模型2.0全面多模态化 实现智能设备自主决策 员工操作标准化水平提升15% 资源调度效率提升近20% [24] - 自研"狼族"智能设备覆盖仓库存储/搬运/分拣等全场景 已部署全球四大洲超500个仓库 [25][26] 工业与健康场景 - 工业供应链大模型JoyIndustrial覆盖5710万工业品SKU 提供40多个智能体应用 服务超1万家重点工业企业 [26] - "京医千询2.0"成为行业首个能看懂医学报告/听懂病情描述的医疗大模型 突破可信推理技术瓶颈 [26] 生态建设与商业化 - 通过数字人平台4.0创造商业化IP 案例中恩雅吉他数字人Aura带动品牌当日成交额破100万元 整体交易提升65% [34][35] - 采用"自研+投资+生态共建"模式切入具身智能领域 向合作伙伴提供技术赋能而非直接制造硬件 [19][20] - 宣布未来三年持续投入 目标带动形成万亿规模人工智能生态 [38]
学三年动画被AI秒杀,OpenAI要拍电影,好莱坞不敢买账
机器之心· 2025-09-26 08:26
这是网友学了三年动画做出来的《泰坦尼克号》,不知道大家是啥想法,反正我看完就精神分裂了。 机器之心报道 编辑:杨文 OpenAI要「干趴」好莱坞。 视频来自学了三年的动画,毕业只能去电子厂打螺丝的 B 站 up 主 MAX - 小仙女 一边是李云龙附体:开炮,开炮!赶紧把杰克和露西轰海里,一个也别活。 一边眼睛又很诚实,对着这丑的清新脱俗、美的人神共愤的小视频反复观看。 实在太鬼畜了。涂着死亡芭比粉的女主不仅能高抬腿风骚走位,还能穿墙而过,人都 360 度旋转飞了头发还在原地。 男主顶着鸟窝头咧着大嘴,突然劈腿壁咚那下,把我脑子都干宕机了。 果然努力在天份面前一文不值,学了三年动画还不如 AI 的一哆嗦。 X 博主 @fofrAI 拿字节的 Seedance Pro 模型,使用图生视频功能,制作了一个延时摄影的动画短片。 其中图片提示词:A woman is working at her chill desk in a large home living room in a rooftop penthouse, wearing large headphones, a photo of a city outsi ...
创智&交大发现AI能动性新规律, 78样本胜GPT5实现软件+科研自动化
机器之心· 2025-09-26 08:26
如图展示了一个模型从头开发的完整可运行的五子棋游戏, 这种端到端的自主执行能力正是未来 AI 系统的核心价值所在 ,证明了其在实际工作场景中的巨大应 用潜力。 LIMI 的发现挑战了 "数据规模决定能力上限" 的传统认知,提出了 能动性效率原则 :模型能动性的发展更依赖于对能动性本质的理解和高质量数据的精准构造, 而非简单的数据堆叠。 这一发现为大规模部署具备真正工作能力的 AI 系统开辟了可行路径 ,表明理解能动性的核心机制比盲目扩大数据规模更为重要。 AI 能动性的时代要求系统不仅能思考,更要能干活:包括协同编程(人机协作开发)和自动化科学研究。LIMI 仅用 78 个样本就超越 GPT-5 达 14.1%,并发现了能动性效率原则: AI 能动性不仅来源于数据丰富性,更来自于战略性构建。 本文来自于上海创智学院和上海交大刘鹏飞老师团队,团队专注于构建最前沿 AI 系统。核心作者来自于香港理工大学,上海交通大学,以及中国科学技术大学。 从 ChatGPT 到 Claude,从 Codex 到 Claude Code,全球科技公司正在 "能动性" 领域展开激烈竞争。这一趋势反映了产业界的关键认知: 能动 性能 ...