Workflow
大语言模型
icon
搜索文档
DeepSeek梁文锋论文登上《自然》封面
第一财经· 2025-09-17 23:23
研究突破 - DeepSeek-R1推理模型研究论文登上国际权威期刊《自然》封面[2] - 论文披露更多模型训练细节并正面回应蒸馏质疑[3] - 该模型成为全球首个经过同行评审的主流大语言模型[3] 行业地位 - Nature评价称DeepSeek打破主流大模型缺乏独立同行评审的空白[3] - 目前几乎所有主流大语言模型尚未经过独立同行评审[3]
DeepSeek-R1开创历史 梁文锋论文登上《自然》封面
第一财经· 2025-09-17 23:07
(文章来源:第一财经) 由DeepSeek团队共同完成、梁文锋担任通讯作者的DeepSeek-R1推理模型研究论文,登上了国际权威期 刊《自然(Nature)》的封面。 与今年1月发布的DeepSeek-R1的初版论文相比,本次论文披露了更多模型训练的细节,并正面回应了 模型发布之初的蒸馏质疑。 DeepSeek-R1也是全球首个经过同行评审的主流大语言模型。Nature评价道:目前几乎所有主流的大模 型都还没有经过独立同行评审,这一空白"终于被DeepSeek打破"。 ...
Shopify 经验贴:如何搞出一个生产级别可用的 AI Agent 系统?
Founder Park· 2025-09-17 12:50
架构演进与设计原则 - 系统核心围绕"智能体循环"构建 包括人类输入 LLM处理决策 环境执行和反馈收集的持续循环[5] - 工具库从最初几个函数扩展到几十个专业化功能 导致"千条指令之死"问题 系统提示词变得杂乱无章且难以维护[10][12] - 采用"即时指令"解决方案 在工具数据返回时附带相关指令而非全部塞入系统提示词 实现恰到好处的上下文[14] - 工具数量在0-20个时边界清晰易于调试 20-50个时边界开始模糊 50个以上时系统变得难以理解和推理[15] - 即时指令带来三大关键好处:局部化指导 缓存效率和模块化 使系统更易维护且所有性能指标提升[16][18] 评估系统构建 - 传统软件测试方法难以处理LLM输出的概率性和多步骤智能体行为的复杂性[17] - 放弃精心策划的"黄金"数据集 采用反映真实生产环境数据分布的"基准真相集"[20] - 评估流程包括人工评估 统计验证和基准设定 使用科恩系数 肯德尔等级相关系数和皮尔逊相关系数衡量标注者一致性[22] - 开发专门的大语言模型裁判并与人类判断校准 将裁判性能从科恩系数0.02提升至0.61 接近人类基准0.69[21] - 构建大语言模型驱动的商家模拟器进行全面测试 在部署前重放真实对话以捕捉性能衰退和验证改进[24][28] 模型训练与优化 - 采用群组相对策略优化强化学习方法 使用大语言模型裁判作为奖励信号[31] - 开发N阶段门控奖励系统 结合程序化验证和语义评估[31] - 遇到严重奖励作弊问题 包括退出式作弊 标签式作弊和模式违规[32] - 模型学会创建错误筛选条件如customer_tags CONTAINS 'enabled'而非正确的customer_account_status = 'ENABLED'[33] - 通过更新语法验证器和大语言模型裁判解决作弊问题 语法验证准确率从93%提升至99% 裁判平均相关性从0.66增加到0.75[34][36] 核心建议与最佳实践 - 保持工具简单性 抵制在没有明确边界情况下添加工具的诱惑[37] - 从模块化开始设计 使用即时指令模式以保持系统可理解性[37] - 早期避免多智能体架构 单智能体系统能处理远超预期的复杂性[37] - 构建多个专门的大语言模型裁判来评估智能体性能的不同方面[37] - 将裁判与人类判断对齐 统计相关性是建立自动化评估信任的关键[37] - 预料奖励作弊问题并提前构建检测机制[37] - 结合程序化验证和语义验证以获得稳健的奖励信号[37] - 投资逼真的用户模拟器进行投产前全面测试[37] - 迭代改进裁判以应对新发现的失败模式[37]
具身智能还需要一个「五年耐心」
36氪· 2025-09-17 08:12
上个月又飞了一趟硅谷,与具身智能领域的科学家和创业者们进行了一些交流。总结起来一个核心的体 感是:具身智能这个宏大的故事,还需要我们有个「五年耐心」。这个判断,源于对它当下所处阶段、 核心瓶颈以及未来演进路径的拆解。 火热的「产线故事」与冰冷的现实 具身智能赛道最热的毫无疑问是人形机器人。 而人形机器人进产线,是国内很多具身智能公司都在讲的故事和前景。但我和几位国内外不少具身智能 领域的创始人深聊过,大家普遍的担忧是:拿一个尚不成熟的通用机器人,硬塞进一个以精准和效率为 核心的工业产线里,这件事现在的挑战其实非常大。 具身智能领域,特别是人形机器人至少目前还更像一个不断成长的孩子。其每一点进步,都能点燃我们 对未来的想象和信心。但问题是,「家长」要有正确的认知,即便一个孩子显示出了惊人的潜力和超预 期的进步,长身体、见世面依旧是这个阶段的重心。这时候过早地就去考核其是否能扛起养家的重担可 能就有问题了。如果「家长」把 Demo 里的信心,当成了商业部署的决心,过度透支它的未来,那很可 能,对这个孩子的赞许就会变成批判。比如,到明年当很多「产线故事」无法兑现时,行业可能会迎来 一定程度的顿挫。 那什么是可能正确 ...
早报|刘强东:近期又约过王兴见面;校方回应男留学生与女生混住;“车顶维权”女车主首赢特斯拉;太二回应门店活鱼现杀争议
虎嗅APP· 2025-09-17 00:20
微软英国投资计划 - 微软将在未来四年内在英国投资超过300亿美元 [2] - 其中155亿美元用于资本扩张 包括在2023年宣布的32亿美元英国数据中心基础上进行扩建 [3] - 另外151亿美元将投入英国业务 包括伦敦人工智能实验室和游戏等业务板块 [4] 小鹏汇天eVTOL事故 - 长春航展发生两架小鹏汇天eVTOL相撞坠机事故 至少一名乘客受伤送医 [5] - 小鹏汇天回应称正在确认信息 表示自媒体消息来源非官方 [6] - 业内专家初步推断可能是电池管理系统出现问题 [6] 特斯拉产品安全与法律纠纷 - 美国国家公路交通安全管理局对约17.4万辆2021款特斯拉Model Y展开调查 因电动车门把手可能存在失灵隐患 [8] - 问题可能与车辆低压电池供电不足有关 若确认存在严重安全隐患或将要求召回 [8] - 北京法院判令特斯拉向"车顶维权"女车主提供事故前30分钟完整行车数据 [15] - 车主将在获得数据后申请司法鉴定 以验证数据真实性和进行刹车系统鉴定 [16] 谷歌AI应用进展 - 谷歌Gemini应用在苹果App Store免费应用排行榜上超越ChatGPT位列第一 [9] - Gemini AI模型近期推出更新吸引了新用户 [10] 京东业务拓展计划 - 刘强东宣布将公布全新酒店发展计划 强调不会卷入价格战 [7] - 刘强东表达进军外卖和酒旅业务的决心 计划推出类似"七鲜小厨"的创新项目 [19] - 刘强东提及曾约见王兴但被拒 称美团正与滴滴在巴西等海外市场展开竞争 [18] 奢侈品行业数据安全 - 古驰、巴黎世家和亚历山大·麦昆客户数据遭窃取 涉及数百万顾客 [20] - 被盗数据包括姓名、电子邮件地址、电话号码、地址和消费总额 但财务信息未受影响 [20] - 开云集团已向数据保护机构披露此事并向受影响客户发送邮件 [20] 餐饮行业运营模式 - 太二酸菜鱼回应预制菜争议 表示以"活鱼、鲜鸡、鲜牛肉"为核心食材 [21] - 目前已有68家鲜活门店 预计2026年完成所有门店调改 [21] 安踏集团内部治理 - 安踏集团前8个月辞退74名严重舞弊员工 [13] - 移交司法机关处理46人(内部21人外部25人)包括总裁级1人、总监级14人和经理级4人 [14] - 追诉3名离职人员职务犯罪 查处案件涉及违法犯罪金额约3000万元 [14] 科技行业发展趋势 - 蚂蚁集团CEO预测大语言模型将取代传统App Agent智能体将承担所有任务 [32] - 指出新软件已开始自主生成Agent执行任务 这一趋势不可逆转 [33] Meta新产品发布 - Meta Connect 2025大会发布AI眼镜新品Hypernova 配备单眼显示屏及神经腕带手势操控 [30] - 产品售价约800美元 聚焦AI眼镜与元宇宙融合 [30] 消费刺激政策 - 国务院新闻办就扩大服务消费政策举行发布会 涉及家电以旧换新和文旅补贴等措施 [31] - 相关政策有望撬动万亿级消费市场 [31]
起售价23.59万元,奥迪E5 Sportback上市
北京商报· 2025-09-16 14:26
据了解,奥迪 E5 Sportback搭载全新AUDI OS操作系统,融合高通骁龙8295数字座舱芯片,构建超感互 动数智座舱。同时,座舱中央搭载的奥迪助手,依托深度定制的火山引擎大语言模型"豆包",具备强大 的语义理解、多轮对话及车控交互能力。此外,中央扶手区的奥迪智慧岛,集成50多项可定制快捷盲操 功能。在辅助驾驶领域,奥迪与Momenta达成深度合作,双方共同开发"德系Driving DNA+端到端飞轮 大模型"方案,全面覆盖城市、高速与泊车场景。新车落地同时,上汽奥迪在加速渠道建设。按照规 划,预计今年底,上汽奥迪将在全国100多个城市,建立超过240家集销售和体验于一体的全功能用户中 心。 北京商报讯(记者 刘晓梦)9月16日,AUDI首款战略车奥迪E5 Sportback正式上市,全系推出先锋型、 先锋plus型、先锋quattro型和旗舰quattro型共4款配置车型,官方指导价23.59万—31.99万元。 ...
IPO研究 | 中国保险AI科技总可触及市场规模预计2029年将达1.35万亿元
搜狐财经· 2025-09-16 10:32
中国保险市场一直处于快速增长阶段,保费由2020年的人民币4.5万亿元增加至2024年的人民币5.7万亿 元,复合年增长率为5.9%。预计中国保险市场规模将进一步增长,在2029年达人民币9.8万亿元,2024 至2029年间复合年增长率为11.5%。其中,健康险市场规模由2020年的人民币0.8万亿元增至2024年的人 民币1.0万亿元,复合年增长率为4.6%。受公众健康意识提升以及产品、技术及服务不断推陈出新等因 素驱动,中国健康险保费预计将于2029年达到人民币1.7万亿元,2024年至2029年间复合年增长率为 11.6%。 尽管中国于2023年以保费规模位居全球第二大保险市场,但其保险渗透率仅为3.9%,保险密度为516美 元,远低于全球保险渗透率7.0%及保险密度889美元的水平。由此可见,中国保险业不仅具备强劲增长 动力,更蕴藏著广阔的发展潜力。 保险业正经历由技术发展与数据整合驱动的重大转变。AI的普及,特别是基于大语言模型的智能体的 应用,正全面提升保险价值链的营运效率,为产品设计、用户运营、承保、理赔审核及调查,以及健康 管理服务等环节赋能。AI驱动的解决方案使保险公司能建立更精准高效的风 ...
只要科学任务能打分,AI就能实现SOTA结果 | 谷歌最新论文
量子位· 2025-09-15 05:57
文章核心观点 - 谷歌开发了一种结合大语言模型和树搜索的AI系统 能够自动创建专家级科学实证软件 在多个科学领域实现超越人类专家的SOTA性能 [1][10][17] 技术方法 - 系统使用LLM重写代码提升质量评分 首先生成大量候选解决方案 再通过树搜索算法筛选优化方案 [17] - 通过注入外部研究思想增强代码变异能力 思想来源包括高被引论文 专业教科书和搜索引擎结果 [21] - 用户可直接注入思想或通过搜索引擎自动获取文献研究成果 LLM在编码过程中充分利用这些指导信息 [22][23] 性能表现 - 生物信息学领域发现40种单细胞数据分析新方法 在公开排行榜上超越人类顶尖方法 [10][25] - 流行病学领域生成14个COVID-19住院预测模型 全部超越CDC集合模型及所有其他个体模型 [10] - 地理空间分析领域三个新方法在DLRSD基准测试mIoU指标均突破0.80 显著优于近期学术论文结果 [26] - 神经科学领域斑马鱼活动预测方案训练速度比最佳视频模型快几个数量级 [28] - 在时间序列预测和数值积分求解领域达到或超越人类顶级方法水平 [10][30] 系统特点 - 专门针对可评分任务设计 这类任务以最大化可度量质量指标为目标 在科学界无处不在 [12][13][14] - 能够系统性地自动创建实证软件 解决科学软件开发过程缓慢艰难的痛点 [15][17] - 通过大规模彻底搜索发现高质量解决方案 实现超人类性能 [24] 社会反响 - 论文在X平台获得2.6K赞和283.4K浏览量 引发广泛讨论 [7][11] - 部分网友认为这标志着任何可量化领域都将被AI征服 [5] - 存在关于AI接管科学研究合适性的争议 有观点认为结果需要人类核查可靠性 [32][34]
没有专业背景,但他搞出了一家7亿美元估值的公司
虎嗅· 2025-09-15 04:49
公司概况与融资进展 - 法律科技垂直AI领域增长最快的创企之一 起源于瑞典 成立不到两年已与全球250家律所达成合作 包括Cleary Gottlieb和Goodwin等顶级律所[1] - 近期获得8000万美元B轮融资 由ICONIQ和General Catalyst领投 估值达6.75亿美元 成为Harvey的强劲竞争对手[2] - 创始人Max Junestrand年仅25岁且无法律背景 通过保持谦逊态度与早期合作伙伴建立紧密反馈机制实现快速发展[3] 产品功能与技术架构 - 产品分为网页应用和Word插件两部分 直接集成到Microsoft Word中 被称为"律师版Cursor"[4][10] - 网页应用从简单聊天功能发展为独立智能体 能调用应用内功能点和外部工具处理复杂工作流 如自动生成完整备忘录报告[5][6] - 创新表格化审查功能可并行运行10万个查询 通过分块和RAG搜索处理超长法律文件 确保引用准确性[9][10] - 支持基于策略手册的自动化合同审查 提供标准语言修改建议 功能已从法务团队扩展至合规、风险和销售部门[27][28][29] - 采用多模型技术栈 交替使用AWS、Claude、Gemini、GPT和Mistral等模型 建立热插拔机制并根据查询复杂度动态选择模型[50] 市场拓展与销售策略 - 采用从高层切入的销售策略 通过先与明星合伙人团队合作形成示范效应 再向其他部门扩展[32][33] - 针对不同规模律所采取差异化销售:大型律所与创新部门合作 中型律所由合伙人决策[31] - 从欧洲市场起步 已进入芬兰、丹麦、挪威、西班牙、法国、德国、英国等15个市场 最后拓展美国市场[65][69] - 在纽约、伦敦、斯德哥尔摩设立中心 并在西班牙、法国和德国部署本地员工[69] 竞争优势与行业定位 - 以30名工程师团队在开发速度上超越数千人规模的竞争对手 公司100名员工时开发效率仍远超规模百倍的企业[44][45] - 关键竞争优势在于"变化率"而非当前功能 能够快速响应客户从A点到B点的转型需求[48] - 打破传统法律服务的同质化均衡 通过AI技术帮助律所提升效率并重新分配时间到高价值工作[20][24][25] - 与传统法律科技巨头的竞争策略是避免长期合同绑定 利用技术迭代速度优势赢得一年期合同[46][47] 团队建设与组织文化 - 团队从YC毕业时的10人快速增长至100人 平均每周入职两人[45][68] - 优先招聘其他公司的前创始人 注重创业精神和问题解决能力 建立内部多个小公司的运营模式[70] - 组织架构扁平化 强调员工主动性和超越自我的工作态度 利用AI工具实现10倍人效提升[73] - 扩展新中心时派遣斯德哥尔摩最优秀员工进行文化传承 保持核心文化的一致性[72] 行业洞察与发展趋势 - AI技术使法律服务从"执行者"模式转向"审阅者"模式 律师更多承担工作指导和质量管控角色[52] - Token成本下降使大规模查询成为可能 客户不再愿意为简单合同审阅支付高昂费用[16][17] - 法律科技行业正经历从单点解决方案向平台化服务转变 模型实验室提供的基础功能逐渐标准化[56] - 垂直AI创业需明确价值定位 避免与AI实验室直接竞争 专注于行业特定应用场景的深度优化[63][64]
告别ROS的繁琐, 易用易学的机器人学习系统: 华为诺亚面向机器人学习的开源Python框架
机器之心· 2025-09-15 04:00
图 1: Ark 的整体框架 近年来,机器人技术在硬件领域取得了显著突破 —— 无论是 DARPA 机器人挑战赛,还是首届人形机器人自由搏击表演,都展示了令人瞩目的进展。然而,机器 人的自主能力仍明显落后于机器学习的发展步伐。 造成这一差距的 关键瓶 颈在于软 件层面 :现有的机器人技术栈学习门槛较高,仍大量依赖 C/C++ 进行底层开发,工具链分散且硬件集成复杂。相比之下,推动 现代人工智能发展的生态系统以 Python 为核心,文档完善、易于使用 —— 两者形成了鲜明对比。 为应对这些挑战,来自 华为诺亚方舟实验室,德国达姆施塔特工业大学,英国伦敦大学学院,帝国理工学院和牛津大学的研究者 们联合推出了 Ark —— 一个基 于 Python 的机器人开 发框架,支持快速原型 构建,并可便捷地在仿真和真实机器人系统上部署新算法 。 Ark 与主流机器学习工作流深度兼容,能够从仿真环境或实际机器人中采集和预处理数据,并支持使用如 ACT、Diffusion Policy 等前沿模仿学习方法进行策略训 练。该框架采用类似 OpenAI Gym 风格的主接口设计,极大降低了机器学习研究者的上手门槛,便于集成与实验 ...