Workflow
大语言模型
icon
搜索文档
大语言模型仍无法可靠区分信念与事实 为高风险领域应用敲响警钟
科技日报· 2025-11-07 00:01
研究核心发现 - 大语言模型在识别用户错误信念方面存在明显局限性 无法可靠区分信念与事实[1] - 当用户个人信念与客观事实冲突时 模型难以作出准确判断[1] - 这一局限性为其在医学 法律和科学决策等高风险领域的应用敲响警钟[1] 模型性能数据分析 - 研究分析了24种大语言模型在13000个问题中的表现 包括DeepSeek和GPT-4o等模型[1] - 验证事实性数据时 较新模型平均准确率达91.1%或91.5% 较老模型平均准确率为84.8%或71.5%[1] - 回应第一人称信念时 模型识别虚假信念比识别真实信念更困难[1] - 较新模型识别第一人称虚假信念的概率比识别真实信念低34.3%[1] - 较老模型识别第一人称虚假信念的概率比识别真实信念低38.6%[1] 不同人称信念的识别差异 - 模型倾向于在事实上纠正用户而非识别出信念[2] - 识别第三人称信念时 较新模型准确性降低4.6% 较老模型降低15.5%[2] 研究结论与行业意义 - 大语言模型必须能成功区分事实与信念的细微差别及其真假[2] - 模型需对用户查询作出有效回应并防止错误信息传播[2] - 在处理涉及主观认知与事实偏差的复杂场景时需审慎对待模型输出结果[1]
乔布斯时代的产品终于要升级了,苹果AI还要靠谷歌|硅谷观察
新浪科技· 2025-11-06 23:13
苹果与谷歌的AI合作 - 苹果已与谷歌达成协议,将在新版Siri中使用定制的谷歌Gemini AI大模型,苹果每年向谷歌支付约10亿美元 [3] - 新的AI版Siri计划于明年春季通过iOS 26.4更新推出 [3] - 苹果将在其私有云服务器上运行定制的Gemini模型,同时继续使用内部模型处理低功耗设备端查询,复杂任务则切换至谷歌Gemini [3] - 苹果设置隐私保护措施,确保用户数据在苹果服务器基础设施上运行,不与谷歌进行外部数据共享 [4] - 苹果定制的Gemini模型将使用1.2万亿个参数来生成响应,远超苹果当前支持Apple Intelligence的1500亿参数模型 [5] 苹果的自主AI战略 - 与谷歌的合作被视为过渡计划,苹果仍在自行研发1万亿参数模型,但尚无明确时间线 [7] - 核心技术自主是苹果的基本战略,其在移动和桌面处理器领域已全面转向自研,并收购英特尔基带芯片业务以摆脱对外依赖 [7] - 苹果计划最早在2026年准备好其自研的1万亿参数模型,并相信其能匹配谷歌定制Gemini模型的质量 [13] 苹果在AI时代的竞争态势 - AI已成为智能手机必备功能,谷歌在Android系统整合了Gemini,中国厂商也推出各自大模型,苹果缺乏成熟AI大模型引发对其竞争力的质疑 [8] - 过去两年AI成为资本市场主线,英伟达、微软、谷歌、Meta等巨头市值创新高,英伟达超越苹果成为全球市值最高公司,而苹果股价表现疲软 [9] - 投资者担心苹果在“AI时代的操作系统入口”竞争中落后于微软和谷歌,尤其在iPhone销售放缓和服务增长趋缓的背景下,缺乏AI新故事更为致命 [9] Siri的发展历程与挑战 - Siri作为智能语音助手开创者于2011年随iPhone 4S亮相,但先发优势很快被谷歌Google Assistant等竞争对手超越 [10] - 在AI时代,Siri功能持续跳票,苹果高层将延期形容为“丑陋的”和“令人尴尬的”,核心个性化Siri功能延期至“未来一年内”推出 [11][13] - 苹果AI项目推进缓慢,团队在测试中发现系统产生过多不可靠结果,不得不创建“第二版”全新Siri架构 [13] 苹果AI发展迟缓的原因分析 - 苹果将用户隐私保护作为核心卖点,专注于端侧AI,导致在训练数据上落后于竞争对手,且只有iPhone 15 Pro及以上型号才能运行Apple Intelligence [16] - 真正强大的AI需要云端超大规模计算,而苹果的云端模型仅1500亿参数,与谷歌定制模型的1.2万亿参数规模差距悬殊 [16] - 苹果高层对AI缺乏明确想法,过于看重端侧运算,未进行大规模投资,也未像其他巨头抢购英伟达GPU [17] - AI项目负责人权力被削弱,核心AI团队出现动荡,大模型和AI搜索项目负责人跳槽至Meta [18] - 苹果不愿进行大手笔战略收购,过去十年花费超7000亿美元进行股票回购,最大收购仍是2013年30亿美元收购Beats [18]
外资在中国|首个大规模海外研发基地正式运营 保时捷加码在华布局谋与策
中国经营报· 2025-11-06 05:32
公司战略与领导层观点 - 大众汽车集团及保时捷全球首席执行官奥博穆认为中国市场在引领未来出行,特别是在电气化、数字化与新豪华理念方面 [1] - 公司需要果断行动以应对汽车行业深刻变革,核心挑战是将保时捷精神呈现给新一代年轻客户,他们眼中的豪华是智能、无缝的个性化体验 [1] - 保时捷中国研发中心的正式启幕标志着公司“在中国,为中国”战略达成重要里程碑,该中心是保时捷在德国魏斯阿赫之外首个大规模海外研发基地 [1] 保时捷中国研发中心概况 - 研发中心坐落于上海虹桥商务区,拥有专业试制车间和人机交互实验室等现代化设施,旨在吸引中国顶尖工程与数字化人才 [2] - 该中心已拥有一支超过300名工程师的核心团队,整合了本土研发、采购和质量等职能于一身,并由本土团队领导 [2] - 研发中心是保时捷在华研发力量的战略性升级,整合了保时捷中国技术部、保时捷工程和保时捷数字科技等既有资源,形成一个拥有更高自主权的综合实体 [2] 研发中心的目标与职能 - 研发中心致力于打造深度契合中国用户数字化生活与独特需求的智能解决方案,同时确保产品延续纯正的保时捷驾驶体验 [3] - 核心职能是加速推进本土研发,特别是在信息娱乐系统以及辅助驾驶等关键领域提供更符合中国消费者期待的解决方案 [3] - 该中心将作为魏斯阿赫研发中心的重要补充,作为一个全新的创新枢纽,充分汲取中国快速发展的科技生态优势 [3] 本土化研发的效益与进展 - 赋权中国团队快速决策已取得显著成效,开发周期从数年缩短至数月,体现了中国速度与保时捷品质的结合 [2] - 通过研发中心,公司能直接融入中国快速发展的创新生态系统,以更快速、更精准的方式响应中国客户日益变化的需求 [4] - 首个技术落地成果是中国专属的车载信息娱乐系统,将于2026年年中正式搭载于若干保时捷车型,该系统引入基于大语言模型的AI语音助手与3D车辆展示功能 [4][5] 在华研发布局的历史演进 - 公司在华研发布局已有十多年历史:2014年保时捷工程在上海设立办公室,2018年成立保时捷中国数字部门,2021年该部门升级为独立实体公司,2022年成立保时捷研发中国分支 [4] - 2025年公司整合所有优势和积淀,成立了保时捷中国研发中心,这是一个一体化、全链路的研发中心 [4] - 推进数智化并非改变保时捷的基因,而是不断丰富其内涵,公司始终以驾驶者为中心,任何功能都必须在确定完善完备之后才会推向市场 [5]
数学界无视「30年漏洞」,GPT-5一眼看穿,陶哲轩:AI科研革命开始了
36氪· 2025-11-05 10:52
文章核心观点 - 新闻核心观点是GPT-5在数学研究领域展现出实质性应用价值,通过辅助生成形式化证明和发现反例,推动了科学进步 [6][13][22][24] GPT-5在数学证明中的应用 - 两位数学家利用GPT-5在Lean中生成形式化证明并成功验证,最终证明超过6000行代码,包含26个定义、169个引理和4个定理 [13][16] - 人类研究者需不断提供反馈以完善论证,过程耗时约一周,在普通笔记本电脑上代码验证耗时不足半分钟 [16] - 陶哲轩认可此次AI辅助证明,认为这是在研究论文中负责任地使用LLM输出的罕见用例,强调Lean形式化仅是对人类证明的补充 [14][17] GPT-5在发现反例和解决开放问题中的贡献 - 加州大学欧文分校数学教授Paata Ivanisvili与合作者请GPT-5 Pro在公开未解问题中寻找反例,GPT-5提出了一个关于带擦除的非交互相关蒸馏问题的反例 [18][19][21][22] - UCLA数学教授Ernest Ryu借助GPT-5 Pro解决了一个凸优化领域的开放问题,尽管模型约80%的证明尝试错误,但提出了多条新颖思路,整个工作耗时约12小时 [24][27][29] - GPT-5的具体贡献包括给出最终可行的证明思路与论证框架,并通过快速排除无效路线大幅加速探索进程 [29] 行业影响与未来展望 - 此次GPT-5的应用被视为理论计算机科学中AI的“星星之火”,以往大语言模型多用于文献检索或数值辅助,而此次真正生成了具体、有限且可验证的反例 [24] - 研究者认为,如果大语言模型的接口能与Lean深度整合并进行微调,许多人机协作证明的问题将大大缓解,体验会更加流畅自然 [16] - OpenAI科学家Sebastien Bubeck复现了类似场景,表明GPT-5可以证明有趣的数学结论,并能筛选不正确论点、识别新推理思路以及决定探索方向 [43][44]
倪光南:发展“AI+机器人”,向新质生产力加速跃迁
环球网资讯· 2025-11-04 23:17
文章核心观点 - 人工智能是推动科技和产业发展的强大引擎,中国正通过“人工智能+”行动推动机器人产业向新质生产力跃迁,目标是构建“AI+机器人产业”以创造更大的经济和社会效益 [1] - 机器人产业发展的核心是提升机器人智能等级,实现从自动化工具到“AI+机器人”的范式转变,关键在于“脑、眼、行动”三大核心智能的协同 [4][5] - 机器人是拓展人类能力以提升生产力的工具,其发展应聚焦于人机协同和工作任务的重构,而非简单替代人类 [2][3] - 构建基于RISC-V架构的开源生态系统对“AI+机器人”的未来发展至关重要,行业需共同努力构建人机共融的世界 [8] 机器人产业定位与发展方向 - 行业处于从传统工业化向新型工业化发展阶段,企业将从自动化向智能化过渡,生产模式从刚性标准化发展为柔性定制化兼备 [4] - 机器人将从自动化工具过渡为“AI+机器人”,具体表现为:控制者从实时操作系统发展为智能系统,交互方式增加语音,依赖大模型而非人工编程,实现多工位自主移动、即插即用以及人机协同 [4] - “AI+机器人”是行业未来发展方向,机器人形状将多样化,并根据场景需求以最经济合理的方式完成任务 [4] 机器人智能系统的三大核心能力 - 机器人智能系统由环境感知能力(“眼”)、运动控制能力(“行动”)和交互决策能力(“脑”)三大核心能力协同构成 [5] - 目前行业对运动控制的投入较大,而对环境感知和交互决策的投入不足,迫切需要提升 [5] 机器人之脑:大语言模型的作用 - 大语言模型构成了“机器人之脑”,推动了从“机器人操作系统”到“机器人智能系统”的技术架构性变革 [5] - 在大模型加持下,机器人能自主实施知识积累、接受指令、动作实施和人机交互,大模型将提供工作流程引导机器人完成任务 [6] - 一个典型的大语言模型在约10的14次方字节信息量基础上训练,几乎是互联网所有公开文本的总和 [3] 机器人之眼:AI与空间计算 - AI+空间计算作为“机器人之眼”,开启机器人认识世界的新范式,其采用普通单目摄像头加神经网络学习,以“类人眼”方式预先对环境进行学习训练 [6] - 该技术能提升对物理世界的感知和理解,具有自适应和持续学习能力,实现机器人“睁开眼睛看世界”,具备好用、易用、实用特点 [6] - 空间计算是面向三维世界的计算模式,正重塑人、机器和世界的交互方式,是推动机器人落地的关键核心技术,它是对物理世界的“重构”,生成式AI并不能替代 [6] - AI+空间计算的融合创新有望打破物理世界和数字世界的界限,是支撑低空经济、机器人等产业发展的关键技术 [7] 机器人之行动:开源操作系统与生态 - 开源AGIROS操作系统支撑“机器人行动”,由中国科学院软件所支持并拟定为标准,其开源社区旨在凝聚产学研用力量,推进智能机器人领域的开源开放与协同创新 [7] - 已有大批产学研用单位和开发者加入AGIROS社区,借助开源力量将增强“脑、眼、行动”协同系统的竞争力,成为传统机器人跃升为AI+机器人的主要推动力量 [7] 未来生态系统构建 - 未来面向“AI+机器人”可能形成类似“Wintel”的庞大生态系统,例如“基于RISC-V架构的AI+机器人”生态系统(即RV芯片+脑、眼、行动智能系统) [8] - 行业希望中国机器人业界为构建“基于RISC-V架构的AI+机器人”生态系统作出更大贡献,共同构建人机共融的世界 [8]
强化学习AI系统的设计实现及未来发展
36氪· 2025-11-04 12:52
强化学习在大语言模型中的核心作用 - 强化学习是推动大语言模型提升智能程度的核心且复杂的训练环节,其复杂度体现在算法和系统整体要求上 [1] - 强化学习系统算法的工程化成熟度使大语言模型与强化学习得以很好融合,Agent既是强化学习算法的载体,也是大语言模型作为行动模型的载体 [3] - 从简单的聊天机器人向Agent进化的重要分水岭是模型能够自主选择合适行为并根据这些行为采取最优策略 [6] 强化学习算法演进与实践 - 人类反馈强化学习是早期引爆大模型热潮的关键技术,Instruct GPT利用人类反馈强化学习信号在GPT-3基础上研发出了能很好遵循指令并具备理解能力的学习系统 [8] - 业界实践采用人类反馈与机器反馈相结合的方式,DeepSeek的生成式奖励模型在输出分数前会以文字形式输出对分数的解释,提升模型能力 [9] - 算法探索走向两条道路:一是基于偏好对的DPO算法避免奖励模型训练和Critic函数使用,二是在编程等纯推理类场景中应用的GRPO算法 [16][20] - GRPO算法在进行Critic估计时没有采用模型估计方法,而是将推理过程重复多次,通过与均值和标准差的关系来估计优势 [20] 超大规模强化学习系统挑战 - 强化学习系统包含推理、评估和训练三部分,不是单纯的训练系统,在迈向超大规模时每个维度都面临升级挑战 [29] - 推理引擎需要支持权重的动态更新和高效传递,例如670亿参数模型的权重需要广播到整个集群是巨大挑战 [36] - 推理过程必须可以被打断,当模型更新时需要中断推理,暂停当前进程,等待权重更新后再重新计算KV Cache [43] - 训练部分需要在框架兼容性和效率之间权衡,选择Megatron等高效框架会牺牲与Hugging Face生态系统的兼容性 [47] 行业开源生态发展 - 中国厂商在强化学习框架领域非常勤奋,推出了许多高质量开源框架包括Open RLHF、VeRL、AReaL、Roll、Slime等 [53][55][57] - 这些框架都是从RLHF时代逐渐演进而来,主要区别在于采用的调度引擎、训练引擎和推理设计 [57] - 未来开源系统需要在推理效率、评估系统算力提升以及训练性能与生态平衡方面进行共建 [58] 强化学习应用趋势 - 强化学习应用范围从简单对齐人类指标转变为追求模型智能上限即推理能力,今年许多大模型在高考场景中取得接近985大学生的成绩 [25] - 下一阶段将探索端到端强化学习在业务场景中的应用,希望模型能深入研究某一领域,这是开放型长期决策问题 [28] - 评估环节的价值和耗时占比正变得越来越高,需要更全面综合的方法来全方位评估模型能力 [12]
想法流CEO沈洽金:AI驱动的下一代互动内容应该怎么做?|「锦秋会」分享
锦秋集· 2025-11-04 11:01
AI内容行业发展趋势 - AI内容产业正从效率革命转向情感革命,从"可生成"到"可共情",从"自动化创作"到"个性化互动"[4] - AI内容竞争的核心不是模型参数规模,而是共情力与创造力[9] - AI内容的两大核心能力是互动性与想象力,互动创造参与感和情感连接,想象力让内容超越现实[13] 公司产品战略与定位 - 公司不追求让AI更像工具,而是让AI更像"存在",打造具备互动性、想象力与陪伴感的"内容人格"[4][6] - 公司从AI互动故事起家,正在搭建AI共创的内容宇宙,用户从观看者转变为与AI共同创造角色、世界与故事的人[6] - 公司打造AI原生IP生态,已有300多个AI IP角色,由用户共创与社群互动不断演化[13] 技术架构与模型应用 - 公司持续追随模型演化,从文字到图像、音频,再到视频与多模态创作,每次模型迭代都带来新内容形态[13][20] - 公司开发Studio/Workflow系统,将语言、图像、视频、音频模型串联起来,让创作者用可视化流程创作[13] - 创作Agent能基于用户意图自动选择最合适Workflow,并补全Prompt与参数,系统内置Prompt最佳实践库让模型参考人类经验生成内容[13][33] 内容形态演进路径 - 早期基于character模型做带章节结构的互动故事,随后逐步拓展图像玩法、AI音乐音频内容、故事性视频和社交型内容[22] - 视频生成模型出现两大突破:角色一致性和故事性视频生成能力,这使得AI生成内容从特效类转向具备可消费性的剧情片段[43][44] - 公司探索复杂内容类型如海龟汤和规则怪谈类玩法,利用模型更大上下文窗口和更强推理能力实现模板化[60] 创作者生态与用户互动 - AI不会取代创作者,而是辅助和激发创作者,放大他们的创造力与社群连接力[13][76] - 平台提供低门槛模板,即使是初中生用户也能在手机上完成AI创作,不需要懂模型或精通提示词[13][36] - 创作者通过积极与用户互动,接受用户"许愿",不断丰满作品世界观和角色,形成完整故事宇宙[76] 具体功能与商业化实践 - 换装玩法利用新图像生成模型实现角色风格一致性,无需额外训练LoRA模型,万圣节活动用户参与度远超预期[49][50] - 故事线功能基于用户与AI互动上下文自动生成剧情节点与互动成就,并可打包交付给用户,最新版本能扩写成完整小说[66] - 线索卡功能模型自动生成五个新故事线索并配插图,用户逐步解锁,单个作品消费深度显著提升[69]
苏州英伟达开发者日即将召开!科创人工智能ETF华夏(589010) 早盘震荡下探,短线在1.40元支撑位附近企稳
每日经济新闻· 2025-11-04 05:05
科创人工智能ETF(589010)市场表现 - 截至10点09分,科创人工智能ETF下跌0.85%,最新价报1.408元,早盘最低触及1.396元,分时走势围绕均线下方震荡 [1] - 成分股涨跌参半,上涨14只、下跌16只,星环科技涨幅居前达11.87%,海天瑞声、福昕软件表现稳健,而石头科技、恒玄科技、天准科技跌幅较大 [1] - 持仓结构中软件与硬件权重股表现分化,科技成长风格承压,成交维持活跃,盘中换手顺畅,显示多空资金仍在博弈 [1] - 近五个交易日净流入放缓,最新单日流入约1271万元 [1] 人工智能行业动态与前景 - 英伟达中国开发者日2025将于11月14日在苏州开启,活动将聚焦大语言模型、机器人、物理AI、开发工具等领域的前沿创新与落地实践 [1] - 科创人工智能ETF华夏(589010)紧密跟踪上证科创板人工智能指数,覆盖全产业链优质企业,兼具高研发投入与政策红利支持 [2] - DeepSeek的突破是市场重估中国创新能力的触发因素之一,提升了投资者的风险偏好 [2] 宏观经济与双循环新动向 - 内循环方面,实体经济呈现供给改善、需求疲弱态势,但股市显著上涨,主要源自风险溢价下降,金融周期下半场去杠杆带来超额储蓄,资金在市场预期改善驱动下向风险资产倾斜 [2] - 外循环闭环新模式初露端倪,从过去向美国出口消费品并持有美国国债,转变为向新兴市场和带路国家出口资本品和中间品,对应的对外资产通过银行贷款、企业出海投资等形成 [2] - 实现内外部循环相互促进的关键点是创新发展和提振内需,以充分发挥中国的规模经济优势 [2]
让LLM不再话痨,快手HiPO框架来了
机器之心· 2025-11-03 06:40
核心观点 - 快手与南京大学团队推出的HiPO框架解决了大语言模型普遍存在的“过度思考”问题,通过让模型自主决策何时启动深度推理,在显著提升效率的同时同步提高了准确率[4][5][25] 问题背景:LLM的“过度思考”困境 - 大语言模型在处理简单问题时习惯性启动冗长的链式思考,导致计算资源浪费、响应延迟增加和部署成本高昂[4][8] - 现有解决方案如基于训练的奖励机制或外部提示控制存在信号粗糙、依赖人工设计或属于事后补救等局限性[9][12] HiPO框架的核心组件 - **混合数据冷启动**:通过自动化流程为每个问题生成“思考”与“直接回答”两种模式的高质量响应,并引入模式选择的解释信号,使模型初步具备智能决策能力[11][14][15] - **混合强化学习奖励系统**:包含基础答案正确性奖励、防止“思考”惯性的动态偏差调整机制,以及分别指导模式选择合理性和答案质量的双重优势函数,实现精细化优化[16][17][18] 实验成果与性能表现 - 在AIME2024/2025、HumanEval等多个基准测试中,HiPO-8B模型平均准确率提升6.3%,同时平均令牌长度减少30%,思考率降低37%[22][23][25] - 模型展现出良好的任务自适应性,在AIME2024等复杂任务上“思考”模式激活率保持在70%以上,而在HumanEval等简单任务上该比率随训练显著下降[26] - 该方法在1.7B、8B和32B等不同参数规模的模型上均表现出一致的性能提升,证明了其强泛化能力[29][30] 行业影响与未来展望 - HiPO框架通过平衡推理的质与效,为LLM的大规模实用化部署提供了降低成本和延迟的直接解决方案[35] - 该研究为模型轻量化和增强元认知能力提供了新路径,代表LLM发展从“暴力计算”向“智能效率”的重要思路转变[32][33][35]
美团LongCat-Flash-Omni正式发布并开源
新浪科技· 2025-11-03 02:46
公司产品发布 - 公司于11月3日开源全模态模型LongCat-Flash-Omni并同步在官方App上线公测 [1] - 公测版本可供用户体验模型的联网搜索和语音通话等功能 [1] 产品技术特点 - 新模型是业界首个集“全模态覆盖、端到端架构、大参数量高效推理”于一体的开源大语言模型 [1] - 模型在开源范畴内实现了对标闭源模型的全模态能力 [1] - 凭借创新的架构设计与工程优化,使大参数模型在多模态任务中实现毫秒级响应 [1]