大语言模型

搜索文档
ACL 2025|自我怀疑还是自我纠正?清华团队揭示LLMs反思技术的暗面
机器之心· 2025-07-14 04:08
反思技术失败现象 - 大语言模型在反思技术提示下会出现将正确答案改错的现象,即使是最先进的推理模型ChatGPT o4-mini-high在简单事实问题如"地球是不是平的"上也会出错[2][3] - 反思技术在多种任务(简单事实问答、复杂推理等)中失败案例多于成功案例,且随着模型进步失败率虽有减少但未根本解决,部分任务中更严重[8] - 最新ChatGPT模型(4.5-preview/4.1/o4-mini/o3)反思失败率显著,其中o4-mini初始准确率81.6%但反思后下降22.1个百分点,改错率高达41.5%[9] 失败原因分析 - 内部答案波动:多轮对话中LLMs会频繁更改答案,如GPT-3.5-turbo对81.3%的问题更改答案超6次,表现出"自我怀疑"倾向[12][13] - 提示语偏差:失败时LLMs在76.1%情况下过度关注反思指令而忽略问题本身,成功时对指令和问题的关注度相近(50.8% vs 49.2%)[16][18] - 认知偏差:在复杂任务中LLMs会表现出类似人类的三种认知偏差模式——过度思考、认知过载、完美主义偏差[20][21] 缓解策略 - 问题重复:在反思提示语后附上初始问题,引导模型维持对问题的关注[25] - 少样本微调:使用4-10个样本进行微调可纠正反思失败的异常行为,效果优于问题重复且能泛化到复杂任务[23][25]
宇树科技王兴兴、强脑科技韩璧丞首次出席香港特首顾问团会议
每日经济新闻· 2025-07-13 18:36
香港特首顾问团会议 - 杭州宇树科技创始人王兴兴和浙江强脑科技创始人韩璧丞作为新一届特首顾问团成员首次参会,会上强调香港具有"内联外通"优势、教育科研资源及国际金融中心地位,是内地企业上市和出海的理想窗口 [1] - 顾问团讨论三大主题:香港经济高质量发展、创新与创业、区域与环球协作,涉及巩固金融中心地位、推动产业升级、开拓新兴市场等内容 [2] - 特首李家超表示顾问团成员均为各领域翘楚,其建议将为香港发展战略和《施政报告》提供重要参考 [2] 杭港创科合作 - 李家超4月访问浙江时曾与"杭州六小龙"企业代表会面,重点关注大语言模型、机器人、AI、脑机接口等领域发展,并实地考察强脑科技和宇树科技 [3] - 李家超指出杭州创科生态圈发展迅速,香港将推动两地企业合作,利用香港开放优势助力内地企业国际化 [3] - "杭州六小龙"中的群核科技已于2024年2月14日向港交所递交IPO申请,成为该群体首家拟上市企业 [3] 企业动态 - 宇树科技和强脑科技作为"杭州六小龙"代表企业,其创始人在香港特首顾问团会议中扮演重要角色,凸显两地科创合作深化 [1][3] - 强脑科技专注于脑机接口技术,宇树科技涉及机器人领域,两家公司均受到香港特区政府高度重视 [3]
“杭州六小龙”,两人加入特首顾问团!
第一财经· 2025-07-13 14:18
香港特首顾问团成员变动与战略意图 - 第二届特首顾问团新增三位成员:经济学家朱民、强脑科技创始人韩璧丞、宇树科技创始人王兴兴,均来自"杭州六小龙"企业 [1] - 首届顾问团中李泽钜、傅育宁、汤晓鸥三人退出,保持34人总规模不变 [1] - 顾问团分为经济高质量与持续发展、创新与创业、区域与环球协作三个小组,成员包括唐英年、白德利、蔡崇信、迈克尔·斯彭斯等政商学界领袖 [2] 香港资本市场吸引力建设 - 港交所新增18A和18C章节为生物科技、特专科技公司开辟上市通道,2024年9月进一步下调18C市值门槛 [3] - 2024年上半年港股完成42宗IPO募资1070亿港元,同比增长22%,暂列全球第一 [4] - 恒指上半年累计上涨20%(超4000点),创历年最大上半年涨幅 [4] - 宁德时代以355亿港元募资额成为2024年全球最大规模IPO [4] - 南向资金上半年净流入逾7300亿港元,接近2023年全年水平 [4] 内地企业赴港上市趋势 - "杭州六小龙"中群核信息已递交港交所招股书,宇树科技计划先A后H股上市 [3] - 207家公司正在港交所排队等待上市,集中在科技、新消费和医药医疗行业 [6] - 李家超2023年《施政报告》明确推动内地大型企业赴港上市,争取更多标志性IPO [3] - 香港财政司司长陈茂波提出"香港集资支持国际拓展"将成为内地企业出海新趋势 [5] 香港与内地科技企业联动 - 李家超2024年4月率团访问杭州,与"杭州六小龙"探讨大语言模型、机器人、AI等领域合作 [5] - 强脑科技和宇树科技创始人认为香港具备"内联外通"、教育科研及国际金融中心优势 [2] - 特区政府通过优化上市流程、降低交易成本增强对科技企业吸引力 [3]
“杭州六小龙”两人加入特首顾问团:李家超的“阳谋”|湾区观察
第一财经· 2025-07-13 12:14
香港特首顾问团动态 - 李家超与第二届特首顾问团举行首次会议,新增三位成员包括经济学家朱民、强脑科技创始人韩璧丞和宇树科技创始人王兴兴,替换了首届成员中的李泽钜、傅育宁和汤晓鸥[1] - 顾问团分为经济高质量与持续发展、创新与创业、区域与环球协作三个小组,成员包括唐英年、白德利、蔡崇信、迈克尔·斯彭斯等政商学界领袖[1] - 新成员表示香港具有"内联外通"优势,是国际金融中心,资金自由流动,吸引内地企业在港上市和作为"出海"窗口[4] 香港股市发展策略 - 李家超在《施政报告》中明确要吸引国际企业和内地大型企业赴港上市,争取更多标志性IPO[5] - 港交所新增18A和18C章节为生物科技和特专科技公司开辟上市通道,2024年9月进一步下调18C市值门槛[5] - 港交所优化上市批核流程,降低交易成本以增强对IPO企业的吸引力[5] 港股市场表现 - 2024年上半年港股完成42宗IPO,募资1070亿港元,较去年全年增长22%,暂列全球第一[6] - 上半年恒指累计上涨20%(4000点),创历年来最大上半年涨幅[6] - 宁德时代以355亿港元募资额成为2024年迄今全球最大规模IPO[6] 内地企业赴港上市趋势 - 杭州群核信息技术已向港交所递交招股书,宇树科技计划先上A股再赴H股[5] - 2024年多家内地科技企业通过18C章程赴港上市[5] - Wind数据显示截至7月7日有207家公司在港交所排队等待上市,集中在科技、新消费和医药医疗行业[7] 政府与企业互动 - 李家超2024年4月访问杭州并与"杭州六小龙"会面,探讨新技术生态圈和政府企业合作[7] - 陈茂波表示"香港集资以支持国际拓展"将成为内地企业出海新趋势[7] - 南向资金上半年净流入港股逾7300亿港元,接近去年全年水平[6]
Cell综述:生成式AI,开启医学新时代
生物世界· 2025-07-13 08:16
人工智能在生物医学领域的应用 - 生物医学领域的技术创新如药物研发、外科技术、生物通路理解和成像技术进步推动了生活质量和健康寿命的提升 [2] - 现代人工智能的进步得益于Transformer架构、生成对抗网络和diffusion模型等关键架构创新,推动了生成式人工智能系统的发展 [2] 人工智能在医学领域的变革性潜力 - 大语言模型(LLM)和多模态人工智能通过改进诊断、患者互动和医疗预测改变医学领域 [6] - 大语言模型实现对话式界面、简化医疗报告并协助临床决策,多模态人工智能整合图像和基因数据在病理学和医疗筛查中表现优异 [6] - AI驱动的工具通过持续监测和多尺度预测有望实现主动、个性化的医疗保健 [6] 医疗实践的变革 - AI赋能的医疗实践将临床护理从偶发性互动转变为持续监测和定期随访 [8] - 医疗事件可在熟悉环境中更早得到持续关注,新医学知识更易融入护理模式并借助AI技术开发新药物 [8] 多尺度医疗预测 - AI算法基于动态输入预测未来医疗事件,应用于从分子层面到群体层面的多个层面 [10] 医疗AI的未来与挑战 - AI在医疗健康领域的进展使工具能处理海量信息,显著提高诊断准确性和改善患者治疗结果 [11] - AI进步如高级筛查、创新成像技术、预测分析和个性化管理计划有望将患者护理从被动模式转变为主动系统 [11] - AI工具在临床的全面接受仍面临挑战,大多数工具处于开发阶段,临床应用是主要障碍 [11] 医疗AI实施路线图 - 基础科学研究催生概念验证模型,大规模模型和早期临床应用为最终临床部署和优化奠定基础 [14]
自动驾驶论文速递 | 多模态大模型、运动规划、场景理解等~
自动驾驶之心· 2025-07-13 08:10
自动驾驶算法模型研究进展 - MCAM模型在BDD-X数据集上驾驶行为描述任务BLEU-4提升至35.7%,推理任务BLEU-4提升至9.1%,显著优于DriveGPT4等基线模型[1] - TigAug技术使交通灯检测模型错误识别率降低39.8%,增强数据重新训练后mAP平均提升67.5%[12][17] - LeAD系统在CARLA仿真平台实现71.96驾驶分,路线完成率93.43%,超越现有基线模型[23][27] - DRO-EDL-MPC算法计算效率提升5倍,不确定场景下碰撞率接近于零[33][40] - 3DGS-LSR框架在KITTI数据集实现厘米级定位,城镇道路误差0.026m,林荫道误差0.029m[43][47] 自动驾驶数据集与框架创新 - NavigScene框架使nuScenes数据集平均L2轨迹误差降低至0.76m,比基线提升24%,碰撞率从32.48‱降至20.71‱[52][58] - LiMA框架在nuScenes数据集LiDAR语义分割mIoU达56.67%,3D目标检测mCE降至91.43%[61][68] - L4 Motion Forecasting数据集包含德美两国400+小时原始数据,覆盖250km独特道路[78][82] - 动态掩码与相对动作空间缩减策略使CARLA仿真训练效率提升2倍,车道偏离降低至0.07米[71][76] 技术突破与性能提升 - DSDAG因果图建模自车状态动态演化,为驾驶视频理解提供结构化理论基础[5] - TigAug单张图像合成耗时0.88秒,模型重训练平均耗时36小时[13] - LeAD系统通过LLM增强实现场景语义理解和类人逻辑推理[25] - DR-EDL-CVaR约束同时处理数据不确定性和模型不确定性[38] - 3DGS-LSR摆脱对GNSS依赖,仅用单目RGB图像实现厘米级重定位[46]
奇瑞墨甲抢招商,智元、宇树拿大单,人形机器人竞速跑
21世纪经济报道· 2025-07-12 14:16
人形机器人商业化进展 - 奇瑞与AiMOGA联合研发的墨甲机器人将于2024年9月底在国内发布,面向经销商和个人销售 [1] - 智元、宇树中标中国移动旗下公司1.2亿元人形机器人采购订单,其中智元获7800万元全尺寸机器人订单,宇树获4605万元小尺寸机器人及相关配件订单 [1][4][5] - 墨甲机器人已完成首批220台全球交付,资本市场曾炒作奇瑞链人形机器人概念 [1] 奇瑞机器人布局与技术应用 - 奇瑞从工业机器人切入人形机器人领域,2022年智造工厂配备660台工业机器人实现每分钟下线一辆车 [2] - 2023年与墨甲联合研发的人形机器人墨茵完成首轮测试,2024年8月发布CheryGPT大模型并应用于墨甲机器人 [2] - 墨茵机器人已落地汽车4S店场景,具备迎客、车型介绍等功能,招商会吸引超3000家经销商参与 [2] - 墨甲机器人注重仿真设计,墨茵拥有拟人化身材、面部细节及头发、牙齿等精细特征 [2] 行业场景落地与挑战 - 人形机器人分为生产力机器人和服务机器人两类,后者需情绪洞察能力推动交互升级 [3] - 汽车4S店场景中机器人可提升到店流量,但需解决客户留资与订单转化问题,目前难以替代销冠级销售能力 [3] - 运营商场景中,中国移动采购的机器人可能用于营销场景,需二次开发行业专用解决方案 [5] - 中国电信陕西公司计划与优必选合作推出AI大模型家庭桌面机器人,目标销量超10万台 [5] 技术演进路径 - 人形机器人技术发展分三阶段:通用技术开发→行业内容适配→个体体验优化 [6] - 当前处于第一阶段,机器人公司聚焦通用技术研发,后续需解决方案商参与行业内容开发 [6]
库克你赶紧退休,放过苹果吧
36氪· 2025-07-11 13:48
核心观点 - 苹果在AI时代成为落后生,核心AI高管跳槽至Meta,自研模型进展缓慢,考虑接入第三方模型[4][5][6] - 公司资源投入不足,2026年仅批准数十亿美元用于自研云端模型,远低于微软、Meta、谷歌的500亿美元年度预算[7] - 库克将更多资源投向MR头显,计划2027年推出智能眼镜和Vision Air[7] - 库克领导下的苹果缺乏破坏性创新,更擅长成熟产品的深度运营和延续性创新[22][23] - 公司在AI人才争夺战中表现被动,未采取积极措施吸引年轻人才[28][34] AI领域表现 - 苹果基础模型团队负责人Ruoming Pang跳槽至Meta,薪酬达每年数千万美元[4] - 智能版Siri频繁跳票,考虑接入Anthropic或OpenAI的大语言模型[5][6] - 自研模型项目"LLM Siri"仍在迭代,但进展缓慢[7] - 公司对AI投入不足,2026年预算仅数十亿美元,远低于竞争对手[7] - 高管判断失误和资源分配不当导致AI落后[8] 人才竞争 - Meta组建超级智能实验室,挖角OpenAI、Anthropic和谷歌等公司人才[14] - 扎克伯格为顶尖研究人员开出4年3亿美元高薪[15] - 2021年Meta从苹果挖走约100名工程师,库克被迫发放股票奖金留人[18] - 苹果在AI人才争夺中表现被动,未采取积极措施[28][34] - 行业趋势显示年轻人才成为AI创新的关键[29][31] 产品战略 - 库克终止苹果汽车项目,Vision Pro市场反响平淡[20] - 公司转向MR头显,计划2027年推出智能眼镜和Vision Air[7] - 库克时代产品策略以延续性创新为主,扩充iPhone产品线并推出可穿戴设备[23] - 软件服务成为第二增长曲线,推出多项订阅服务[24] - 软硬一体化战略推动市值增长,但缺乏破坏性创新[25] 行业对比 - 微软豪赌OpenAI并将AI融入核心业务,获得市场认可[27] - 英伟达通过频繁收购初创公司补强技术能力[35] - OpenAI和DeepSeek依靠年轻人才实现创新[29][30] - 大公司创始人积极争夺AI人才,库克未采取类似行动[33][34] - 苹果在AI时代的应对策略与竞争对手形成鲜明对比[27][35]
马斯克吹牛了吗?Grok 4第一波实测出炉:既能完虐o3,也菜到数不清6根手指
机器之心· 2025-07-11 08:27
Grok 4性能表现 - Grok 4在物理模拟测试中成功生成受地球引力和摩擦力影响的六边形弹球模拟代码,展示了对因果规律和时空关系的理解[5][7] - 在越狱攻击测试中,Grok 4成功抵御了提示词注入、身份探测、角色扮演注入和白色隐藏注入等多种攻击方式[12][13] - 在法律逻辑推理测试中,Grok 4能够详细解释公司债务违约后的法律和财务后果,表现优于竞品[15] - 在翻译和指令清晰度测试中,Grok 4完胜竞品o3[16] - 在8项综合测试中,Grok 4全部获胜,而竞品o3仅赢得2项[17] 应用场景展示 - 用户通过两个提示词即可用Grok 4创建完整的Flappy Bird游戏,并优化图形效果[21][22] - Grok 4在4小时内完成FPS射击游戏开发,展示出较强的游戏开发能力[24] - 仅用4个提示词即可创建交互式欧拉恒等式可视化工具,展示教育应用潜力[28][31] - 成功生成黑洞的交互式3D模拟,视觉效果惊艳[32] 性能局限性 - 在绘制印度地图轮廓任务中出现明显错误,准确性不足[36] - 处理数学问题时存在推理过程缺失问题,仅输出最终结果[42] - API接口目前不返回思考过程,影响用户体验[41] 行业反响 - 马斯克在发布会上宣称Grok 4所有学科达到博士后水平,可能实现科学新发现[2] - 尽管测试表现优异,马斯克仍表示产品"有改进空间"[44] - 网友调侃Grok 4性能提升依赖算力资源、华人工程师和加班文化[45]
华人2亿美元年薪破界,AI竞赛冰火两重天
搜狐财经· 2025-07-11 06:03
Meta高薪挖角AI人才 - Meta以超2亿美元年薪挖角前苹果AI/ML基础模型团队负责人庞若鸣 薪酬方案包含股票、签约奖金和绩效挂钩发放方式 需多年服务绑定和市值增长指标解锁 [4] - 庞若鸣是机器学习专家 精通ML和基础设施 曾领导苹果约100名工程师推进多模态大语言模型研发 负责Apple Intelligence核心功能 [7][9] - Meta设立"超级智能实验室" 由Scale AI创始人Alexandr Wang领导 已吸纳多位AI界资深人士 并通过持有Scale AI 49%股份强化战略布局 [8] 科技巨头AI转型与裁员潮 - 微软2025年第三轮裁员9000人 年内累计裁减1.7万人 核心工程师占比40% 创公司历史记录 [5] - 微软AI基础设施投入激增 预计12个月内资本支出达800亿美元 较上年560亿美元同比增43% [5] - 亚马逊累计削减2.7万个岗位 多个传统岗位实现AI化 谷歌、Meta和IBM等也在2024年不同程度裁员 [7] 苹果AI研发困境 - 苹果正评估放弃自研大型语言模型 可能引入Anthropic或OpenAI技术支持下一代Siri 因内部研发进展缓慢导致多名核心AI工程师退出 [9] - Meta近期挖角OpenAI、Anthropic与谷歌DeepMind等多家中坚力量 希望填补超大模型和智能助手研发差距 [9] AI行业人才竞争格局 - Meta对庞若鸣的巨额薪酬刷新企业对AI核心人才的估值边界 [4] - 科技公司调整人力结构 降低开支并将资源倾向AI 出现"AI岗位取代传统岗位"案例 [7]