大语言模型
搜索文档
自搜索强化学习SSRL:Agentic RL的Sim2Real时刻
机器之心· 2025-09-02 01:27
研究背景与方法 - 研究由清华大学、上海人工智能实验室、上海交通大学等机构联合完成,聚焦于利用大语言模型内部世界知识提升搜索智能体训练效率 [2][6] - 提出SSRL方法,通过结构化提示和格式奖励有效提取模型世界知识,降低幻觉并在多个基准测试中取得更好效果 [2][6][8] - 探索训练智能体无需真实环境参与的可能性,并验证接入真实搜索引擎后SSRL训练的模型表现更优,体现Sim2Real有效性 [2][8] 当前搜索智能体训练挑战 - 全真实搜索方式直接调用商业搜索引擎API或RAG本地知识库,成本高昂且与真实场景存在差距 [7][13] - 半真实搜索使用辅助LLM模拟搜索引擎行为,但训练效率低下且不稳定 [7][13] - 当前训练方式非常昂贵、耗时且不稳定,多轮工具调用导致rollout效率降低,外部信息引入易导致模型崩溃 [7][13] LLM利用世界知识的上限 - 通过formatted instruction显式利用模型内部知识,在大量模型上采样显示仅依赖内部知识即可在所有基准测试中获得明显效果提升 [10][12] - Llama-3.1-8B-Instruct在Bamboogle上pass@64达到76%正确率,在BrowseComp上pass@256达到10%正确率 [12] - 发现Llama系列在该类任务上效果远超Qwen系列,与数学领域结论相反 [12] - Majority Voting方法无法逼近模型能力上限,增加采样数量时效果不会进一步提升 [15] SSRL训练优化与设计 - 训练目标函数优化为标准GRPO目标,通过信息掩码强制模型基于查询和推理生成答案而非简单复制 [22][23] - 采用复合奖励函数结合格式奖励和结果奖励,防止奖励黑客并确保奖励有效性 [24] - 训练后模型表现优于依赖外部引擎训练的模型,训练效率提升约5.6倍且训练奖励持续增长未出现崩溃现象 [31] 实验结果 - 在Llama和Qwen2.5系列模型上训练,SSRL方法在多项基准测试中取得更好效果 [25][26] - Llama-3.2-3B-Instruct模型在HotpotQA上达到43.8%准确率,在NQ上达到58.4%,在Bamboogle上达到38.4% [26] - Llama-3.1-8B-Instruct模型在HotpotQA上达到48.0%准确率,在NQ上达到62.6%,在Bamboogle上达到54.4% [26] Sim2Real泛化 - 将前K个自搜索知识替换为在线搜索结果,发现SSRL训练模型在真实场景下表现更优 [28][29] - Llama-3.2-3B-Instruct模型在Sim2Real设置下准确率提升至41.9%,Qwen2.5-7B-Instruct提升至47.9% [33] - 随着K增加效果不会持续增长,显示模型内部知识具有高度压缩性和灵活性 [32] 熵引导搜索 - 提出熵引导搜索方法,根据模型不确定性动态选择使用内部知识或外部工具 [34] - 搜索次数减少20%-42%的同时保持可比性能,Llama-3.1-8B-Instruct模型准确率提升至41.7% [36] SSRL与TTRL结合 - SSRL与TTRL结合可获得显著效果提升,Llama-3.2-3B-Instruct模型在多项测试中准确率提升最高达67% [38][39] - 在BrowseComp任务上,Llama-3.2-3B-Instruct模型达到6.2%准确率 [40] - 但TTRL易导致模型过于自信和训练崩溃问题 [39]
维持推荐小盘成长,风格连续择优正确
2025-09-02 00:42
**行业与公司** * 行业:A股市场、量化投资、资产配置 * 公司:中金公司(量化团队)[1][2][5][8][10] **核心观点与论据** * 风格配置:9月继续推荐小盘成长风格,因市场状态、情绪端和宏观环境维度均支持其占优;8月小盘成长绝对收益16.86%[2] * 资产配置:相对看好国内股票(存在底部支撑信号),商品中性,债券谨慎[3][4] * 行业轮动:9月推荐综合金融、传媒、计算机、银行、基础化工、房地产;8月行业组合涨幅2.4%,YTD超额收益11.5个百分点[5] * 策略表现: - "成长趋势共振"策略8月收益率18.1%,连续6个月跑赢偏股混合型基金指数[7] - 小盘掘金类策略YTD收益超50个百分点,但8月表现一般(低关注度掘金7.8%、次新股掘金7.0%)[8] - XG Boost成长优选策略YTD收益率47.1%,8月收益率13.5%[8] * 模型创新: - Attention GRU周频选股策略全市场YTD跑赢基准11.7个百分点[10] - 深度学习周频选股策略全市场YTD跑赢基准43.4个百分点[10] **其他重要内容** * 风险提示:若权重股行情持续极端化,小盘策略可能阶段性失效[6][9] * 择时工具:大盘择时隐含波动率曲面情绪指标自8月1日持续看多后市[10] * 策略逻辑:行业轮动模型基于价量因子(流动性、动量、调研信息)[5],选股策略注重估值性价比和资金拥挤度[6]
吴恩达最新来信:是时候关注并行智能体了
具身智能之心· 2025-09-01 04:02
并行智能体发展趋势 - 并行智能体正成为提升AI能力的新方向 通过多个智能体协作处理不同任务 实现速度快效率高 [2][3] - 传统AI能力提升依赖scaling law 即通过更多数据和算力获得性能提升 但需要长时间输出结果 [6][7][8] - 并行agent在提升性能的同时 让用户无需长时间等待结果 且大语言模型token成本下降使该方法可行 [9][10] 并行智能体应用场景 - 多个agent并行抓取分析网页 快速生成深度研究报告 [11] - 多个agent协同处理代码库不同部分 加快编程任务完成速度 [11] - 多个agent在后台并行工作 由监督agent向用户提供反馈 实现并行异步控制 [11] 技术挑战与研究进展 - 协调多个智能体并行执行任务存在挑战 类似于人类将复杂任务拆分给多个工程师完成的难度 [13][14] - Code Monkeys论文通过并行生成多个轨迹 生成多样化候选解决方案 提高编程问题解决效率 [15][17] - Together Mixture Of Agents架构同时利用多个大语言模型提升性能 并可调整分层架构进一步优化 [18][19] 行业前景展望 - 最优利用并行agent仍需大量研究与工程探索 预计能高效并行工作的agent数量将非常庞大 [22] - 并行计算在AI领域具有历史成功先例 2009年GPU大规模应用曾显著提升卷积神经网络训练效率 [23][24]
中金:维持百融云-W跑赢行业评级 上调目标价至14.8港元
智通财经· 2025-09-01 03:03
核心观点 - 中金维持百融云-W 2025e/2026e非通用准则净利润盈利预测不变 上调目标价15%至14.8港元 对应25e/26e 19.6x/15.3x经调整P/E及20%上行空间 维持跑赢行业评级 [1] 财务表现 - 1H25营收同比+22%至16.1亿元 毛利同比+22%至11.8亿元 毛利率同比+0.2ppt至73.4% [2] - 1H25非通用准则净利润同比+29%至2.54亿元 非通用准则净利润率同比+0.8ppt至15.8% 超出预期 [2] MaaS业务表现 - 1H25 MaaS业务营收同比+19%至5.02亿元 核心客户留存率提升至98% 客户数量同比+1%至167家 [3] - 客均收入同比+14%至228万元 业务横向拓宽至运营商/零售/人力资源/出行等非金融领域 [3] BaaS业务表现 - 1H25 BaaS服务营收同比+23%至11.0亿元 [4] - BaaS-金融行业云营收同比+45%至8.57亿元 占BaaS收入比重77% 主因模型效果优化及客户预算增加 [4] - BaaS-保险行业云营收同比-19%至2.53亿元 促成保费规模同比+9% 受报行合一政策影响 [4] 产品与技术发展 - 自主研发大语言模型BR-LLM通过工信部备案 推出百工CybotStar企业级智能体平台/数智人/Voice GPT智能语音等新产品 [4] - 产品矩阵持续扩展 有望实现纵向深化及横向拓展的双重增长 [4]
中金:维持百融云-W(06608)跑赢行业评级 上调目标价至14.8港元
智通财经网· 2025-09-01 03:00
核心观点 - 中金维持百融云2025e/2026e非通用准则净利润盈利预测不变 上调目标价15%至14.8港元 对应25e/26e 19.6x/15.3x经调整P/E及20%上行空间 维持跑赢行业评级 [1] 财务表现 - 1H25营收同比+22%至16.1亿元 毛利同比+22%至11.8亿元 毛利率同比+0.2ppt至73.4% [2] - 1H25非通用准则净利润同比+29%至2.54亿元 非通用准则净利润率同比+0.8ppt至15.8% 超出预期 [2] MaaS业务 - 1H25 MaaS业务营收同比+19%至5.02亿元 核心客户留存率提升至98% 客户数量同比+1%至167家 [3] - 客均收入同比+14%至228万元 业务横向拓宽至运营商/零售/人力资源/出行等非金融领域 [3] BaaS业务 - 1H25 BaaS服务营收同比+23%至11.0亿元 [4] - BaaS-金融行业云营收同比+45%至8.57亿元 占BaaS收入比重达77% 主因模型效果优化及客户预算增加 [4] - 自主研发大语言模型BR-LLM通过工信部备案 推出百工CybotStar企业级智能体平台/数智人/Voice GPT智能语音等新产品 [4] - BaaS-保险行业云营收同比-19%至2.53亿元 促成保费规模同比+9% 受"报行合一"政策导致产品下架及佣金率下滑影响 [4]
科研智能体「漫游指南」—助你构建领域专属科研智能体
机器之心· 2025-09-01 02:49
科研智能体综述核心观点 - 基于大语言模型的智能体构建推动AI4S迅猛发展 催生一系列科研智能体构建与应用[2] - 人工智能与自然科学研究之间存在认知论与方法论偏差 对系统设计、训练及验证产生较大阻碍[2] - 综述提供科研智能体"漫游指南" 涵盖分级策略、构建方案、基线评估及未来方向[2] 科研智能体分级策略 - 三级分级系统根据构建策略与能力边界划分:Agent as Assistant、Agent as Partner、Agent as Avatar[4][8] - Agent as Assistant使用小模型经后训练或微调完成 局限于特定领域单一任务[8] - Agent as Partner集成各类工具实现能力跃迁 采用闭源大型模型结合上下文信息优化[8] - Agent as Avatar具备强大推理能力、深度记忆和强协作能力 能跨学科解决科研难题[8] 构建方案与能力增强 - 从头构建工作流包含知识组织、知识注入和工具集成三部分[12] - 知识组织涵盖非结构化序列、结构化数据、指令及知识图谱四种形式[14] - 知识注入通过显式或隐式方法实现 显式注入直接整合知识到提示中 隐式注入涉及微调模型或强化学习[14] - 工具集成通过外部工具扩展功能 包括专业知识获取、执行模拟、分析及可视化[14] - 能力增强包含记忆增强、推理增强和协作增强三个维度[19] 基准评估体系 - 基准分为知识密集型任务和实验驱动型任务两类[17][18] - 知识密集型任务侧重文献挖掘、假设生成、实验设计等需要深厚专业知识的领域[17] - 实验驱动型任务评估智能体在科学探究中使用工具的能力 强调自主实验设计和验证[18] - 基准覆盖生物学、化学、医学、计算机科学等多个领域 包含True/False、Open-ended、Choices等多种题型[20] 应用案例与模型配置 - 汇总超过80个科研智能体案例 涵盖天文学、生物学、化学、医学等15个学科领域[10] - 基础模型包括LLaMA系列(7B/13B)、GPT系列(GPT-3/4/4o)、Qwen系列(2.5-72B)等[10] - 应用阶段覆盖知识问答、假设生成、实验设计、分子设计、临床分析等科研全生命周期[10] 未来研究方向 - 需确保科学实验设计的实证准确性和理性 整合验证工具和反馈机制[23] - 需要灵活连贯的框架适应特定研究领域 克服复杂领域系统局限性[23] - 需融入自我反思和持续迭代机制 平衡情景记忆和参数记忆[23] - 需优化智能体与人类研究人员交互 整合通用和专用模型促进跨学科合作[23] - 需通过跨学科知识转移增强专业知识 提高相关领域执行能力[23] - 需创新评估方法确保遵循可证伪性和可重复性等核心科学原则[23]
硬蛋创新(00400.HK)中期经营溢利2.76亿元 同比增加约20.8%
格隆汇· 2025-08-29 16:56
公司业绩表现 - 报告期内收入约人民币66.77亿元 同比增加54.5% [1] - 经营溢利约人民币2.76亿元 同比增加20.8% [1] - 除税后纯利约人民币1.9亿元 同比增加12.4% [1] - 每股盈利0.086人民币元 [1] 行业发展趋势 - AI应用快速渗透成为全球芯片市场增长核心驱动力 [1] - 上半年全球芯片市场规模达3460亿美元 同比增长18.9% [1] - 生成式AI、大语言模型及多模态应用加速商业化落地 [1] - 数据中心对高性能GPUs、专用AI加速器及先进存储芯片需求大幅上升 [1] 市场需求驱动因素 - 全球主要云服务商大幅增加资本开支用于扩建AI训练及推理服务器集群 [1] - 云计算领域资本开支增加推动高端AI芯片出货量增长 [1] - AI相关需求对全球芯片市场增长贡献尤为突出 [1]
吴恩达最新来信:是时候关注并行智能体了
量子位· 2025-08-29 11:37
并行智能体技术趋势 - 并行智能体通过多个agent协同处理任务提升AI效率 成为提升AI能力的新方向[1][3] - 传统AI能力提升依赖scaling law 通过更多数据和算力获得性能提升但输出结果时间长[4][6] - 并行agent方法在提升性能的同时减少用户等待时间 且因大语言模型token成本下降而更具可行性[8] 并行智能体应用场景 - 多个agent并行抓取分析网页可快速生成深度研究报告[7] - 多个agent协同处理代码库不同部分可加快编程任务完成速度[7] - 多个agent后台并行工作并由监督agent向用户反馈 实现并行异步控制[7] 技术实现与挑战 - 任务分解给多个智能体并行执行存在协调难度 类似人类复杂任务分配的挑战[9][10] - Code Monkeys论文通过并行生成多个轨迹生成多样化候选解决方案 提高编程问题解决效率[11][13] - Together Mixture Of Agents架构同时利用多个大语言模型提升性能 并可调整分层架构进一步优化[14][15] 发展前景 - 最优利用并行agent仍需大量研究与工程探索 高效并行工作的agent数量潜力巨大[18] - 技术发展具有历史延续性 2009年GPU并行计算已为深度学习时代奠定基础[19][20]
前OpenAI、DeepMind研究员领衔,50+位专家谈AI编程、Agent与具身智能,2025全球机器学习技术大会议程首发!
AI科技大本营· 2025-08-29 10:06
大会概况 - 2025全球机器学习技术大会将于10月16-17日在北京威斯汀酒店举行 汇聚50余位重量级嘉宾 聚焦AI从技术突破到产业落地的硬核攻坚战 [1][3] - 大会设置12大核心专题 包括大语言模型技术演进 智能体工程 多模态与世界模型 AI赋能软件研发 大模型应用开发 GenAI产品创新 具身智能 行业落地实践 开源模型与框架 大模型系统架构 AI基础设施及算力优化 [3] - 大会旨在穿透技术喧嚣 直击产业落地要害 提供AI全栈作战地图导航 [3][4] 智能体与多智能体系统 - 京东零售开源多智能体协作框架OxyGent 将工具 模型和智能体抽象为可插拔模块 支持开发者灵活组合构建高扩展性系统 具备全链路决策追溯能力 [37][38] - 智谱AI展示LLM Agent在软件工程领域的应用 使大语言模型能自主规划 调用工具并完成复杂任务 [55][57] 多模态大模型技术 - 理想汽车推出MindGPT-4o-Audio实时语音对话模型 实现全双工低延迟端到端交互 支持边听边说 语音知识问答 多角色高表现力生成及外部工具调用 [14] - 360人工智能研究院研发FG-CLIP模型 突破传统CLIP整体语义优先导致的细节缺失瓶颈 在保证高并发低延迟前提下显著提升图文对齐精度 [16][17][19] - 小红书应用多模态大模型于搜索业务 覆盖以图搜图 图片搜索 视频搜索及多模态AI搜索四大场景 并深入内容理解及RAG系统实践 [33] - 昆仑万维推出Skywork-r1v系列多模态思维链推理模型 实现文本推理能力向视觉任务迁移 r1v3模型推理速度提升6倍 MMMU达76.0 接近人类初级专家水平 [42] 大模型训练与部署优化 - 百度开源文心4.5系列大模型 分享ERNIEKit和FastDeploy在精调与高效推理中的技术突破 [25][27][29] - 清华大学研发端侧高效模型MiniCPM 通过稀疏注意力 UltraClean数据策略 BitCPM三值量化及CPM cu推理引擎 在端侧芯片实现5倍以上推理加速 [49] 计算机视觉与OCR技术 - 百度飞桨推出PaddleOCR 3.0系列 包括新一代通用文字识别模型PP-OCRv5 文档解析工具PP-StructureV3及OCR+LLM关键信息抽取方案PP-ChatOCRv4 [46] - 国星宇航分享AI视觉算法产品落地经验 涵盖从实验室原型到亿级用户产品的全周期研发 聚焦数据工程优化 模型轻量化部署及算法性能与用户体验平衡 [24] 自动驾驶与具身智能 - 驭势科技应用AI大模型突破L4级自动驾驶"99分困局" 推动多场景全天候真无人驾驶商业化落地 [61] - 网易伏羲机器人将具身智能技术应用于工程机械智能化 构建基于远控设备的具身智能数据闭环 开发端到端挖掘机自动装车模型 [53] AI安全与可靠性 - 中国电信研究院聚焦AI安全与治理 剖析大模型时代安全风险 伦理挑战及治理方案 [5][7][8][9] - 北京邮电大学研究不确定性建模 从校准方法 三类不确定性来源分析到消减策略 提升AI模型在复杂场景中的可靠性和安全性 [66][69] 嘉宾阵容 - 大会汇聚产学研顶尖力量 包括奇点智能研究院 清华大学 新浪微博 中国人民大学 群核科技 清程极智 哔哩哔哩 阿里淘天 腾讯混元 字节跳动 小红书 百度 智谱AI等机构专家 [73]
人工智能将为你预订假期,但暂时还不会帮你打扫厨房……
36氪· 2025-08-29 06:59
人工智能发展现状 - 尽管大语言模型已能自主对话和解决问题,但实现真实人类智能仍遥远 [1] - 过去五年AI领域进展显著,聊天机器人相互对话可开辟前所未有的商业前景 [1] - 当前AI仍难以精准复现基础人力工作,最先进模型也存在局限性 [1] 技术能力与局限 - AI通过对海量数据解析已能应对复杂问题并提供切实解决方案 [1] - 即便能数秒内解决博士级数学难题,仍无法完成最低时薪工人的基础劳动(如清理厨房) [4][6] - 技术演进存在悖论:功能飞速发展但质量参差不齐 [6] 商业应用机遇 - 生成式AI可节省工作时间并提升效率,尤其适用于创建演示文稿等基础任务 [3] - 大语言模型能挖掘企业非结构化数据价值(邮件/文档/会议记录等),使数据档案焕发新生 [3] - 三类AI助手具备阶梯式经济价值:客户服务助手(处理银行咨询)、自动化流程助手(度假方案预订)、协作型助手(优化申请流程) [4] 内容生成与创新潜力 - 大语言模型将催生全新内容,孵化难以想象的新业务与服务 [4] - 在创意工作领域可生成近乎无限的创意方案(如广告口号),虽质量不一但能激发人类创造力 [3] 实施关键要素 - 企业应用AI需确保高质量、连贯性且术语统一的输入数据 [4] - 需明确数据来源、呈现形式及跨部门输入标准一致性 [4] 潜在风险与缺陷 - 大语言模型常输出以假乱真的错误信息,因不了解事实真相而具有强误导性 [8] - 可能产生偏见与有害输出,难以识别看似无害但导致有害结果的请求 [8] - 训练数据引发版权与知识产权争议,暂无明确解决措施 [8] - 生成内容可能导致互联网内容污染,难以区分人类与机器生成内容 [8] - 存在隐私风险,需谨慎处理网上活动言论与训练数据的边界 [7] - 技术权力集中在少数科技巨头与政府机构,影响经济与民主健康运转 [8] 社会经济影响 - 生成式AI将替代可自动化的工作(写代码/重复性事务),造成就业困难 [8] - 下一代AI技术将毋庸置疑改变世界和工作方式,重点在于如何应用而非是否应用 [9]