大语言模型
搜索文档
Nicholas Chui:押注中国的“动物精神”正在回归
日经中文网· 2025-09-02 03:15
资金流向与市场表现 - 全球股票基金对中国股票的配置比例呈现上升趋势 [1] - 香港股市触及约3年零10个月高点 上海股市达到近10年高点 [1] - 欧美投资者对中国市场的关注度重新提升 [1] 政策与投资逻辑转变 - 投资者认识到中国政府政策转向经济扶持 成为资金回流起点 [1] - 长期增长预期驱动"动物精神"回归 非短期资金行为 [1][2] - 2025年DeepSeek技术突破将推动中国建立独立大语言模型与云生态系统 [1] 消费行业表现与驱动力 - 旅游和教育类消费概念股表现坚挺 受政策支持推动 [3] - 国民购买力持续提升 存款向消费转化存在充分空间 [3] - 小米通过扩展纯电动汽车与智能家电产品线确立品牌力 抗经济波动能力增强 [3] 地缘政治风险应对 - 美国关税政策未引发客户恐慌性抛售 因针对范围具全球性特征 [6] - 中美对立风险仍存在但未显著影响资金配置决策 [4][6]
大模型开始打王者荣耀了
量子位· 2025-09-02 01:40
腾讯TiG框架技术突破 - 提出Think-In-Games框架 将大语言模型直接应用于《王者荣耀》训练 实现实时游戏盘面理解与人类级别操作[1] - 仅14B参数的Qwen-3-14B模型通过TiG框架达到90.91%动作精准度 超越671B参数的Deepseek-R1模型[2] - 将强化学习决策重新定义为语言建模任务 通过语言指导策略生成与环境反馈迭代优化[3] 技术实现原理 - 大语言模型在游戏中直接行动并解释原因 弥合传统LLM只知原理与RL只知行动的鸿沟[4][5] - 主要学习人类玩家宏观层面推理能力 包括长期目标制定 团队协同策略 地图施压控制等[6] - 将决策转化为文本 通过JSON读取游戏状态 从固定菜单选择宏操作并解释原因[7] 训练方法与数据构建 - 采用多阶段训练结合监督微调与强化学习 使用GRPO算法最大化生成内容优势[12][9] - 从真实对局采样构建数据集 通过重新标注算法确保每个状态带有宏观动作标签[9] - 基于二元规则奖励机制 预测操作与人类玩法匹配时奖励为1 否则为0[11] 模型性能表现 - Qwen-2.5-32B应用GRPO后准确率从66.67%提升至86.84%[14][15] - Qwen2.5-14B经SFT+GRPO训练后准确率从53.25%提升至83.12%[14][15] - 最佳表现组合为Qwen-3-14B+SFT+GRPO(2000步) 达到90.91%准确率[2][15] 应用场景特征 - 模型扮演战略决策角色而非操作执行 类似金牌教练而非职业选手[6][7] - 具体案例显示模型能全面评估游戏状态 分析优先目标 制定策略并输出指令[8][9] - 在数据量和计算需求显著降低情况下取得与传统RL方法竞争性性能[17]
自搜索强化学习SSRL:Agentic RL的Sim2Real时刻
机器之心· 2025-09-02 01:27
研究背景与方法 - 研究由清华大学、上海人工智能实验室、上海交通大学等机构联合完成,聚焦于利用大语言模型内部世界知识提升搜索智能体训练效率 [2][6] - 提出SSRL方法,通过结构化提示和格式奖励有效提取模型世界知识,降低幻觉并在多个基准测试中取得更好效果 [2][6][8] - 探索训练智能体无需真实环境参与的可能性,并验证接入真实搜索引擎后SSRL训练的模型表现更优,体现Sim2Real有效性 [2][8] 当前搜索智能体训练挑战 - 全真实搜索方式直接调用商业搜索引擎API或RAG本地知识库,成本高昂且与真实场景存在差距 [7][13] - 半真实搜索使用辅助LLM模拟搜索引擎行为,但训练效率低下且不稳定 [7][13] - 当前训练方式非常昂贵、耗时且不稳定,多轮工具调用导致rollout效率降低,外部信息引入易导致模型崩溃 [7][13] LLM利用世界知识的上限 - 通过formatted instruction显式利用模型内部知识,在大量模型上采样显示仅依赖内部知识即可在所有基准测试中获得明显效果提升 [10][12] - Llama-3.1-8B-Instruct在Bamboogle上pass@64达到76%正确率,在BrowseComp上pass@256达到10%正确率 [12] - 发现Llama系列在该类任务上效果远超Qwen系列,与数学领域结论相反 [12] - Majority Voting方法无法逼近模型能力上限,增加采样数量时效果不会进一步提升 [15] SSRL训练优化与设计 - 训练目标函数优化为标准GRPO目标,通过信息掩码强制模型基于查询和推理生成答案而非简单复制 [22][23] - 采用复合奖励函数结合格式奖励和结果奖励,防止奖励黑客并确保奖励有效性 [24] - 训练后模型表现优于依赖外部引擎训练的模型,训练效率提升约5.6倍且训练奖励持续增长未出现崩溃现象 [31] 实验结果 - 在Llama和Qwen2.5系列模型上训练,SSRL方法在多项基准测试中取得更好效果 [25][26] - Llama-3.2-3B-Instruct模型在HotpotQA上达到43.8%准确率,在NQ上达到58.4%,在Bamboogle上达到38.4% [26] - Llama-3.1-8B-Instruct模型在HotpotQA上达到48.0%准确率,在NQ上达到62.6%,在Bamboogle上达到54.4% [26] Sim2Real泛化 - 将前K个自搜索知识替换为在线搜索结果,发现SSRL训练模型在真实场景下表现更优 [28][29] - Llama-3.2-3B-Instruct模型在Sim2Real设置下准确率提升至41.9%,Qwen2.5-7B-Instruct提升至47.9% [33] - 随着K增加效果不会持续增长,显示模型内部知识具有高度压缩性和灵活性 [32] 熵引导搜索 - 提出熵引导搜索方法,根据模型不确定性动态选择使用内部知识或外部工具 [34] - 搜索次数减少20%-42%的同时保持可比性能,Llama-3.1-8B-Instruct模型准确率提升至41.7% [36] SSRL与TTRL结合 - SSRL与TTRL结合可获得显著效果提升,Llama-3.2-3B-Instruct模型在多项测试中准确率提升最高达67% [38][39] - 在BrowseComp任务上,Llama-3.2-3B-Instruct模型达到6.2%准确率 [40] - 但TTRL易导致模型过于自信和训练崩溃问题 [39]
维持推荐小盘成长,风格连续择优正确
2025-09-02 00:42
**行业与公司** * 行业:A股市场、量化投资、资产配置 * 公司:中金公司(量化团队)[1][2][5][8][10] **核心观点与论据** * 风格配置:9月继续推荐小盘成长风格,因市场状态、情绪端和宏观环境维度均支持其占优;8月小盘成长绝对收益16.86%[2] * 资产配置:相对看好国内股票(存在底部支撑信号),商品中性,债券谨慎[3][4] * 行业轮动:9月推荐综合金融、传媒、计算机、银行、基础化工、房地产;8月行业组合涨幅2.4%,YTD超额收益11.5个百分点[5] * 策略表现: - "成长趋势共振"策略8月收益率18.1%,连续6个月跑赢偏股混合型基金指数[7] - 小盘掘金类策略YTD收益超50个百分点,但8月表现一般(低关注度掘金7.8%、次新股掘金7.0%)[8] - XG Boost成长优选策略YTD收益率47.1%,8月收益率13.5%[8] * 模型创新: - Attention GRU周频选股策略全市场YTD跑赢基准11.7个百分点[10] - 深度学习周频选股策略全市场YTD跑赢基准43.4个百分点[10] **其他重要内容** * 风险提示:若权重股行情持续极端化,小盘策略可能阶段性失效[6][9] * 择时工具:大盘择时隐含波动率曲面情绪指标自8月1日持续看多后市[10] * 策略逻辑:行业轮动模型基于价量因子(流动性、动量、调研信息)[5],选股策略注重估值性价比和资金拥挤度[6]
吴恩达最新来信:是时候关注并行智能体了
具身智能之心· 2025-09-01 04:02
并行智能体发展趋势 - 并行智能体正成为提升AI能力的新方向 通过多个智能体协作处理不同任务 实现速度快效率高 [2][3] - 传统AI能力提升依赖scaling law 即通过更多数据和算力获得性能提升 但需要长时间输出结果 [6][7][8] - 并行agent在提升性能的同时 让用户无需长时间等待结果 且大语言模型token成本下降使该方法可行 [9][10] 并行智能体应用场景 - 多个agent并行抓取分析网页 快速生成深度研究报告 [11] - 多个agent协同处理代码库不同部分 加快编程任务完成速度 [11] - 多个agent在后台并行工作 由监督agent向用户提供反馈 实现并行异步控制 [11] 技术挑战与研究进展 - 协调多个智能体并行执行任务存在挑战 类似于人类将复杂任务拆分给多个工程师完成的难度 [13][14] - Code Monkeys论文通过并行生成多个轨迹 生成多样化候选解决方案 提高编程问题解决效率 [15][17] - Together Mixture Of Agents架构同时利用多个大语言模型提升性能 并可调整分层架构进一步优化 [18][19] 行业前景展望 - 最优利用并行agent仍需大量研究与工程探索 预计能高效并行工作的agent数量将非常庞大 [22] - 并行计算在AI领域具有历史成功先例 2009年GPU大规模应用曾显著提升卷积神经网络训练效率 [23][24]
中金:维持百融云-W跑赢行业评级 上调目标价至14.8港元
智通财经· 2025-09-01 03:03
核心观点 - 中金维持百融云-W 2025e/2026e非通用准则净利润盈利预测不变 上调目标价15%至14.8港元 对应25e/26e 19.6x/15.3x经调整P/E及20%上行空间 维持跑赢行业评级 [1] 财务表现 - 1H25营收同比+22%至16.1亿元 毛利同比+22%至11.8亿元 毛利率同比+0.2ppt至73.4% [2] - 1H25非通用准则净利润同比+29%至2.54亿元 非通用准则净利润率同比+0.8ppt至15.8% 超出预期 [2] MaaS业务表现 - 1H25 MaaS业务营收同比+19%至5.02亿元 核心客户留存率提升至98% 客户数量同比+1%至167家 [3] - 客均收入同比+14%至228万元 业务横向拓宽至运营商/零售/人力资源/出行等非金融领域 [3] BaaS业务表现 - 1H25 BaaS服务营收同比+23%至11.0亿元 [4] - BaaS-金融行业云营收同比+45%至8.57亿元 占BaaS收入比重77% 主因模型效果优化及客户预算增加 [4] - BaaS-保险行业云营收同比-19%至2.53亿元 促成保费规模同比+9% 受报行合一政策影响 [4] 产品与技术发展 - 自主研发大语言模型BR-LLM通过工信部备案 推出百工CybotStar企业级智能体平台/数智人/Voice GPT智能语音等新产品 [4] - 产品矩阵持续扩展 有望实现纵向深化及横向拓展的双重增长 [4]
中金:维持百融云-W(06608)跑赢行业评级 上调目标价至14.8港元
智通财经网· 2025-09-01 03:00
核心观点 - 中金维持百融云2025e/2026e非通用准则净利润盈利预测不变 上调目标价15%至14.8港元 对应25e/26e 19.6x/15.3x经调整P/E及20%上行空间 维持跑赢行业评级 [1] 财务表现 - 1H25营收同比+22%至16.1亿元 毛利同比+22%至11.8亿元 毛利率同比+0.2ppt至73.4% [2] - 1H25非通用准则净利润同比+29%至2.54亿元 非通用准则净利润率同比+0.8ppt至15.8% 超出预期 [2] MaaS业务 - 1H25 MaaS业务营收同比+19%至5.02亿元 核心客户留存率提升至98% 客户数量同比+1%至167家 [3] - 客均收入同比+14%至228万元 业务横向拓宽至运营商/零售/人力资源/出行等非金融领域 [3] BaaS业务 - 1H25 BaaS服务营收同比+23%至11.0亿元 [4] - BaaS-金融行业云营收同比+45%至8.57亿元 占BaaS收入比重达77% 主因模型效果优化及客户预算增加 [4] - 自主研发大语言模型BR-LLM通过工信部备案 推出百工CybotStar企业级智能体平台/数智人/Voice GPT智能语音等新产品 [4] - BaaS-保险行业云营收同比-19%至2.53亿元 促成保费规模同比+9% 受"报行合一"政策导致产品下架及佣金率下滑影响 [4]
科研智能体「漫游指南」—助你构建领域专属科研智能体
机器之心· 2025-09-01 02:49
科研智能体综述核心观点 - 基于大语言模型的智能体构建推动AI4S迅猛发展 催生一系列科研智能体构建与应用[2] - 人工智能与自然科学研究之间存在认知论与方法论偏差 对系统设计、训练及验证产生较大阻碍[2] - 综述提供科研智能体"漫游指南" 涵盖分级策略、构建方案、基线评估及未来方向[2] 科研智能体分级策略 - 三级分级系统根据构建策略与能力边界划分:Agent as Assistant、Agent as Partner、Agent as Avatar[4][8] - Agent as Assistant使用小模型经后训练或微调完成 局限于特定领域单一任务[8] - Agent as Partner集成各类工具实现能力跃迁 采用闭源大型模型结合上下文信息优化[8] - Agent as Avatar具备强大推理能力、深度记忆和强协作能力 能跨学科解决科研难题[8] 构建方案与能力增强 - 从头构建工作流包含知识组织、知识注入和工具集成三部分[12] - 知识组织涵盖非结构化序列、结构化数据、指令及知识图谱四种形式[14] - 知识注入通过显式或隐式方法实现 显式注入直接整合知识到提示中 隐式注入涉及微调模型或强化学习[14] - 工具集成通过外部工具扩展功能 包括专业知识获取、执行模拟、分析及可视化[14] - 能力增强包含记忆增强、推理增强和协作增强三个维度[19] 基准评估体系 - 基准分为知识密集型任务和实验驱动型任务两类[17][18] - 知识密集型任务侧重文献挖掘、假设生成、实验设计等需要深厚专业知识的领域[17] - 实验驱动型任务评估智能体在科学探究中使用工具的能力 强调自主实验设计和验证[18] - 基准覆盖生物学、化学、医学、计算机科学等多个领域 包含True/False、Open-ended、Choices等多种题型[20] 应用案例与模型配置 - 汇总超过80个科研智能体案例 涵盖天文学、生物学、化学、医学等15个学科领域[10] - 基础模型包括LLaMA系列(7B/13B)、GPT系列(GPT-3/4/4o)、Qwen系列(2.5-72B)等[10] - 应用阶段覆盖知识问答、假设生成、实验设计、分子设计、临床分析等科研全生命周期[10] 未来研究方向 - 需确保科学实验设计的实证准确性和理性 整合验证工具和反馈机制[23] - 需要灵活连贯的框架适应特定研究领域 克服复杂领域系统局限性[23] - 需融入自我反思和持续迭代机制 平衡情景记忆和参数记忆[23] - 需优化智能体与人类研究人员交互 整合通用和专用模型促进跨学科合作[23] - 需通过跨学科知识转移增强专业知识 提高相关领域执行能力[23] - 需创新评估方法确保遵循可证伪性和可重复性等核心科学原则[23]
硬蛋创新(00400.HK)中期经营溢利2.76亿元 同比增加约20.8%
格隆汇· 2025-08-29 16:56
公司业绩表现 - 报告期内收入约人民币66.77亿元 同比增加54.5% [1] - 经营溢利约人民币2.76亿元 同比增加20.8% [1] - 除税后纯利约人民币1.9亿元 同比增加12.4% [1] - 每股盈利0.086人民币元 [1] 行业发展趋势 - AI应用快速渗透成为全球芯片市场增长核心驱动力 [1] - 上半年全球芯片市场规模达3460亿美元 同比增长18.9% [1] - 生成式AI、大语言模型及多模态应用加速商业化落地 [1] - 数据中心对高性能GPUs、专用AI加速器及先进存储芯片需求大幅上升 [1] 市场需求驱动因素 - 全球主要云服务商大幅增加资本开支用于扩建AI训练及推理服务器集群 [1] - 云计算领域资本开支增加推动高端AI芯片出货量增长 [1] - AI相关需求对全球芯片市场增长贡献尤为突出 [1]
吴恩达最新来信:是时候关注并行智能体了
量子位· 2025-08-29 11:37
并行智能体技术趋势 - 并行智能体通过多个agent协同处理任务提升AI效率 成为提升AI能力的新方向[1][3] - 传统AI能力提升依赖scaling law 通过更多数据和算力获得性能提升但输出结果时间长[4][6] - 并行agent方法在提升性能的同时减少用户等待时间 且因大语言模型token成本下降而更具可行性[8] 并行智能体应用场景 - 多个agent并行抓取分析网页可快速生成深度研究报告[7] - 多个agent协同处理代码库不同部分可加快编程任务完成速度[7] - 多个agent后台并行工作并由监督agent向用户反馈 实现并行异步控制[7] 技术实现与挑战 - 任务分解给多个智能体并行执行存在协调难度 类似人类复杂任务分配的挑战[9][10] - Code Monkeys论文通过并行生成多个轨迹生成多样化候选解决方案 提高编程问题解决效率[11][13] - Together Mixture Of Agents架构同时利用多个大语言模型提升性能 并可调整分层架构进一步优化[14][15] 发展前景 - 最优利用并行agent仍需大量研究与工程探索 高效并行工作的agent数量潜力巨大[18] - 技术发展具有历史延续性 2009年GPU并行计算已为深度学习时代奠定基础[19][20]