大语言模型

搜索文档
大模型“拼好题”,45K数据撬动18%提升,数学问题拒绝死记硬背 | MathFusion
量子位· 2025-06-17 07:41
核心观点 - 当前数学领域的数据生成方法局限于单个问题的改写或变换,缺乏对题目间内在关联性的挖掘 [1] - MathFusion通过指令融合增强大语言模型解决数学问题的能力,打破传统局限 [1] - 仅使用45K合成指令,MathFusion在多个基准测试中平均准确率提升18.0个百分点,展现卓越数据效率和性能 [2] 融合策略 - 顺序融合(Sequential Fusion):将两个问题串联,前一个问题的答案作为后一个问题的输入条件,模拟多步骤问题解决过程 [5] - 并列融合(Parallel Fusion):将两个相似问题融合,识别并融合数学概念后提出新问题 [6] - 条件融合(Conditional Fusion):创造需要对两个问题的解进行比较和选择的问题场景 [6] - 三种策略结合生成全新融合数据集MathFusionQA,通过embedding search识别适合融合的问题对并利用GPT-4o-mini生成解答 [6] 实验结果 - MathFusion在DeepSeekMath-7B、Mistral-7B、Llama3-8B等模型上实现稳定性能提升 [9] - 组合融合策略优于单一策略,在DeepSeekMath-7B上平均提升3.1分,Llama3-8B提升4.9分,Mistral-7B提升7.5分 [10] - 在out-of-domain基准测试中超越标准模型,展现强大泛化能力 [11] - MathFusion-DSMath-7B使用195K样本时,在MATH测试集准确率达58.2%,GSM8K达79.5%,College达40.3% [9] 数据特性与扩展性 - 融合后问题指令遵循难度(IFD)更高,模型性能随数据量呈对数增长 [13] - MathFusionQA与DART-Math数据集结合使用时性能可进一步提升,显示问题融合与挖掘难题思路互补 [13] - t-SNE可视化显示融合问题在特征空间分布更均匀广泛 [13] - 当前验证限于GSM8K、MATH等简单数学问题及short cot solution数据集,需扩展至更复杂领域 [12]
MiniMax重磅开源M1模型:百万上下文超DeepSeek R1,实现性能与效率双杀
AI科技大本营· 2025-06-17 02:32
大模型技术突破 - MiniMax开源其首个推理模型M1,原生支持百万级上下文长度,在推理效率、计算成本和复杂任务能力上展现出与DeepSeek R1、Qwen3-235B等模型不同的技术路径与性能表现[1][2] - M1是全球首个开放权重的大规模混合注意力推理模型,凭借混合门控专家架构(Mixture-of-Experts,MoE)与Lightning Attention的结合,在性能表现和推理效率方面实现显著突破[4] - M1具备4560亿参数规模,其中每个token激活约459亿参数,原生支持最长100万tokens的上下文输入,是DeepSeek R1所支持长度的8倍[7] 性能与效率优势 - 在生成长度为10万tokens的场景下,MiniMax-M1的计算量(FLOPs)仅为DeepSeek R1的25%,在长文本处理任务中具备显著优势[7] - 完整强化学习训练在512块H800 GPU上仅耗时三周,成本控制在53.47万美元,展现极高效率与性价比[11] - 在标准基准测试中,MiniMax-M1在复杂软件工程、工具使用与长上下文任务等方面表现突出,整体表现已达到甚至超越DeepSeek-R1与Qwen3-235B等代表性开源模型[12] 技术创新 - 采用大规模强化学习(RL)方式,在数学推理、沙盒环境下的软件工程等多样任务中进行了全面优化[9] - 提出名为CISPO的创新型强化学习算法,针对重要性采样权重而非token更新进行裁剪,有效提升学习稳定性与性能表现,在对比实验中优于现有主流RL变体[10] - 训练两个版本分别设定40K与80K的思维预算(thinking budget),其中40K版本为中间训练阶段的成果[12] 应用与部署 - MiniMax-M1是开源即上线,可直接进入官网体验[13][15] - 模型在不到30秒的时间可完成技术报告里的公式、表格翻译[17] - 模型现已支持GitHub和Hugging Face平台,并兼容vILN和Transformers框架[19]
刚刚,LMArena最新模型榜单出炉!DeepSeek-R1网页编程能力赶超了Claude Opus 4
机器之心· 2025-06-17 00:10
DeepSeek-R1(0528)模型升级与性能表现 - 核心观点:DeepSeek-R1(0528)在开源模型中表现突出,多项基准测试排名靠前,尤其在编程领域与闭源模型性能相当 [1][2][3][4] 模型升级与功能改进 - DeepSeek-R1(0528)为最新升级版本,改进基准测试性能,减少幻觉,支持JSON输出和函数调用 [3] - 模型及权重已公开,采用MIT开源协议 [2][8] LMArena基准测试排名 - 在文本基准测试(Text)中整体排名第6,开放模型中排名第一 [5] - 细分领域表现: - 硬提示词(Hard Prompt)排名第4 - 编程(Coding)排名第2 - 数学(Math)排名第5 - 创意性写作(Creative Writing)排名第6 - 指令遵循(Instruction Following)排名第9 - 更长查询(Longer Query)排名第8 - 多轮对话(Multi-Turn)排名第7 [6] WebDev Arena编程竞赛表现 - 与Gemini-2.5-Pro-Preview-06-05、Claude Opus 4(20250514)并列第一,分数超过Claude Opus 4 [7] - WebDev Arena评分: - Gemini-2.5-Pro-Preview-06-05:1433.16(±13.78/-16.08) - DeepSeek-R1(0528):1408.84(±16.75/-15.04) - Claude Opus 4(20250514):1405.51(±12.56/-12.44) [8] 行业影响与用户反馈 - DeepSeek-R1(0528)在AI编程领域与Claude Opus性能相当,被视为开源AI的关键里程碑 [10] - 模型在完全开放的MIT协议下提供领先性能,可能影响更广泛的编程领域 [10] - 实际用户体验仍需更多验证,以确认是否媲美闭源模型 [10]
AI投研应用系列之二:从大模型到智能体,扣子Coze在金融投研中的应用
太平洋证券· 2025-06-15 06:51
根据研报内容,总结如下: 量化模型与构建方式 1. 模型名称:报告解读智能体;模型构建思路:利用Coze平台构建能够自动解读金融报告的智能体,通过插件获取报告内容并调用大模型进行分析[28];模型具体构建过程:在智能体编辑页面输入描述语句生成提示词,新建工作流编辑任务流程,使用文件读取插件提取文档内容及公式结构,配置大语言模型节点定义输出逻辑与格式规范[28][30];模型评价:能够准确解读报告内容并呈现重要公式,提升报告分析效率[31] 2. 模型名称:财务数据分析智能体;模型构建思路:构建能够从网页或插件获取财务数据并用大模型进行分析的智能体[35];模型具体构建过程:通过代码处理节点拼接网页URL,信息爬取节点实时获取财报数据,输入DeepSeek大模型节点进行综合分析[38],或通过新浪财经插件获取数据后输入大模型分析[45][47];模型评价:能够从多个维度生成财务分析和投资建议[39][48] 3. 模型名称:研报总结智能体;模型构建思路:构建能够爬取多篇策略研报并用大模型进行分析总结的智能体[52];模型具体构建过程:使用插件爬取html代码,循环节点处理多条内容,大模型节点提取相关内容并写入飞书多维表格[52][55],添加代码节点将JSON字符串转换为JavaScript对象[69];模型评价:实现用自然语言从html代码中提取内容,节省编写代码的工作[69] 量化因子与构建方式 1. 因子名称:财务分析因子;因子构建思路:从财务数据中提取关键指标作为因子[35];因子具体构建过程:通过爬取或插件获取归母净利润、营业总收入、营业成本、净利润、扣非净利润、股东权益合计、商誉、经营现金流量净额、基本每股收益、每股净资产、每股现金流、净资产收益率、总资产报酬率、毛利率等指标[36] 2. 因子名称:研报分析因子;因子构建思路:从策略研报中提取关键信息作为因子[52];因子具体构建过程:通过爬取获取报告标题、内容、机构名称和链接等信息[55],用大模型提取相关内容并分析总结[52] 模型的回测效果 1. 报告解读智能体,能够准确解读量化领域英文文献并呈现重要公式[31] 2. 财务数据分析智能体,能够从盈利能力、偿债能力、运营能力等维度生成分析[39][48] 3. 研报总结智能体,能够从多篇策略研报中提取关键信息并生成总结[52][60] 因子的回测效果 1. 财务分析因子,包含14个关键财务指标[36] 2. 研报分析因子,包含标题、内容、机构名称和链接等关键信息[55]
本周精华总结:谷歌AI的进阶之路:从技术积累到发现新知的未来探索
老徐抓AI趋势· 2025-06-15 03:41
谷歌AI技术发展历程 - 谷歌母公司Alphabet采用创新组织架构 将Google、DeepMind、Isomorphic Labs等子公司独立运营 避免传统业务束缚创新业务 [1] - DeepMind创始人戴密斯·哈萨比斯具有国际象棋背景和剑桥计算机专业学历 团队开发出AlphaGo击败围棋大师李世石 AlphaFold预测蛋白质结构获诺贝尔化学奖 [1] 谷歌AI技术优势 - 谷歌在大语言模型(Transformer架构)领域技术积累深厚 已开始向超越OpenAI方向发展 [2] - 谷歌AI具备"发现新知识"的创新能力 如AlphaGo第37手新招 AlphaFold解开数亿蛋白质结构 AlphaProof证明数学定理 AlphaEvolve优化50多年数学运算问题 [2] - 谷歌与特斯拉是最接近实现"世界模型"的公司 分别依托YouTube视频数据和车辆摄像头现实数据 多维数据训练远超单一文本数据 [3] 谷歌AI战略方向 - 谷歌早期因担心AI错误率影响用户体验未快速推向市场 OpenAI的ChatGPT爆红验证市场需求后迅速跟进 [2] - 谷歌未来目标是实现通用人工智能(AGI) DeepMind团队定义AGI为机器具备人脑般的通用智能能力 正在逐步弥补"认知漏洞"向真正通用智能靠近 [2] - 谷歌AI在智能发现、模型完善和通用智能方向具备突破潜力 有望保持行业领先地位 [3]
ICML 2025 | 千倍长度泛化!蚂蚁新注意力机制GCA实现16M长上下文精准理解
机器之心· 2025-06-13 15:45
长文本建模的挑战与GCA的创新 - 长文本建模面临两大核心挑战:主流LLMs的Transformers架构存在平方复杂度及显存开销线性增长问题,以及full-attention外推能力有限难以泛化到超长输入[1] - 高效处理长上下文不仅关乎工业界降本增效,更涉及AGI核心问题——构建具有永久记忆的智能体,这将成为大语言模型公司的数据护城河[1] - 蚂蚁团队提出GCA机制,模拟人类开卷考试模式,通过因果检索注意力实现端到端学习,仅关注相关历史片段,显著降低显存开销[2] GCA技术原理与架构 - GCA采用两阶段注意力机制:分组注意力收集各chunk信息,chunk-level融合通过softmax加权整合关键信息用于预测[14][15] - 架构结合GCA与滑动窗口注意力,前者负责长程检索后者处理短程信息,通过Triton kernel实现优化显存管理[15] - 与传统检索方式相比,GCA让检索分参与前向运算获得梯度,实现检索模块的端到端学习[13] 实验性能表现 - 128M模型实现1000倍长度泛化,16K预训练模型在16M上下文passkey retrieval达到100%准确率[5][17] - 训练开销随序列长度呈线性增长,推理显存接近常数且速度持平Transformers,CPU卸载策略使48K上下文显存仅增加1.62倍[17][20] - 在arXiv-math数据中展示语义级检索能力,能识别引理和变量声明的逻辑相关性[21] 行业技术对比 - 相比滑动窗口注意力牺牲长程信息、温度调节法泛化有限等现有方案,GCA突破性地实现有效利用超长上文信息[7][8] - 与DeepSeek的NSA形成技术互补:GCA侧重长度泛化,NSA优化稀疏attention,后续HSA工作融合两者优势[5] 开源与学术影响 - 技术实现已通过Triton kernel全部开源,论文被ICML 2025接收[3][11] - 尽管实验规模较小,但为机器永久记忆机制提供新思路,首次实现16M长度完美信息检索[23]
全球最大上市对冲基金集团出手!
中国基金报· 2025-06-13 07:00
公司动态 - 英仕曼集团在中国市场推出首只自主管理的股票指数增强策略产品——英仕曼美量中证500指数增强策略,该产品已在中国证券投资基金业协会备案,面向合格投资者发行 [2] - 该产品标志着英仕曼集团在中国投资市场的重要战略布局进入新阶段 [2] - 英仕曼(上海)投资管理有限公司为英仕曼集团在中国内地的全资子公司,2017年登记为证券私募管理人 [8] - 2025年英仕曼(上海)备案了两只产品:"英仕曼美量2号私募证券投资基金"和"英仕曼目标风险全球资产配置私募证券投资基金" [8] - 英仕曼于2025年1月主动注销了英仕曼海外投资基金管理(上海)有限公司的登记,QDLP业务和证券私募业务现均在英仕曼(上海)投资管理有限公司开展 [8] - 英仕曼(上海)投资管理有限公司法定代表人从许铭变更为毛友昆 [8] 产品策略 - 新产品将英仕曼旗下Numeric团队的全球长期实盘经验的系统化量化投资方法用于中国A股市场投资 [4] - Numeric团队拥有超过30年的量化投资经验,截至2025年3月31日管理的全球股票策略资产规模超过400亿美元 [4] - 投资策略整合了公司基本面、行业另类数据、市场情绪和量价交易行为等多个维度的因子信号 [4] - 通过自主研发的风险模型和组合构建流程系统化管理投资组合的风险敞口 [4] - 近年来机器学习和大语言模型的爆发式增长为量化投资策略提供了广阔的应用空间 [5] 市场观点 - 作为全球第二大股票市场,A股市场不仅拥有显著的配置潜力,而且为量化策略提供了丰富的Alpha来源 [4] - A股投资策略是英仕曼集团投资策略未来发展中不可或缺的一环 [5] 公司概况 - 英仕曼集团是全球最大的上市对冲基金集团,总部位于伦敦 [7] - 截至2025年3月31日,英仕曼集团管理的资产规模为1726亿美元 [7] - 集团为富时250指数成份股 [7] - 2023年9月,Robyn Grew接替服务了13年的原CEO Luke Ellis,成为这家创始于1783年的集团的首位女性CEO [10] 产品备案情况 - 英仕曼(上海)2023年备案了两只产品,2024年无产品备案,2025年已备案两只产品 [9] - "英仕曼目标风险全球资产配置私募证券投资基金"在部分渠道收获了不错的反响 [9]
OpenAI掀桌子,新模型力压谷歌,o3降到地板价
36氪· 2025-06-13 06:07
产品发布 - OpenAI突然发布o3-pro加强版推理大模型 向所有ChatGPT和API的Pro用户开放[1][2] - Plus用户使用限制从每周100次提升至200次[2] - o3-pro在科学 教育 编程 商业和写作等关键领域全面优于o3版本[2] 性能表现 - o3-pro在数学基准测试AIME2024 博士级科学测试GPQA Diamond和编程竞赛中优于o1-pro和o3[6] - 在ARC-AGI-1高难度任务通过率59.3% 但在ARC-AGI-2推理任务通过率仅4.9%[13] - 智力水平以微弱优势领先Gemini 2.5 pro[9] - 支持文本和图像输入 上下文窗口200k 最大输出token数100k[11] 用户体验 - 响应速度明显较慢 简单回复"HI"耗时4分钟 二次测试达13分28秒[15][17] - 更适合处理复杂问题如项目方案 多文件整合等[17] - 在数学逻辑题和编程能力测试中表现优异[19][21] - 需要充足背景信息说明诉求 否则容易过度思考[22] 行业竞争 - OpenAI模型更新频次明显高于2024年 采取更激进淘汰策略[24] - o3-pro输入价格20美元/百万token 输出80美元/百万token 相比o1-pro大幅降价[24] - o3降价80%至输出2美元/百万token 输入8美元/百万token[27] - 价格调整后o3略低于Gemini 2.5 pro 但后者智力水平略高[27]
万马科技20250612
2025-06-12 15:07
纪要涉及的行业和公司 - 行业:车联网行业、Robotaxi 行业 - 公司:万马科技、有方科技、优卡科技 纪要提到的核心观点和论据 万马科技业务情况 - 万马科技成立于 1997 年,2017 年在深交所上市,有通信类产品和车联网产品服务及支架两大业务板块,通信类业务占收入约 55%,车联网及支架业务占 45% [3] - 2021 年收购有方科技切入车联网领域,车联网收入从 2021 年的 5000 万元增长到 2024 年的 2.6 亿元,利润从不到 2000 万元增长到 6000 万元 [2][3] - 已建立完整的数据闭环工具链,在常州设立智驾算力中心 [3] 车联网市场现状及前景 - 国内车联网行业渗透率约 80%,海外市场渗透率不足 30%,随着智能驾驶对数据需求增加,国内外市场均有较大发展空间 [2][4] - Robotaxi 对实时数据监控和技术要求高,单车价值显著提升 [2][4][5] 优卡科技解决方案 - 提供蓝海全球车联和云自动驾驶数据闭环两大解决方案,支持 1400 万辆车辆,客户包括吉利、上汽等 [2][6] - 针对 Robotaxi 行业推出车端、网络和云端综合解决方案,包括双 SIM 卡流量服务、边缘计算架构等,提升联网质量和降低控车时延 [4][12] - 通过蓝海 one SIM 方案支持 Robotaxi 企业全球业务布局,在海外设十多个分支机构,与全球几十家运营商合作 [4][15] Robotaxi 行业发展趋势 - 被视为车联网行业发展的“皇冠上的明珠”,高盛预测中国 Robotaxi 市场年化增长率将达 96%,低速无人驾驶产业联盟预测低速无人驾驶增速接近 40% [2][7] - 已在多个城市常态化运营,特斯拉即将推出相关业务 [2][7][19] Robotaxi 对网络质量要求 - 运行安全需高清地图、车路协同和远程脱困功能 [10] - 用户交互涉及叫车、人车交互等,需高效网络支持 [10] - 合规性要求留存运营数据 [10] - 自动驾驶数据采集依赖海量数据和云端 AI 算力训练 [10] - 运维需运维人员本地介入和远程开锁、安全接管车辆 [10] 公司支持 Robotaxi 企业的方式 - 蓝海方案提升联网质量,采用一车双卡联网和边缘计算架构,降低控车时延,实现毫秒级切换 [13][14] - 数据闭环工具链帮助训练算法,支持自动化标注等技术应用,与英伟达合作提升模型训练推理性能 30 - 40% [16] - 优咖科技为 Robotaxi 企业提供基于大语言模型和视觉语言模型的多模态数据管道构建方案 [17] 其他重要但可能被忽略的内容 - Robotaxi 运营可能遇到碰撞行人、难识别交警手势等小概率事件,可通过云座舱远程脱困 [9] - Robotaxi 整体运营系统包括端侧、网络和云端,各部分有不同功能 [11] - RoboTaxi 和 RoboVan 处于爆发前夜,低速物流车 RoboVan 在末端物流领域潜力大,运营企业车辆规模增速达 100% [19][20] - 优咖科技与中国头部无人驾驶公司在蓝海连接解决方案上合作,为运营方提供网络等服务 [20] - 优咖科技 5G 专网有领先优势,能平衡用户体验、安全性与成本,Robotaxi 数据采集与回传需求和可靠性要求显著提升 [21] - 公司成立针对 Robotaxi 综合解决方案焦点小组,与各行业头部企业合作,因车联网经验和蓝海奥云解决方案受青睐 [22] - 过去两年公司积极布局海外市场,在多地设分支机构,投入 one SIM 技术,与各地运营商密切沟通 [23]
587Ah半固态电芯!双登股份6.25MWh液冷储能系统新品发布
中关村储能产业技术联盟· 2025-06-12 10:39
产品发布 - 双登股份发布Power Warden3 0半固态液冷储能系统 标准20呎高柜 单舱容量6 25MWh 兼容组串 构网及长时储能场景 [1] 电芯技术 - 系统搭载587Ah半固态电芯 体积能量密度达416Wh/L 循环寿命20年 能量效率95% 全生命周期成本更低 [3] - 采用原位聚合技术实现液态电解液向半固态电解质的突破 极端条件下产热功率更低 热失控风险大幅降低 [6] - 电芯具备高机械强度与稳定性 有效抑制电极材料体积变化 日历存储2年额定能量零衰减 [6] 安全设计 - 构建电芯-PACK-簇-汇流单元-系统五级熔断保护体系 搭配簇级漏电流与绝缘状态实时监测 [11] - 首创六维梯次消防保护 联动五级智能监控体系 包括本地控制 BMS EMS 站级组网及云端大数据平台 [11] - PACK层面基于IP67防护等级 通过热失控预防 阻燃蔓延和兜底设计全方位提升安全性 [9] 环境适应性 - 支持C5-H级防腐与IP55防护 可在-40℃至55℃极温和5000米超高海拔稳定运行 [13] - 采用小于65dBA工业级静音技术 可承受9级地震和强飓风冲击 [13] 智能化与收益 - 深度融入AI智眸系统 基于Deepseek大语言模型智能客服提升运维决策效率300% [16] - 内置智能交易辅助引擎 动态优化充放电策略 自动构建调峰 调频 现货套利等收益模型 [16] - 6 25MWh系统较传统5MWh方案可降低20%占地面积 减少15%运维工作量 LCOS降低15% [16]