Workflow
WebWatcher
icon
搜索文档
AI动态汇总:DeepSeek线上模型升级至V3.1,字节开源360亿参数Seed-OSS系列模型
中邮证券· 2025-08-26 13:00
量化模型与构建方式 1 **模型名称**:DeepSeek-V3.1混合推理架构[12] **模型构建思路**:通过单一模型支持“思考模式”与“非思考模式”两种推理方式,以适应不同复杂度的任务需求,提升计算资源分配效率[12] **模型具体构建过程**:模型基于Transformer结构进行深度改造,通过动态激活不同的注意力头来实现模式切换,并采用了思维链压缩训练技术以减少推理过程中的冗余token输出[12] 在非思考模式下,模型针对简单任务提供快速响应;在思考模式下,模型启动深度推理机制,适用于代码生成、复杂决策和多步逻辑推理等任务[12] 模型还将上下文长度从64K扩展至128K,采用了“两阶段长上下文扩展方法”,在原始V3模型检查点基础上新增了8400亿tokens的训练数据,其中32K上下文扩展阶段的训练量增加了10倍,128K扩展阶段增加了3.3倍[15] 2 **模型名称**:Seed-OSS-36B[22] **模型构建思路**:以360亿参数规模和原生512K超长上下文窗口为核心,旨在实现参数效率与性能的平衡,特别优化数学推理、代码生成和智能体任务[22] **模型具体构建过程**:采用稠密模型架构,参数分布于64层网络中,隐藏层维度为5120,词汇表扩展至155K以支持多语言与专业术语处理[22] 集成分组查询注意力(GQA)机制,通过80个查询头分组共享键值对,结合旋转位置编码(RoPE)技术原生支持512K上下文窗口[22] 训练阶段采用RMSNorm归一化与SwiGLU激活函数,使用12万亿tokens的训练数据[23] 引入“思考预算”机制,允许用户动态控制模型推理深度,开发者可设定512的整数倍token预算(如512、4K、16K),模型会实时反馈剩余计算资源并调整输出策略[24] 3 **模型名称**:WebWatcher[26] **模型构建思路**:构建一个能够同步解析图像与文本信息,并自主调用多种工具链完成多步骤任务的多模态深度研究智能体[26] **模型具体构建过程**:开发团队设计了一套完整的四阶段训练框架[27] 首先通过CRAWLQA模拟人类浏览权威网站如arXiv和Wiki来构建数据,随后进行轨迹采样以构建网页操作链,接着通过监督微调学习基础工具调用与决策逻辑,最后利用强化学习在动态环境中优化长期推理能力[27] 其关键突破在于E2HQA数据合成技术,通过由简到难的策略自动生成带验证的多步推理问答对[27] 4 **模型名称**:AutoGLM 2.0[32] **模型构建思路**:通过创新的云端架构和“云手机+云电脑”技术范式,构建一个能在手机端运行的通用智能体,实现人工智能从信息交互向行动执行的关键跨越[32] **模型具体构建过程**:其核心架构建立在“终端指令-云端执行-结果反馈”的闭环系统之上,为每位用户配备专属的云端虚拟设备(基于安卓环境的云手机和Ubuntu系统的云电脑),使任务执行与用户本地设备完全解耦[33] 由智谱最新开源模型GLM-4.5与GLM-4.5V协同驱动,GLM-4.5作为“决策大脑”负责任务规划与逻辑推理,GLM-4.5V作为“视觉执行器”通过计算机视觉识别GUI界面元素并精准映射操作动作[34] 两者通过端到端异步强化学习框架协同工作:模型在数千个并行云环境中自主试错,仅依赖最终任务完成的奖励信号优化策略[34] 5 **模型名称**:WeChat-YATT(gCore)[39] **模型构建思路**:专注于强化学习(RL)和多模态模型训练,旨在提供一套易扩展、简洁、高效且可靠的大模型训练解决方案,以应对大尺寸模型、长序列输入以及大规模数据集带来的挑战[39] **模型具体构建过程**:针对大模型分布式训练中的两大核心瓶颈提出解决方案[39] 首先是多模态场景下的可扩展性瓶颈,通过引入并行控制器(Parallel Controller)机制,由多个控制器协同管理数据任务,有效分散系统压力[39] 其次是动态采样与生成式奖励计算下的效率短板,通过部分共存策略(Partial Colocation)和异步交互机制,大幅减轻模型切换损耗和长尾任务的影响[40] 支持两种资源放置模式:全员共存(Full Colocation)与部分共存(Partial Colocation)[43] 全员共存模式采用串行调度机制,Actor Rollouts、生成式奖励模型(GenRM)与训练(Train)依次串行执行,每个角色完成后主动释放计算资源;部分共存模式则适用于Rollouts与GenRM需要高频交互、动态采样的复杂任务场景,Actor Rollouts与GenRM独立部署并通过异步方式进行高效交互[43] 6 **模型名称**:Qwen-Image-Edit[47] **模型构建思路**:基于Qwen-Image基础模型,通过创新的双重编码机制与多模态扩散Transformer架构(MMDiT),实现语义与外观双重编辑能力的深度融合[47] **模型具体构建过程**:采用双路径输入设计,将原始图像同时送入Qwen2.5-VL模型和VAE编码器[47] 前者负责提取高层语义特征,实现对场景、对象关系的理解;后者则专注于保留底层视觉细节如纹理与色彩[47] 引入链式编辑机制,用户可通过多次框选指定区域逐步调整,如修正书法作品[49] 7 **模型名称**:PROMPTQUINE框架[58] **模型构建思路**:提出一种颠覆传统大语言模型提示设计范式的新方法,通过将自然语言提示修剪成看似不连贯的“乱码”来提升模型在多样化任务中的表现[58] **模型具体构建过程**:该框架采用进化搜索算法,仅利用上下文中的token资源,自主发现有效的修剪策略[58] 将提示优化重构为引导式搜索问题,将搜索空间定义为原始提示的所有可能子序列,通过动态调整子序列长度来优化不可微的任务目标函数[59] 设计了基于遗传算法的搜索机制,其中二进制token掩码作为基因型,生成的ICL提示作为表现型,通过位翻转实现变异操作,基于精英选择指导后代生存[59] 模型的回测效果 (报告中未提供相关模型的量化回测性能指标,如年化收益率、夏普比率、信息比率(IR)、最大回撤等,因此此部分省略) 量化因子与构建方式 (报告中未涉及量化因子的构建与测试,因此此部分省略) 因子的回测效果 (报告中未涉及量化因子的构建与测试,因此此部分省略)
首个开源多模态Deep Research智能体,超越多个闭源方案
量子位· 2025-08-15 06:44
开源多模态Deep Research Agent - 首个开源多模态Deep Research Agent整合了网页浏览、图像搜索、代码解释器、内部OCR等多种工具,通过全自动流程生成高质量推理轨迹 [1] - 采用冷启动微调和强化学习优化决策,使模型能自主选择合适的工具组合和推理路径 [1] - 解决跨模态、跨工具、多步骤任务需要具备深度研究能力的Agent [5] 技术方案 - WebWatcher技术方案覆盖从数据构建到训练优化的完整链路,包含三大环节:多模态高难度数据生成、高质量推理轨迹构建与后训练、高难度基准评测 [6] - 多模态高难度数据生成采用全自动多模态数据生成流程,在真实互联网知识分布下生成复杂、跨模态、链路不确定的任务样本 [8] - 高质量推理轨迹构建与后训练采用Action-Observation驱动的轨迹生成方法,通过监督微调和GRPO强化学习提升决策能力 [14] 数据生成方法 - 在多源网页中进行随机游走采样,构建多领域实体图谱,问题解决路线难以预设 [10] - 生成问题时刻意隐藏关键信息并引入模糊指代词描述,迫使模型进行跨模态推理 [11] - 通过QA-to-VQA转换模块将复杂问题样本扩展为多模态版本,依赖跨模态理解能力 [12] 性能表现 - 在HLE-VL多步复杂推理基准上,WebWatcher以13.6%的Pass@1分数领先GPT-4o(9.8%)和Gemini2.5-flash(9.2%) [20] - 在MMSearch评测中Pass@1得分55.3%,相比Gemini2.5-flash(43.9%)和GPT-4o(24.1%)大幅领先 [21] - 在LiveVQA场景下Pass@1成绩58.7%,领先Gemini2.5-flash(41.3%)和GPT-4o(34.0%) [22] - 在BrowseComp-VL基准上以27.0%的平均得分领先GPT-4o(13.4%)和Gemini2.5-flash(13.0%) [23]