Workflow
AI动态汇总:DeepSeek线上模型升级至V3.1,字节开源360亿参数Seed-OSS系列模型
中邮证券·2025-08-26 13:00

量化模型与构建方式 1 模型名称:DeepSeek-V3.1混合推理架构[12] 模型构建思路:通过单一模型支持“思考模式”与“非思考模式”两种推理方式,以适应不同复杂度的任务需求,提升计算资源分配效率[12] 模型具体构建过程:模型基于Transformer结构进行深度改造,通过动态激活不同的注意力头来实现模式切换,并采用了思维链压缩训练技术以减少推理过程中的冗余token输出[12] 在非思考模式下,模型针对简单任务提供快速响应;在思考模式下,模型启动深度推理机制,适用于代码生成、复杂决策和多步逻辑推理等任务[12] 模型还将上下文长度从64K扩展至128K,采用了“两阶段长上下文扩展方法”,在原始V3模型检查点基础上新增了8400亿tokens的训练数据,其中32K上下文扩展阶段的训练量增加了10倍,128K扩展阶段增加了3.3倍[15] 2 模型名称:Seed-OSS-36B[22] 模型构建思路:以360亿参数规模和原生512K超长上下文窗口为核心,旨在实现参数效率与性能的平衡,特别优化数学推理、代码生成和智能体任务[22] 模型具体构建过程:采用稠密模型架构,参数分布于64层网络中,隐藏层维度为5120,词汇表扩展至155K以支持多语言与专业术语处理[22] 集成分组查询注意力(GQA)机制,通过80个查询头分组共享键值对,结合旋转位置编码(RoPE)技术原生支持512K上下文窗口[22] 训练阶段采用RMSNorm归一化与SwiGLU激活函数,使用12万亿tokens的训练数据[23] 引入“思考预算”机制,允许用户动态控制模型推理深度,开发者可设定512的整数倍token预算(如512、4K、16K),模型会实时反馈剩余计算资源并调整输出策略[24] 3 模型名称:WebWatcher[26] 模型构建思路:构建一个能够同步解析图像与文本信息,并自主调用多种工具链完成多步骤任务的多模态深度研究智能体[26] 模型具体构建过程:开发团队设计了一套完整的四阶段训练框架[27] 首先通过CRAWLQA模拟人类浏览权威网站如arXiv和Wiki来构建数据,随后进行轨迹采样以构建网页操作链,接着通过监督微调学习基础工具调用与决策逻辑,最后利用强化学习在动态环境中优化长期推理能力[27] 其关键突破在于E2HQA数据合成技术,通过由简到难的策略自动生成带验证的多步推理问答对[27] 4 模型名称:AutoGLM 2.0[32] 模型构建思路:通过创新的云端架构和“云手机+云电脑”技术范式,构建一个能在手机端运行的通用智能体,实现人工智能从信息交互向行动执行的关键跨越[32] 模型具体构建过程:其核心架构建立在“终端指令-云端执行-结果反馈”的闭环系统之上,为每位用户配备专属的云端虚拟设备(基于安卓环境的云手机和Ubuntu系统的云电脑),使任务执行与用户本地设备完全解耦[33] 由智谱最新开源模型GLM-4.5与GLM-4.5V协同驱动,GLM-4.5作为“决策大脑”负责任务规划与逻辑推理,GLM-4.5V作为“视觉执行器”通过计算机视觉识别GUI界面元素并精准映射操作动作[34] 两者通过端到端异步强化学习框架协同工作:模型在数千个并行云环境中自主试错,仅依赖最终任务完成的奖励信号优化策略[34] 5 模型名称:WeChat-YATT(gCore)[39] 模型构建思路:专注于强化学习(RL)和多模态模型训练,旨在提供一套易扩展、简洁、高效且可靠的大模型训练解决方案,以应对大尺寸模型、长序列输入以及大规模数据集带来的挑战[39] 模型具体构建过程:针对大模型分布式训练中的两大核心瓶颈提出解决方案[39] 首先是多模态场景下的可扩展性瓶颈,通过引入并行控制器(Parallel Controller)机制,由多个控制器协同管理数据任务,有效分散系统压力[39] 其次是动态采样与生成式奖励计算下的效率短板,通过部分共存策略(Partial Colocation)和异步交互机制,大幅减轻模型切换损耗和长尾任务的影响[40] 支持两种资源放置模式:全员共存(Full Colocation)与部分共存(Partial Colocation)[43] 全员共存模式采用串行调度机制,Actor Rollouts、生成式奖励模型(GenRM)与训练(Train)依次串行执行,每个角色完成后主动释放计算资源;部分共存模式则适用于Rollouts与GenRM需要高频交互、动态采样的复杂任务场景,Actor Rollouts与GenRM独立部署并通过异步方式进行高效交互[43] 6 模型名称:Qwen-Image-Edit[47] 模型构建思路:基于Qwen-Image基础模型,通过创新的双重编码机制与多模态扩散Transformer架构(MMDiT),实现语义与外观双重编辑能力的深度融合[47] 模型具体构建过程:采用双路径输入设计,将原始图像同时送入Qwen2.5-VL模型和VAE编码器[47] 前者负责提取高层语义特征,实现对场景、对象关系的理解;后者则专注于保留底层视觉细节如纹理与色彩[47] 引入链式编辑机制,用户可通过多次框选指定区域逐步调整,如修正书法作品[49] 7 模型名称:PROMPTQUINE框架[58] 模型构建思路:提出一种颠覆传统大语言模型提示设计范式的新方法,通过将自然语言提示修剪成看似不连贯的“乱码”来提升模型在多样化任务中的表现[58] 模型具体构建过程:该框架采用进化搜索算法,仅利用上下文中的token资源,自主发现有效的修剪策略[58] 将提示优化重构为引导式搜索问题,将搜索空间定义为原始提示的所有可能子序列,通过动态调整子序列长度来优化不可微的任务目标函数[59] 设计了基于遗传算法的搜索机制,其中二进制token掩码作为基因型,生成的ICL提示作为表现型,通过位翻转实现变异操作,基于精英选择指导后代生存[59] 模型的回测效果 (报告中未提供相关模型的量化回测性能指标,如年化收益率、夏普比率、信息比率(IR)、最大回撤等,因此此部分省略) 量化因子与构建方式 (报告中未涉及量化因子的构建与测试,因此此部分省略) 因子的回测效果 (报告中未涉及量化因子的构建与测试,因此此部分省略)