AI动态汇总：DeepSeek线上模型升级至V3.1，字节开源360亿参数Seed-OSS系列模型

量化模型与构建方式 1 模型名称：DeepSeek-V3.1混合推理架构[12] 模型构建思路：通过单一模型支持“思考模式”与“非思考模式”两种推理方式，以适应不同复杂度的任务需求，提升计算资源分配效率[12] 模型具体构建过程：模型基于Transformer结构进行深度改造，通过动态激活不同的注意力头来实现模式切换，并采用了思维链压缩训练技术以减少推理过程中的冗余token输出[12] 在非思考模式下，模型针对简单任务提供快速响应；在思考模式下，模型启动深度推理机制，适用于代码生成、复杂决策和多步逻辑推理等任务[12] 模型还将上下文长度从64K扩展至128K，采用了“两阶段长上下文扩展方法”，在原始V3模型检查点基础上新增了8400亿tokens的训练数据，其中32K上下文扩展阶段的训练量增加了10倍，128K扩展阶段增加了3.3倍[15] 2 模型名称：Seed-OSS-36B[22] 模型构建思路：以360亿参数规模和原生512K超长上下文窗口为核心，旨在实现参数效率与性能的平衡，特别优化数学推理、代码生成和智能体任务[22] 模型具体构建过程：采用稠密模型架构，参数分布于64层网络中，隐藏层维度为5120，词汇表扩展至155K以支持多语言与专业术语处理[22] 集成分组查询注意力（GQA）机制，通过80个查询头分组共享键值对，结合旋转位置编码（RoPE）技术原生支持512K上下文窗口[22] 训练阶段采用RMSNorm归一化与SwiGLU激活函数，使用12万亿tokens的训练数据[23] 引入“思考预算”机制，允许用户动态控制模型推理深度，开发者可设定512的整数倍token预算（如512、4K、16K），模型会实时反馈剩余计算资源并调整输出策略[24] 3 模型名称：WebWatcher[26] 模型构建思路：构建一个能够同步解析图像与文本信息，并自主调用多种工具链完成多步骤任务的多模态深度研究智能体[26] 模型具体构建过程：开发团队设计了一套完整的四阶段训练框架[27] 首先通过CRAWLQA模拟人类浏览权威网站如arXiv和Wiki来构建数据，随后进行轨迹采样以构建网页操作链，接着通过监督微调学习基础工具调用与决策逻辑，最后利用强化学习在动态环境中优化长期推理能力[27] 其关键突破在于E2HQA数据合成技术，通过由简到难的策略自动生成带验证的多步推理问答对[27] 4 模型名称：AutoGLM 2.0[32] 模型构建思路：通过创新的云端架构和“云手机+云电脑”技术范式，构建一个能在手机端运行的通用智能体，实现人工智能从信息交互向行动执行的关键跨越[32] 模型具体构建过程：其核心架构建立在“终端指令-云端执行-结果反馈”的闭环系统之上，为每位用户配备专属的云端虚拟设备（基于安卓环境的云手机和Ubuntu系统的云电脑），使任务执行与用户本地设备完全解耦[33] 由智谱最新开源模型GLM-4.5与GLM-4.5V协同驱动，GLM-4.5作为“决策大脑”负责任务规划与逻辑推理，GLM-4.5V作为“视觉执行器”通过计算机视觉识别GUI界面元素并精准映射操作动作[34] 两者通过端到端异步强化学习框架协同工作：模型在数千个并行云环境中自主试错，仅依赖最终任务完成的奖励信号优化策略[34] 5 模型名称：WeChat-YATT（gCore）[39] 模型构建思路：专注于强化学习（RL）和多模态模型训练，旨在提供一套易扩展、简洁、高效且可靠的大模型训练解决方案，以应对大尺寸模型、长序列输入以及大规模数据集带来的挑战[39] 模型具体构建过程：针对大模型分布式训练中的两大核心瓶颈提出解决方案[39] 首先是多模态场景下的可扩展性瓶颈，通过引入并行控制器（Parallel Controller）机制，由多个控制器协同管理数据任务，有效分散系统压力[39] 其次是动态采样与生成式奖励计算下的效率短板，通过部分共存策略（Partial Colocation）和异步交互机制，大幅减轻模型切换损耗和长尾任务的影响[40] 支持两种资源放置模式：全员共存（Full Colocation）与部分共存（Partial Colocation）[43] 全员共存模式采用串行调度机制，Actor Rollouts、生成式奖励模型（GenRM）与训练（Train）依次串行执行，每个角色完成后主动释放计算资源；部分共存模式则适用于Rollouts与GenRM需要高频交互、动态采样的复杂任务场景，Actor Rollouts与GenRM独立部署并通过异步方式进行高效交互[43] 6 模型名称：Qwen-Image-Edit[47] 模型构建思路：基于Qwen-Image基础模型，通过创新的双重编码机制与多模态扩散Transformer架构（MMDiT），实现语义与外观双重编辑能力的深度融合[47] 模型具体构建过程：采用双路径输入设计，将原始图像同时送入Qwen2.5-VL模型和VAE编码器[47] 前者负责提取高层语义特征，实现对场景、对象关系的理解；后者则专注于保留底层视觉细节如纹理与色彩[47] 引入链式编辑机制，用户可通过多次框选指定区域逐步调整，如修正书法作品[49] 7 模型名称：PROMPTQUINE框架[58] 模型构建思路：提出一种颠覆传统大语言模型提示设计范式的新方法，通过将自然语言提示修剪成看似不连贯的“乱码”来提升模型在多样化任务中的表现[58] 模型具体构建过程：该框架采用进化搜索算法，仅利用上下文中的token资源，自主发现有效的修剪策略[58] 将提示优化重构为引导式搜索问题，将搜索空间定义为原始提示的所有可能子序列，通过动态调整子序列长度来优化不可微的任务目标函数[59] 设计了基于遗传算法的搜索机制，其中二进制token掩码作为基因型，生成的ICL提示作为表现型，通过位翻转实现变异操作，基于精英选择指导后代生存[59] 模型的回测效果（报告中未提供相关模型的量化回测性能指标，如年化收益率、夏普比率、信息比率（IR）、最大回撤等，因此此部分省略）量化因子与构建方式（报告中未涉及量化因子的构建与测试，因此此部分省略）因子的回测效果（报告中未涉及量化因子的构建与测试，因此此部分省略）