锦秋集

搜索文档
OpenAI揭秘Deep Research实现始末
锦秋集· 2025-04-30 07:09
Deep Research的起源与目标 - OpenAI团队放弃交易型赛道如订汉堡、订花 转而攻克知识整合 认为这是AGI必备前置技能 且"纯读取"比"直接下单"更安全 [3] - 产品愿景是打造"Slack同事式"统一智能体 能自主判断工具调用 保持状态与记忆贯穿始终 [3] - 选择研究型任务而非交易型任务因三方面考量:知识工作需求大 符合AGI科学发现目标 只读任务安全性更可控 [5][6] 开发方法论与数据策略 - 数据质量优先于数量 采用"小而准"策略 邀请专家手工标注高价值样例 强化学习让模型自寻最优策略 [3] - 每新增工具必配套数据集 训练模型调用组合回溯能力 人类专业知识在数据创建中起关键作用 [8][11] - 开发过程经历多次迭代 初期演示版仅用提示工程 后续才引入模型训练与工具开发 团队获数月不受干扰的专注期 [7] 强化学习微调实践 - 强化学习微调(RFT)适用场景:提示工程无效时 或10-15%性能差距对业务至关重要时 [3][9] - 数学编码等专项训练能泛化到写作等领域 但针对性训练效果更优 基因测序等超分布任务需优先考虑RFT [9] - RL算法数据效率高 但高质量数据策划工程量大 需与强大预训练基座模型协同 [12] 智能体架构设计 - 当前工具集包括文本浏览器和Python分析工具 未来将扩展工具集 需同步创建训练数据集 [8] - 记忆功能对复杂任务至关重要 避免用户重复输入 未来需解决长任务上下文窗口耗尽问题 [15][17] - 初期需显式确认建立信任 后期可逐步开放自主操作 安全护栏设置与能力提升需同步 [16] 性能表现与用户场景 - 医学研究和代码搜索等专业领域表现获专家认可 数据分析能力继承自基础模型o3的强大多任务训练 [25][26] - 擅长处理多约束条件查询 如特定商品搜索 能生成超长全面报告 实时信息补充价值显著 [27] - 训练中展现智能规划行为 如自主选择搜索词 但也存在不可预测错误 改进空间大 [28][31] 行业趋势与未来展望 - AGI路径因强化学习复兴更清晰 但需解决工具调用评估 数据精度等挑战 [12] - 未来一年可能推出通用智能体 编码与旅行规划等多任务统一处理 改进速度将超预期 [22] - 终极目标是执行API操作 访问私有数据 形成基础模型与微调能力的正向循环 [23][24]
AI定义汽车,2025汽车大模型技术与产品新趋势
锦秋集· 2025-04-29 14:36
2025上海车展AI大模型趋势 核心观点 - AI大模型成为汽车行业核心焦点 智能驾驶与智能座舱全面渗透 推动汽车软件开发范式变革[2] - 主机厂对Agent应用达成共识 技术落地速度超预期 但实时交互、算力部署等挑战仍存[4][7] - 端云协同架构成为主流 0 9B-8B小模型通过优化实现车规级芯片部署 避免盲目追求大参数量[4][14][15] 技术落地进展与挑战 超预期进展 - 主机厂接纳速度显著加快 2023Q4-2024H1形成明确落地共识 教育成本因全民大模型普及降低[8] - 应用方向聚焦三大领域:智能语音增强(开放域理解)、多模态交互(VLM应用)、端到端智驾(VFM融合)[8] - 生态协同创新加速 车载Agent技术标准快速建立 兼容MCP协议等行业规范[8] 现存挑战 - 算力瓶颈:主流座舱芯片(如高通8295)非为大模型设计 舱驾一体芯片(如8397)需平衡ADAS功能[12] - 数据难题:域集中式架构导致全车数据收集困难 垂直领域数据涉及隐私与高标注成本[11][13] - 实时性问题:推理延迟达300-500ms 幻觉问题与任务执行确定性待解决[7][10] 汽车AI Agent核心能力 产品形态 - GUI Agent突破第三方API限制 支持操作支付宝、导航等9大类APP 实现语音指令闭环[21] - 多模态融合:舱内视觉理解(乘客识别、安全带检测) 舱外环境感知(天气、隧道)[19][35] - 服务模式转型:从"人找服务"到基于场景感知的"服务找人" 实现主动提醒与情感关怀[20][22] 技术架构 - 端侧部署核心大脑 处理高频低延迟任务 云端承担大规模计算与知识更新[37][40] - 分层设计原则:延迟敏感与隐私数据在端侧 复杂计算与生态接入在云端[38][39] - 算力复用策略:利用座舱/智驾芯片空闲算力 停车时调用ADAS算力运行哨兵模式[15][66] 行业实践案例 亿咖通科技 - 构建AIOS全球化系统 集成Auto Agent/Auto Sense/Auto Flow/Auto ECO四大模块[42][75] - Cloudpeak中间件支持模型量化与跨平台部署 实现高通/英伟达/国产芯片适配[42][65] 面壁智能 - 专注0 9B-8B端侧小模型 通过强化学习构建"硅基家人"Agent 实现3K图像毫秒级解析[45][77] - 独创UI Agent架构 突破车机限制完成支付宝操作 结合情感计算提供拟人化服务[77] 未来发展方向 - 中央计算架构普及 推动"舱驾一体"大模型实现座舱与ADAS功能统一[67][69] - AGI技术演进:通过Next Token Prediction实现自主学习 减少人工标注依赖[70] - 交互范式革新:生成式HMI取代传统界面 构建"感知-决策-执行"全闭环体验[69][77]