Workflow
AI前线
icon
搜索文档
京东集团算法总监韩艾将在 AICon 北京站分享基于强化学习的异构多智能体联合进化算法
AI前线· 2025-06-20 02:47
AICon全球人工智能开发与应用大会北京站 - 大会将于6月27日-28日举办,聚焦AI前沿技术与落地实践 [1] - 汇聚腾讯、阿里、百度、字节跳动等头部大厂及50+资深专家 [1] - 设置AI Agent、多模态应用、推理性能优化等10多个专题论坛 [1][4] 京东集团算法总监韩艾的主题分享 - 演讲主题为《JDAgents-R1:基于强化学习的异构多智能体联合进化算法》 [2] - 提出JDAgents-R1框架,首次将GRPO应用于异构多智能体联合训练 [2] - 通过迭代优化LLMs与自适应记忆机制实现决策与记忆能力动态均衡 [2] - 在通用和商家定制化场景中达到与大规模语言模型相媲美的性能 [2] 韩艾的专业背景 - 中科院与康奈尔大学联合培养博士,北京大学双学士 [3] - 现任京东集团算法总监,京东零售数据与算法通道委员 [3] - 在国际顶级期刊发表数十篇论文,专注AI技术创新 [3] - 主持设计Multi-Agent Planning算法架构并落地京东商家智能助手 [3] 演讲内容框架 - 涵盖多智能体训练技术、应用案例、LLM决策与Memory进化等 [3][5] - 重点介绍GRPO联合训练算法技术和Memory更新技术 [3][5] - 探讨多模型联合训练的信息通信难题和memory进化评估 [5] 大会其他亮点 - 设置AI Agent构建、多模态实践、大模型助力研发等专题论坛 [4] - 50+专家将分享前沿技术洞察和一线实践经验 [4] - 报名可享9折优惠,单张门票立省580元 [4]
一图看懂|如何用 AI 重构企业产品增长新曲线
AI前线· 2025-06-19 08:10
AI技术前沿与产业落地 - AICon北京站聚焦AI技术前沿突破与产业落地 围绕AI Agent构建 多模态应用 大模型推理性能优化等热门议题深入探讨 [1] 行业人才竞争动态 - 扎克伯格挖角OpenAI 签约跳槽发放7亿奖金 [1] - 阶跃星辰高管离职跳槽京东 [1] - 百度大规模抢夺顶尖AI人才 岗位数量增长超60% [1] - 阿里自曝因DeepSeek竞争压力加速人才布局 [1] 大模型技术进展 - DeepSeek R1编程得分超越Claude Opus 4 但月暗称其新模型表现更优 [1] - ClaudeCode被员工高频使用 日均成本达1000美元 创始人承认定价偏高主要面向大公司 [1] 行业热点事件 - 特朗普AI治国计划代码在GitHub泄露引发争议 [1]
大模型进入研发体系后,我们看到了这些变化
AI前线· 2025-06-19 08:10
大模型对研发流程的影响 - AI编码工具已成为工程师日常标配,主要用于自动补全、代码生成和快速搭建原型 [1] - 大模型改变了研发协作方式,包括知识共享新范式和跨领域协作,降低沟通门槛 [4] - 当前AI代码生成更适用于0-1阶段原型开发、非核心业务系统和垂直场景特定任务 [3][31] 效率提升与岗位变化 - 生产效率提升十倍可能催生十倍以上新需求,岗位总量仍会增长而非减少 [3][13] - AI赋能初级工程师更快胜任复杂任务,解放资深工程师专注架构设计和技术创新 [4] - 代码生成占比已达40%以上,在异步Agent场景采纳率可达80% [27][28] 工程师能力要求演变 - 能率先受益AI的工程师需具备拥抱变化、优秀交流调试能力和快速学习整合能力 [10] - AI时代核心竞争力转向关键业务深度理解、非典型问题解决和跨领域方案创新 [11][12] - 提问能力差异导致结果悬殊,精准定义问题的能力尤为关键 [10] 研发效能度量 - 需求交付速度是核心效能指标,AI应用能力作为辅助考量维度 [21] - 度量指标需与团队具体实践强关联,如双周迭代团队关注"两周内完成需求占比" [22] - 指标应服务于改进而非成为目的本身,需结合阶段性需求和团队特性 [23] AI应用开发前景 - 2025年被视为AI应用开发爆发元年,市场潜力与发展空间巨大 [33] - 模型能力呈现垂直化发展趋势,业务需求差异化决定技术选型逻辑 [34] - 行业正探索构建测评体系,针对不同场景实测模型适配性 [34] 代码质量保障 - 关键代码必须逐行逻辑审查,传统Code Review机制仍需严格执行 [29] - 通过历史代码检索机制和研发空间概念优化生成代码的业务贴合度 [29] - 外部约束机制如Few-Shot学习和规则引擎可显著提升输出质量 [30]
Andrej Karpathy 爆火演讲刷屏技术圈:AI 开启软件 3.0,重写一切的时代来了!
AI前线· 2025-06-19 08:10
编程范式演进 - 软件1 0时代以传统代码为主 需要人工编写精确指令 [16] - 软件2 0时代以神经网络权重为核心 通过数据集训练生成参数 [8][16] - 软件3 0时代以自然语言编程为特征 大模型直接理解语义指令 [17][19][21] 技术栈变革趋势 - 特斯拉自动驾驶系统中软件2 0逐步替代1 0代码 删除大量C++逻辑模块 [24] - 开发者需掌握三种编程范式混合应用能力 根据场景选择最佳实现方式 [25] - GitHub等平台正在演变为新型代码托管形态 Hugging Face成为软件2 0时代的GitHub [11] LLM基础设施特性 - LLM具备公共事业属性 实验室通过API按token计费提供服务 类似电力网络 [31] - 训练LLM需要巨额资本支出 技术壁垒快速集中 类似半导体晶圆厂模式 [38] - 开源与闭源生态并行发展 LLaMA可能成为LLM时代的Linux系统 [42] 人机交互革命 - 自然语言编程彻底降低技术门槛 实现全民可编程 [136][140] - Vibe Coding成为新一代开发者的入门方式 通过自然语言快速构建应用 [141][146] - 文档体系需适配LLM阅读 如Vercel将操作指南改为curl命令格式 [152][157] 应用开发新范式 - 部分自主应用成为主流 需设计自主滑块调节AI参与度 [98][137] - Cursor等工具展示典型特征:上下文管理 多模型编排 专用GUI界面 [96][97] - 生成-验证循环效率是关键 需优化可视化审阅与操作范围控制 [110][112] 行业发展阶段 - 当前LLM发展相当于1960年代计算水平 集中式云端服务为主 [51][56] - 技术扩散路径反转 个人用户早于政府企业采用创新技术 [63][64] - Agent发展需长期演进 激进的全自动化方案存在风险 [131][135]
小扎疯狂挖角 OpenAI、签约跳槽就发7亿奖金,奥特曼痛批:不懂创新,老“复制”人了
AI前线· 2025-06-18 06:06
不过,奥特曼指出,扎克伯格的招聘工作在很大程度上并未成功。"我很高兴,至少到目前为止,我 们最优秀的团队成员中没有人决定接受这些条件。"此前就有报道称,Meta 曾试图挖走 OpenAI 的首 席 研 究 员 诺 姆 · 布 朗 ( Noam Brown ) 以 及 谷 歌 的 AI 架 构 师 科 雷 · 卡 武 克 丘 奥 卢 ( Koray Kavukcuoglu),但均以失败告终。 "这不是建立优秀文化的方式。"奥特曼表示,Meta 将重心放在为员工提供巨额薪酬方案上,而非致 力于实现 AGI 的使命。相信员工们在比较后认为,OpenAI 在实现通用人工智能(AGI)方面更有胜 算且未来可能成为更具价值的公司。 整理 | 华卫、核子可乐 最近,Meta 首席执行官马克 · 扎克伯格(Mark Zuckerberg)掀起了一场疯狂的 AI 人才争夺战。据 外媒报道,扎克伯格正在为 Meta 新成立的超级智能团队招募来自竞争对手实验室的顶级人工智能研 究人员。为了让员工加入由前 Scale AI 首席执行官 Alexandr Wang 领导的团队,Meta 向 OpenAI 和谷歌 DeepMind 的员 ...
这些关于研发提效的深度实践分享,值得每一位开发者关注 | AICon
AI前线· 2025-06-18 06:06
AI赋能研发提效的技术演进与落地实践 核心观点 - AI编程正经历从Copilot辅助模式向具备自主推理能力的Agent模式跃迁,重构开发方式与人机协作[2] - 头部互联网公司在万人研发团队中已实现代码补全、技术对话、代码评审等多维度智能化落地[3][9] - Coding Agent的应用已从编码辅助扩展到研发流程优化,形成可持续的智能化体系[4] - 大模型与数字员工的深度融合正在文档设计、智能编码等场景实现可感知的效率提升[5] - 游戏开发等高复杂度场景通过知识图谱、多Agent协作等方案解决上下文限制与任务碎片化问题[6][10] 技术范式革新 - AI编程范式正从"提示-响应"的Copilot模式升级为具备自主推理、工具调用能力的Agent模式,实现从辅助执行到主动思考的转变[2] - 自然语言驱动开发将成为新趋势,Agent能感知任务上下文并重构传统开发流程[2] 规模化落地实践 - 腾讯在万人研发团队中验证了代码补全、技术对话、单元测试等场景的智能化路径,形成可复用的技术架构[3][9] - 同程旅行构建了包含代码补全、对话式编程的演进体系,通过MCP平台实现AI驱动的流程持续迭代[4] - 百度通过"大模型+数字员工"模式整合权限与工具链,在文档设计、测试生成等场景提升人机协同效率[5] 高复杂度场景突破 - 网易游戏开发出结合代码知识图谱与多Agent协作的解决方案,有效解决游戏开发中的上下文限制与知识碎片问题[6][10] - 通过自研工具链实现代码搜索、功能开发等场景的应用落地,提升团队协作效率与代码资产利用率[6] 行业应用趋势 - 头部企业已形成从单点工具到系统化流程的智能化升级路径,技术架构演进聚焦可持续迭代能力[3][4][5] - 游戏等垂直领域验证了复杂工程场景下大模型落地的可行性,为行业提供可借鉴的技术方案[6][10]
Claude时代终结?LMArena实测DeepSeek R1编程得分超Opus 4,但月暗称其新模型更胜一筹
AI前线· 2025-06-17 06:56
DeepSeek-R1(0528)性能突破 - 开源模型DeepSeek-R1(0528)在LMArena的WebDev Arena测试中以1408.84分超越Claude Opus 4(1405.51分),与Gemini-2.5-Pro-Preview-06-05(1433.16分)并列第一 [1][4] - 采用混合专家(MoE)架构,总参数量6850亿,单次推理激活370亿参数,支持128K tokens长上下文窗口,在数学推导和代码生成能力上显著提升 [9] - 在细分测试中表现:硬提示词第4、编程第2、数学第5、创意写作第6,多轮对话第7 [7] 开源与闭源模型竞争格局 - DeepSeek-R1以MIT许可证开源,性能对标Claude Opus 4和GPT-4.1,开发者社区认为其免费特性可能改变行业生态 [12][14] - 月之暗面同期发布开源模型Kimi-Dev-72B,在SWE-bench Verified测试中以60.4%得分创开源模型SOTA,超越R1(0528)的编码表现 [23][26] - Kimi-Dev-72B通过BugFixer与TestWriter双角色设计、1500亿数据中期训练及强化学习优化,实现真实仓库Docker修复能力 [28][30][31] 行业争议与动态 - LMArena测试平台被Cohere、斯坦福等机构指控偏袒科技巨头,Meta被指测试27个未公开模型变体以优化榜单排名 [17][19] - 社区对测试结果态度分化:部分开发者认为R1已具备碾压闭源模型的编程辅助能力,另一部分质疑WebDev Arena测试公正性 [16] - 月之暗面与DeepSeek的技术路线差异:前者侧重强化学习与自我博弈机制,后者聚焦训练后优化和计算效率 [26][31][32]
技术更新 or 组织重塑,企业如何用好“数据智能”?
AI前线· 2025-06-17 06:56
作者 | AICon 全球人工智能开发与应用大会 策划 | 燕珊 编辑 | 宇琪 大模型浪潮正引领数据管理与分析迈入全新阶段,Chat BI、Agent+Workflow 等应用,使业务人 员能够通过自然语言交互即时获取数据洞察,显著释放生产力。那么,如何构建高质量数据集、 优化检索效率?如何让数据在大模型的应用中发挥最大效能? 近日 InfoQ《极客有约》X AICon 直播栏目特别邀请了 DaoCloud 道客联合创始人兼首席技术官 郭峰 担任主持人,和 中电金信研究院副院长单海军 、 数据项素产品副总裁覃睿 、 货拉拉大数 据专家凌霄 一起,在 AICon 全球人工智能开发与应用大会 2025 北京站 即将召开之际,共同探 讨智能化数据管理体系的搭建。 在 6 月 27-28 日将于北京举办的 AICon 全球人工智能开发与应用大会 上,我们特别设置了 【 大模型时代的数据处理与分析 】 专题。该专题将围绕数据科学家、工程师、技术管理者等不同角 色的从业者,通过实际案例分析和专家分享,探讨如何提升数据质量、优化检索效率,构建智能 化数据管理体系,让数据在大模型的应用中发挥最大效能。查看大会日程解锁更多精 ...
特朗普AI计划在GitHub上泄露,网友怒喷用AI代码“治国”!
AI前线· 2025-06-16 07:37
AI.gov项目泄露事件 - 特朗普政府AI发展计划的核心代码库"AI.gov"在GitHub上意外泄露,后被移至归档项目[1] - 项目由美国总务管理局(GSA)与技术转型服务局(TTS)合作开发,负责人为马斯克盟友Thomas Shedd[1] - 泄露信息显示项目计划于7月4日美国独立日正式上线[2] AI.gov技术架构 - 包含三大核心组件:聊天机器人、一体化API(支持OpenAI/谷歌/Anthropic模型接入)、CONSOLE监控工具[4] - 通过Amazon Bedrock提供AI模型,部分模型已获FedRAMP认证,但Cohere模型未获认证[5] - 计划发布大模型排名,但排序标准未明确[5] 政府AI应用争议 - DOGE部门使用AI工具错误标记2000多份退伍军人事务部合同,错误率显著(3400万美元误判为3.5万美元)[9] - AI工具仅依据合同前2500词做判断,专家认为代码存在严重缺陷[9] - 开发者承认工具存在缺陷,称代码不应直接用于决策[10] 数据安全风险 - 政府整合敏感数据引发安全担忧,包括医疗记录、社会安全号等[12] - 国防部长办公室存在未加密设备连接私人网络的安全隐患[11] - Palantir构建的美国人隐私数据库被质疑采用"反向瑞士奶酪模型"[12] 行业AI应用现状 - 企业推广Copilot遭遇工程师抵制,CEO与开发者对AI认知存在断层[17] - AI代码维护性问题突出,修改时易导致系统崩溃[20] - 实际工作中AI仅减少部分编程时间(案例显示C转Java节省90%时间),但高管过度乐观[21] AI使用副作用 - 开发者出现"编程肌肉退化"现象,过度依赖Gemini导致基础能力下降[23][24] - AI生成代码存在脆弱性,需多次调试但管理层仅关注"成功"案例[19] - 非编程工作场景中AI效用有限,但企业决策层忽视这一现实[22]
游戏教父 John Carmack:LLM 不是游戏的未来
AI前线· 2025-06-16 07:37
公司背景 - Id Software成立于90年代,开发了《指挥官基恩》《德军总部3D》《毁灭战士》和《雷神之锤》系列,其中《雷神之锤》推动了GPU发展和普及,间接促成现代人工智能世界的形成[3] - Armadillo Aerospace致力于垂直起降(VTVL)火箭研发,相关工作持续十年[6] - Oculus为现代虚拟现实奠定技术基础,后被Meta收购[8] - Keen Technologies专注于AI研究,团队已有六名来自学术界和工业界的研究人员[11][12][13] 技术方向 - 不参与LLM相关工作,认为LLM"无所不知却又无所学",更倾向于通过交互式体验流进行学习[16] - 专注于游戏和虚拟环境,认为PC游戏中的超人类水平机器人作弊问题可通过云游戏流媒体解决[18] - 目标提供由混合被动和交互内容组成的虚拟学习环境,构成无限可滚动的"视频墙"[22] - 选择Atari游戏作为研究平台,因其无偏见且玩法多样,与大量研究成果可比性高[30][31] 技术挑战 - 连续高效终身单一环境多任务在线学习仍是未解决问题,现有系统无法复制猫狗的简单能力[20] - 强化学习框架存在近期偏差和灾难性遗忘问题,串行多任务学习中智能体难以保留旧技能[81][82] - 神经网络训练存在可塑性丧失现象,与生物大脑老化相似,需平衡初始学习速度与长期表现[93][94] - 离线强化学习效果不佳,因缺乏持续现实检验,可能陷入未经验证的连贯幻想世界[87][88] 算法优化 - 使用CUDA图和显式同步优化训练过程与环境交互的重叠,提高消费级硬件上的FPS[41] - 为动作添加延迟线解决现代高性能算法在延迟环境中的崩溃问题[43] - 提出新基准测试循环通过一组游戏,结合原始学习速度与避免遗忘能力[97] - 探索各向同性CNN、循环各向同性半密集CNN等新型网络架构提升图像处理性能[143][145] 实验设计 - 开发Atari 2600+游戏系统,包含摄像头、伺服电机操纵杆和运行强化学习智能体的笔记本电脑[47] - 测试八款不同游戏,关注摄像头观察、操纵杆动作、分数检测等物理硬件交互问题[50][51][55][62] - 开源相关工作,使用April Tags进行屏幕校正和分数识别[48][52] - 将硬探索游戏如《蒙特祖玛的复仇》和《Pitfall》作为长期研究课题[71]