Workflow
机器之心
icon
搜索文档
AI Agent组团搞事:在你常刷的App里,舆论操纵、电商欺诈正悄然上演
机器之心· 2025-08-29 04:34
多智能体共谋风险 - AI风险正从个体失控转向群体性恶意共谋 多个智能体可秘密协同达成有害目标 展现出比人类更高效隐蔽的团伙作案能力 [2] - 基于LLM Agent社交媒体仿真平台OASIS开发MultiAgent4Collusion共谋框架 支持百万级别Agent共谋模拟 开放Agent治理和监管工具 [4] - 在社交媒体场景中 坏人Agent团伙发布的虚假信息得到广泛传播 在电商场景中 坏人Agent买家与卖家合谋共同攫取最大化利益 [4] 去中心化团伙作案优势 - 去中心化坏人团伙作案效果完胜中心化团伙 在社交媒体中获得更多点赞转发和好评量 在电商场景中获得更高销量销售额和利润 [12] - 去中心化狼群演变出更复杂多样化的作案策略 对作案机制探索程度更深 对真实世界社交系统危害更大 [12] 防御体系对抗实验 - MultiAgent4Collusion模拟猫鼠游戏 平台和正常用户扮演守卫者部署防御系统 坏人Agent团伙扮演入侵者运用群体智能见招拆招 [13] - 防御武器包括事前预警(向正常用户推送辟谣信息) 事后辟谣(给恶意内容贴标签限流) 封禁账号(通过AI警察识别封禁作恶账号) [18] - 防御措施初期有效 但AI狼群通过反思与共享机制快速进化 个体通过试错迭代策略 群体通过信息网络共享成功经验与失败教训 [14][15] 群体智能进化机制 - 所有坏人团伙成员定期自我反思 根据行为反馈更新作案策略 例如调整话术规避关键词检测 [15] - 经验共享机制将个体智能升华为群体智能 一个Agent发现新技巧或漏洞后瞬间广播给整个狼群 实现集体战术更新 [15] - 在不同防御武器下演变出针对性策略 如大量发布新帖子刷掉被标记内容 隐秘行动避免平台检测 [16] 研究平台与工具 - 构建开源模拟框架MultiAgent4Collusion 提供可复现推演分析多智能体恶意协同的数字靶场 为研发AI防御策略提供关键工具 [24] - OASIS是基于LLM Agent的社交媒体仿真平台 支持百万级Agent社交互动仿真 可模拟Twitter等平台用户行为 允许动态干预和环境控制 [26]
时代2025 AI百人榜出炉:任正非、梁文锋、王兴兴、彭军、薛澜等入选,华人影响力爆棚
机器之心· 2025-08-29 04:34
2025年度AI领域最具影响力人物名单 - 《时代》周刊发布2025年度AI领域最具影响力的100人名单 华人面孔数量显著增加 多位首次登榜[1][4] 领导者 (Leaders) - 华为创始人任正非推动公司长期高强度投资AI 打造自主可控技术体系 推出昇腾AI芯片、昇思深度学习框架和盘古大模型 构建独立AI计算生态系统[5][7] - DeepSeek CEO梁文锋坚持自研路线 主导发布国际一流开源代码及语言大模型 2025年1月20日发布R1开放权重模型 以少量计算能力达到全球最佳水平[8][10] - NVIDIA联合创始人黄仁勋领导公司转型为AI计算领导者 CUDA计算平台和高性能GPU成为深度学习核心引擎 支持自动驾驶和药物研发等领域突破[11][13] - 台积电董事长魏哲家凭借7纳米、5纳米及3纳米制程技术领先地位 成为NVIDIA、AMD、苹果等AI芯片设计公司主要代工厂 大规模生产AI处理器和加速器[14][16] - Meta超级智能实验室联合负责人汪滔创立Scale AI 提供数据标注、评估到RLHF全套解决方案 为自动驾驶和大语言模型提供关键数据支持[18][19] - 宇树科技CEO王兴兴推动具身智能领域发展 以高性价比四足机器人降低技术门槛 研发通用人形机器人H1平台 融合强化学习控制和多模态模型[21] 开拓者 (Innovators) - 小马智行CEO彭军推动自动驾驶大规模商业化 2025年Robotaxi服务在中国一线城市实现全车无人商业运营 Robotruck业务在干线物流进入商业化阶段[22][24] - Surge AI创始人Edwin Chen创办数据标注公司 生产高质量数据集 客户包括Google、Anthropic和OpenAI 2024年创收超过10亿美元 估值超250亿美元[25][27] 塑造者 (Shapers) - 斯坦福教授李飞飞创建ImageNet项目 催生深度学习在计算机视觉领域突破 推动"以人为本AI"理念 解决医疗等全球性社会问题[30][31] - 清华大学教授薛澜担任新一代人工智能治理专业委员会主任 设计AI伦理规范和发展战略 参与国际AI治理对话 推动负责任AI生态系统[34][35] - 华人作家Karen Hao深度报道人工智能 2025年5月出版《Empire of AI: Dreams and Nightmares in Sam Altman's OpenAI》揭露OpenAI内幕 成为畅销书[36][38] 其他AI领域关键人物 - Elon Musk联合创立OpenAI 领导特斯拉开发自动驾驶技术与人形机器人 创立xAI和Neuralink[39][41] - OpenAI CEO Sam Altman领导发布GPT系列模型和ChatGPT 推动生成式AI技术发展和普及[42] - OpenAI应用业务CEO Fidji Simo主导利用AI技术驱动Meta信息流、视频推荐及广告系统[44] - Meta CEO Mark Zuckerberg确立AI优先战略 开源Llama系列大模型 影响全球开放AI生态系统[46] - Anthropic CEO Dario Amodei领导GPT-2和GPT-3项目 创立Anthropic构建更安全AI 推出Claude系列大模型和"宪法AI"研究方法[48] - 亚马逊CEO Andy Jassy创立AWS为AI浪潮奠基 推动发布Amazon Bedrock、Amazon Q等服务 与Anthropic合作推动生成式AI创新[50] - 加州大学伯克利教授Stuart Russell合著人工智能权威教科书 在135个国家1500多所大学使用[52] - 图灵奖得主Yoshua Bengio为现代神经网络和注意力机制奠定基础 成为AI安全与治理倡导者[54] - 谷歌首席科学家Jeffrey Dean团队提出Transformer架构 2023年推动Google Brain和Google DeepMind合并为Gemini[57] - OpenAI首席科学家Jakub Pachocki领导GPT-4训练 以科学严谨性设定研究计划[59] 行业人才招聘计划 - 昼启计划面向2025年1月-2026年10月毕业生 招聘梦想新星、学术新星、工程新星、竞赛新星[61] - 常规岗位面向2025年9月-2026年10月毕业生 提供算法、研发、产品、运营、解决方案、职能/支持六类岗位[62][64] - 算法类聚焦大模型、机器学习基础理论、多模态、强化学习、AI for Science等方向[65] - 研发类聚焦大规模分布式训练框架、高性能计算、AI系统与架构、AI编译器、AI芯片协同优化等方向[65] - 招聘流程包括2025年8月20日启动网申 6场集中笔试 3-4轮极速面试 面试结束后陆续发放Offer[67][68]
谷歌Nano Banana全网刷屏,起底背后团队
机器之心· 2025-08-29 04:34
产品发布 - Google DeepMind团队推出Gemini 2.5 Flash Image模型 具备原生图像生成与编辑能力 可快速生成高质量图像并在多轮对话中保持场景一致性 [2] - 模型引入交错生成机制 将复杂指令拆解为多轮操作 实现像素级完美编辑 用户仅需自然语言指令即可完成操作 [46] - 生成单张图像仅需十几秒 支持快速重试 显著提升创作效率 [49] 技术能力 - 模型具备优秀文本渲染能力 可在图像中正确生成简短文字如Gemini Nano 团队将文本渲染作为评估图像结构能力的新指标 [39][41] - 模型通过多模态理解与生成的紧密结合提升性能 图像理解为生成提供信息 生成反过来强化理解 [44] - 模型能利用视觉信号从世界学习额外知识 从而提升文本理解与生成能力 视觉信号成为理解世界的捷径 [45] 应用场景 - 在家居设计场景中 用户可快速可视化多种方案 如房间不同窗帘效果 模型能精准修改而不破坏整体环境 [49] - 在人物形象设计中 无论是更换服装 调整角度或生成复古风格 模型均能保持面部和身份一致性 [49] - 模型适合处理以某公司风格设计广告牌等任务 可直接将参考图像作为风格输入 操作比Imagen更方便 [52] 团队构成 - Logan Kilpatrick担任高级产品经理 领导Google AI Studio和Gemini API产品开发 曾任职OpenAI开发者关系负责人和Apple机器学习工程师 [6][8] - Kaushik Shivakumar担任研究工程师 专注于机器人技术 人工智能和多模态学习 参与Gemini 2.5模型开发 [12][14] - Robert Riachi担任研究工程师 专注于多模态AI模型开发 参与Gemini 2.0和2.5系列研发 致力于图像生成与对话AI结合 [17][20] - Nicole Brichtova担任视觉生成产品负责人 专注于构建生成模型 推动Gemini应用 Google Ads和Google Cloud产品发展 [24][26] - Mostafa Dehghani担任研究科学家 主要从事机器学习研究 参与开发多模态视觉语言模型PaLI-X和220亿参数Vision Transformer [29] 产品定位 - Gemini目标为整合所有模态向AGI方向迈进 利用知识转移在跨模态复杂任务中发挥作用 [50] - Imagen专注于文本到图像任务 在Vertex平台提供多种优化变体 适合目标明确 追求速度和性价比的场景 [50][51] - Gemini在复杂多模态工作流中优势突出 支持生成加编辑 多轮创意迭代 能理解模糊指令和利用世界知识 [52] 未来展望 - 期待模型展现智能 即使不完全遵循指令也能生成比描述更好的结果 让用户感受与更聪明系统互动 [53] - 关注模型事实性与功能性 希望生成既美观又准确无误的图表或信息图 甚至自动制作工作简报 [53]
ICCV 2025 Highlight | 3D真值生成新范式,开放驾驶场景的语义Occupancy自动化标注!
机器之心· 2025-08-29 00:15
研究团队与背景 - 研究成果由北京大学王选计算机研究所VDIG实验室开发,第一作者为博士生周啸宇,通讯作者为博士生导师王勇涛副研究员[2] - 实验室在IJCV、CVPR、AAAI、ICCV、ICML、ECCV等顶会发表多项重量级成果,多次荣获国内外CV领域竞赛冠亚军奖项[2] - 论文已被ICCV 2025录用为Highlight[2] 技术框架与创新 - AutoOcc是开放自动驾驶场景的高效高质量三维语义占据栅格真值标注框架,无需人类标注即可超越现有自动化标注管线[2][5] - 利用视觉-语言模型生成语义注意力图描述场景并动态扩展语义列表,通过自估计光流模块处理动态物体[5][17] - 提出具有开放语义感知的3D高斯表示(VL-GS),实现自动驾驶场景的完整三维几何和语义建模[6][17] - 支持环视驾驶场景图像序列输入,可选LiDAR点云提供几何先验约束[13] - 相比基于点云体素化和语义投影的方法,具备更强鲁棒性和开放式语义标注能力[21] 性能表现 - 在Occ3D-nuScenes数据集上超越现有最先进的语义占据栅格预测和真值生成模型[20][21] - 在SemanticKITTI跨数据集评估中展现卓越零样本泛化能力,mIoU-base指标达17.03[20][22][23] - 在极端天气条件(雨天/雾天/黑夜)下实现完整语义占据标注,反光路面区域也能正确重建[23][27] - 计算效率显著提升:仅需约30 GPU小时和5.0G内存,相比SurroundOcc的1000+ GPU小时和73G内存大幅优化[24][25] 行业应用价值 - 解决传统人工标注管线需4000+人时的高成本问题,以及极端环境下的误标注问题[8][25] - 突破有监督方法对大规模人工标注数据的依赖,显著提升泛化能力[8][22] - 支持开放词汇三维语义感知,可动态扩展语义类别而不受预设类别限制[5][22]
Grok代码模型来了:限时免费用,速度超级快
机器之心· 2025-08-29 00:15
产品发布 - 马斯克旗下xAI正式推出最新代码模型Grok Code Fast 1 旨在为AI自动执行编程任务提供极速且经济的解决方案[2][4] - 模型被认为是Grok 4的代码版本 采用全新架构并从零开始训练[4] - 在大量平台上免费提供一周 包括GitHub Copilot、Cursor等合作伙伴平台[5] 技术特性 - 速度比GPT-5快三倍 价格便宜六倍[1] - 熟练掌握grep、终端和文件编辑等常用工具 能在IDE中轻松使用[4] - 在SWE-Bench-Verified测试中获得70.8%的得分 接近Claude 4系列水平[10][12] - 支持TypeScript、Python、Java、Rust、C++和Go等多种编程语言[7] - 缓存命中率超过90% 通过快速缓存优化实现独特响应式体验[6][7] 定价策略 - 输入token价格每百万0.20美元 输出token每百万1.50美元[10] - 缓存输入token每百万仅0.02美元 专为应对开发人员日常任务设计[10] 开发进展 - 与发布合作伙伴密切合作优化模型行为 已获得程序员好评[4][12] - 多模态输入、并行工具调用和扩展上下文长度的新变体已在训练中[13]
杜克大学、Zoom推出LiveMCP‑101:GPT‑5表现最佳但未破60%,闭源模型Token效率对数规律引关注
机器之心· 2025-08-28 10:40
研究背景与动机 - MCP外部工具交互能力已成为AI Agent核心 使Agent能超越静态知识动态与真实世界交互 Model Context Protocol标准化了模型与工具集成[4] - 现有评测基准多聚焦单步工具调用 合成环境或有限工具集 无法捕捉真实场景复杂性和动态性 实际应用中代理需与随时间变化响应的实用工具交互并跨完全不同的领域[4] - 现实用户查询带细致上下文和特定约束 需跨多次工具调用的精确推理 要求代理知道何时及如何在演变任务状态中组合工具[4] - 现有基准无法完全揭示代理系统在真实生产环境部署时的差距 理解代理在时间演进生产环境中为何失败能为改进模型和系统架构提供宝贵见解[4] 评测基准设计 - 包含101个高质量任务 经多轮LLM改写与人工审校 覆盖41个MCP服务器 260个工具 分为Easy Medium Hard三档难度 涵盖从基础工具调用到复杂多步推理[6] - 采用Reference Agent机制 严格遵循预定义执行计划 仅使用计划指定MCP工具和参数 确保动态环境中产生稳定可重现参考结果[9] - 金标执行链构建结合o3模型起草 LLM辅助编辑与人工调整 修正逻辑错误 工具选择 参数化和数据处理错误 修订过程耗费约120 PhD hours 每个任务经多次试验验证[9] - 执行计划工具链长度分布平均5.4次调用 最长达15次[9] - 创新并行双轨评测框架解决在线服务响应随时间变化问题 工具池包含所有必需工具加额外MCP工具 单任务总共76-125个工具 模拟真实世界选择广度[10] - 采用LLM-as-judge双重评分机制 对被测代理结果和执行轨迹分别评分 人类一致性验证显示与人类专家一致性在结果评审达κ>85% 轨迹评审达κ>78%[11] 模型性能表现 - 在18个评测模型中 GPT-5以58.42%总体成功率领先 其次为o3(46.53%) GPT-5-mini(43.56%) 开启扩展思考的Claude-4.1-Opus(41.58%) 显示即使最先进模型在复杂多步工具编排任务上仍有很大提升空间[14] - 难度梯度影响显著 Easy任务上GPT-5达86.67%成功率 Hard任务上仅为39.02% 表明当前模型处理复杂约束和长链推理时存在局限性[14] - 开源模型明显落后 最好Qwen3-235B-A22B仅22.77%成功率 Llama系列表现尤其不佳 Llama-3.3-70B仅1.98% 暴露在MCP工具调用训练上不足[14] 执行质量与效率分析 - 轨迹质量与任务成功率和平均结果分呈现显著正相关 强调过程正确性对最终结果的决定性影响[17] - 闭源模型展现独特对数型Token效率模式 低Token预算下任务成功率快速提升后进入平台期 表明早期Token用于高价值操作而额外Token多带来冗余[18] - 开源模型即使使用相当或更多Token成功率提升有限 Llama系列倾向过早停止探索 Qwen模型产生更长输出和更多工具调用但未转化为性能提升[18] - 启用扩展思考的Claude系列在相似Token预算下持续展现更好性能 表明改进来自更好规划和错误恢复而非输出冗长[18] 失败模式分析 - 识别三大类七种具体失败模式 工具规划与编排错误占比最高[20] - 参数错误是核心瓶颈 语义错误率即使强模型也有16-25%[20] - 输出处理错误 工具返回正确结果但在解析或转换时出错[20] - 忽略需求 完全错过任务明确要求未调用相关工具[20] - 过度自信自解 依赖内部知识而非调用必要工具[20] - 无效循环 识别需要工具但陷入无产出思考循环未调用相关工具[20] - 错误工具选择 调用不适当工具导致错误结果[20] - 语法错误 参数格式错误在Llama-3.3-70B-Instruct中高达48% 显示MCP特定训练缺失[20] 与既有工作差异 - 更贴近生产实况 更大工具池与干扰工具设置 暴露长上下文与选择噪声下鲁棒性问题[23] - 更高难度与更细金标 平均5.4次调用最长15次 显著区分模型层级 金标执行链含详细参数与步骤 评分更一致更接近人工判断[24] - 更强诊断性 并行得到参考轨迹与被测轨迹 可精确定位错在计划 参数还是后处理 指导工程优化[25] 总结与展望 - LiveMCP-101为评测AI Agent在真实动态环境中多步工具使用能力建立严格可扩展评测框架 通过101个涵盖多领域精心设计任务配合基于执行计划创新评测方法[27] - 揭示即使最先进大语言模型在工具编排 参数推理和Token效率方面仍面临重大挑战 不仅诊断当前系统不足更为开发更强大AI Agent指明改进方向[27]
谷歌又赢了,nano banana「被迫」改名后,网友搞出7种神仙玩法
机器之心· 2025-08-28 10:40
模型发布与性能 - 谷歌推出Gemini-2.5-flash-image模型 原名为nano banana 生成速度更快 成本更低 图像生成与编辑能力更强 被网友称为世界上最好的AI照片编辑器[2][5] - 模型已在Gemini应用和Google AI Studio上线 用户可免费体验 开发者可通过Gemini API调用[5] 功能与应用场景 - 制作等距模型:将建筑或物体转化为等距模型 自动补全建筑细节如墙皮和电线 但存在人物数量不一致的问题[7][8][9] - 生成六视图:在白色背景上展示主体多个角度视图 保持主体一致和等距视角效果[12] - 标注现实世界:识别建筑并标注相关信息 经ChatGPT验证基本正确 仅少数细节不准确[15][18] - 红箭头视角生成:根据地图截图和箭头标记 生成指定位置和方向的真实景观图像 包括虚构混合城市地图[20][22][23] - 地形视图生成:先绘制带等高线的DEM 再从指定位置生成对应自然景观 高度还原湖泊山脉等地形特征[24][25][26] - 时尚穿搭识别:上传穿搭照片生成OOTD清单 支持真人和动漫角色 整体效果惊艳但存在配件遗漏或颜色错误[27][28][31][32] - 人物换衣:复杂图案T恤也能1:1复刻 褶皱逼真[33] - 电影分镜生成:上传肖像生成多帧电影镜头 支持多种风格 还能识别手绘姿势生成复杂战斗场景[37][40] - 漫画生成:将真实照片转为黑白漫画风格 添加动态效果和故事连贯性 如自动驾驶汽车照片出现猫和对话框[43][44] - 风格转换与照片修复:将照片转为《辛普森一家》等卡通风格 支持老照片修复和黑白照片上色[46][48][50] 市场反响与热度 - 模型热度居高不下 火爆程度不亚于GPT-4o掀起的吉卜力热潮[2] - 网友开发出多种新奇玩法 谷歌官方账号在X平台推荐使用方式[6][9]
刚刚更新,全球AI百强:中国五款产品进前20,ChatGPT背腹受敌,氛围编程成黑马
机器之心· 2025-08-28 09:33
榜单概况 - 风投机构a16z发布第五版全球前100大生成式AI消费级应用榜单 涵盖网页端和移动端各50强产品[2][5] - 榜单数据来源为第三方机构Similarweb网页流量和Sensor Tower移动端MAU 被视为行业晴雨表[11] - 榜单覆盖两年半用户行为数据 行业生态趋势趋于稳固[8] 市场竞争格局 - OpenAI的ChatGPT稳居双榜榜首 但竞争对手谷歌Gemini、xAI的Grok和Meta AI等正在快速追赶[3] - 谷歌有4款产品首次独立上榜 包括AI Studio、NotebookLM、Google Labs和Gemini 显示其AI产品矩阵逐渐形成[22][25] - Grok移动端MAU已超2000万 2025年7月Grok 4上线推动用户环比增长40%[28] - Gemini网页端流量为ChatGPT的12% 移动端MAU接近ChatGPT一半 其用户近90%来自Android[27] - Meta AI表现平平 网页排名第46 未进入移动顶级应用榜单[28] 中国厂商表现 - 网页榜前20中有三家主要服务中国用户:第9名夸克(阿里)、第12名豆包(字节)、第17名Kimi(月之暗面)[15] - 移动端50强中有22款出自中国厂商 仅3款主要服务国内用户 大量集中在图片/视频领域[21] - 出海产品包括DeepSeek、Hailuo、Kling视频生成、SeaArt图像生成、Cutout Pro图像编辑等主要服务海外用户[19] - 美图系产品包括美图秀秀、BeautyPlus、BeautyCam、Wink、Airbrush;字节系产品包括Doubao、Cici、Gauth教育、Hypic图像视频编辑[22] 新晋者变化 - 网页端仅有11个新应用进入榜单 低于2025年3月的17个新晋者[9] - 移动端新进入者14个 与应用商店清理ChatGPT仿冒应用直接相关[10] - 网页端新晋者包括Grok第4、Quark第9、Qwen3第20等[10] - 移动端新晋者包括AI Gallery第3、Wink第17、YouCut第22等[11] 全明星企业分析 - 五期网页榜中从未缺席的14家全明星公司来自五个国家:美国、英国、澳大利亚、中国、法国[47][50] - 5家拥有自主研发基础模型 7家依赖开源模型/第三方API 2家为模型聚合平台[49] - 涵盖通用助手、陪伴型AI、图像视频生成、语音生成、生产力工具、模型托管与社区等多个细分领域[50] 新兴赛道观察 - Vibe coding领域呈现增长 Lovable和Replit首次出现在主榜单[33] - 某顶级vibe coding平台的美国用户群体在注册后几个月内收入留存率超过100%[38] - 用户构建发布的应用带动Replit和Lovable自身域名流量 周边技术栈如Supabase流量激增[42] 潜力股企业 - 边缘榜候选企业包括网页端PixAI、Bolt、Blackbox AI等和移动端Talkie、Seekee、Photo AI等[54][58] - Lovable从上一期网页端边缘榜跃升至本期第22名[56] - 移动端PolyBuzz和Pixverse从边缘榜进入核心排名[57]
元石科技正式发布问小白5,性能直追GPT-5
机器之心· 2025-08-28 09:33
全球AI模型竞争格局 - GPT-5在多领域实现新SOTA 成为全球领先的AI系统[1] - 国产厂商加速技术迭代 元石科技推出旗舰模型问小白5 成为最接近GPT-5的国产大模型[2][6] 问小白5核心技术能力 - AA-Index综合评分达64.7分 超过Gemini2.5 Pro 位列全球大模型第二梯队[7][8] - STEM能力获86分 接近GPT-5的复杂逻辑推理水平[11][13] - 前沿知识(HLE)测试获17.7分 展现深度理解与真实推理能力[14] - LiveCodeBench编程测试获79.2分 体现端到端解题与代码执行能力[17] - IFBench指令遵循测试获58.1分 大幅领先国内模型并具备全球竞争力[19] 多领域应用场景 - 覆盖生活/学习/金融/科技等领域 提供专业级解答[3][24] - 职场助手功能支持多线程任务管理/会议材料整理/跨部门沟通[25] - 运营分析功能实现海量数据挖掘与多维度解读 支持ROI优化与市场研判[27][28] - 角色扮演功能支持沉浸式互动 包括恋爱游戏与历史人物模拟[29][30] - 学科知识功能辅助学术研究 可解析复杂信息并构建知识体系[31][32] 产品特性与 availability - 采用All in One设计 动态思维模式智能切换响应速度[3] - 已面向所有用户开放 支持官网与App端体验[4] - API合作通道即将开启 提供企业级集成方案[34]
AAAI-26投稿量爆炸:近3万篇论文,2万来自中国,评审系统都快崩了
机器之心· 2025-08-28 04:33
AAAI-26投稿数据 - 主技术轨道接收近29000篇投稿,来自中国的投稿接近20000篇,占比三分之二[2] - 共有75000+位独立作者提交论文,投稿量达历史峰值[1][4] - 约23000篇论文进入评审流程,数量是AAAI-25(12957篇)的近两倍[5] 研究领域分布 - 前三大研究关键词为计算机视觉(近10000篇)、机器学习(近8000篇)和自然语言处理(超4000篇)[5] - 计算机视觉投稿量占比最高,约占总投稿量的34%[5] 评审系统挑战与应对 - 招募28000+名项目委员会成员,委员会规模达AAAI-25的三倍[6] - 日均邮件请求峰值达400封,总量超AAAI-25全年的五倍[5] - 采用AI辅助评审工具及最先进论文匹配算法,强化伦理审查机制[7][8] 中国AI研究影响力 - 中国作者在CVPR论文占比从2015年30%增至2024年40%,超越美国[22][23] - NeurIPS和ICML中国作者占比从2015年10%升至2024年30%[22][23] - 2024年NeurIPS录用论文数量前20机构中8所来自中国,含排名第一机构[24] 学术生态背景 - 投稿激增反映学术界发表压力,被部分评论视为"内卷"环境下谋求出路的举措[14] - 中国已成为全球AI研究绝对领导者,研究数量、质量及国际合作影响力显著提升[17]