Workflow
机器之心
icon
搜索文档
大模型作为评估者的「偏好」困境:UDA实现无监督去偏对齐
机器之心· 2025-11-28 00:51
文章核心观点 - 当前大模型评估体系存在严重的“自我偏好偏差”问题,即模型在作为评估者时会系统性偏爱自己生成的答案,导致评估结果不公平[2] - 智谱AI提出的无监督去偏对齐方法UDA,通过将去偏问题转化为动态校准优化的序列学习问题,有效解决了上述偏差问题[7][13] - UDA方法无需人工标注,通过无监督共识驱动训练,在ArenaHard数据集上实现了评估方差减少59%和人类对齐度提升24.7%的显著效果[20][23][24] 现有LLM评判系统问题 - 现有系统如Chatbot Arena采用Elo评分机制,面临自我偏好固化、异质性偏差和静态评分缺陷三大挑战[4] - 自我偏好偏差幅度从-38%到+90%不等,导致不同裁判模型评分标准差最高达158.5分[2][5] - 传统Elo使用固定K因子,无法区分关键对决与平庸比较,小样本下信噪比极低[5] UDA方法框架 - 将成对评估建模为实例级自适应过程,通过轻量级网络动态生成调整参数,输出校准后的Elo更新[10] - 特征工程涵盖高维特征、标量特征和自我感知特征,这些特征无需人工标注,完全从响应分布中自动构建[11][12] - 训练目标采用多任务损失函数,驱动各裁判轨迹向共识收敛、保持排名相关性并强化集体一致性[14] 理论创新 - 核心理论洞见是对齐多样化裁判的共识将降低系统总偏差,通过凸组合收缩实现集体方差缩减[16][17] - 即使共识本身有噪声,减少离散度仍能提升整体可信度,为无监督对齐提供了理论动机[18] 实验结果 - 在ArenaHard数据集上,UDA将平均裁判间标准差从158.5降至64.8,减少59%[23] - 与人类评估的相关性系数从0.651提升至0.812,提升24.7%[23][24] - 在零样本迁移中未经重新训练仍实现63.4%的方差缩减,证明领域无关的去偏能力[23] - 消融实验显示自我感知特征至关重要,移除后人类相关性暴跌至0.510[23][24] 技术影响 - 评判校准从提示工程问题转变为可学习的问题,模型能在交互中自主演化出公平评分策略[25] - 该框架有效提升了低质量评委的表现,使其接近高质量评委水平,显著增强了评估的鲁棒性、可复现性与人类对齐度[25]
DeepSeek强势回归,开源IMO金牌级数学模型
机器之心· 2025-11-27 12:13
模型发布与性能突破 - DeepSeek在Hugging Face上新发布了数学推理模型DeepSeek-Math-V2 [1] - 新模型基于DeepSeek-V3.2-Exp-Base开发,性能优于Gemini DeepThink,实现了IMO金牌级水平 [5] - 在Putnam 2024竞赛中以扩展测试计算实现了接近满分的118/120分(98.3%)[20][21] 技术架构创新 - 公司提出由验证器、元验证和生成器组成的自我验证系统,类比“学生-老师-督导”机制 [12][13][17] - 验证器将证明过程分为三档评分:1分(完美)、0.5分(有小瑕疵)、0分(有根本错误)[16] - 元验证机制专门检查验证器评语的合理性,解决模型幻觉问题,提升评估准确性 [14] - 生成器具备自我评价功能,采用诚实奖励机制,对诚实指出错误的行为给予奖励 [17][18] 性能表现数据 - 在IMO 2025竞赛中取得83.3%的成绩,在CMO 2024中取得73.8%的成绩 [21] - 在IMO-ProofBench基准的Basic子集上达到近99%的高分 [22] - 在Advanced子集上表现略逊于Gemini Deep Think (IMO Gold) [22] 方法论突破 - 从“结果导向”转向“过程导向”,不再依赖最终答案正确性作为唯一奖励 [7][20] - 设计自动化闭环系统,通过“左右互搏”实现自我进化,自动筛选难题作为训练数据 [19][23] - 该方法不依赖大量数学题答案数据,而是教会AI像数学家一样严谨审查证明过程 [20]
生成式AI赋能需求工程:一场正在发生的变革
机器之心· 2025-11-27 12:13
文章核心观点 - 生成式人工智能在需求工程领域的研究呈现指数级增长,但整体仍处于“快速扩张但尚未成熟”的阶段,90.3%的研究停留在概念或原型阶段,仅1.3%实现生产级集成[5][8][14][39][41] - 当前研究存在严重失衡,过度聚焦于需求分析等文本处理任务,而需求管理等复杂社会技术因素阶段仅占6.8%的研究比重[9][11][13] - 技术生态面临同质化困境,67.3%的研究采用GPT系列模型,开源替代方案仅占11.6%,限制了多样化技术路径的探索[15][16][17][19] - 可复现性、幻觉问题和可解释性构成三大核心挑战,共现率达35%,形成相互强化的“信任瓶颈”[27][28][29][30][31] - 行业从实验室到生产存在巨大鸿沟,需要四阶段推进策略解决评估基础设施薄弱、治理框架缺失等系统性障碍[32][37][38][42][44][46] 研究热度与分布 - 研究成果呈现爆发式增长:2022年仅4篇,2023年激增至23篇,2024年达113篇,2025年前5个月已有97篇[5][10] - 需求分析占据30.0%的研究比重,需求获取和需求规约各占22.1%,需求验证占19.0%,需求管理仅占6.8%[9][11][13] 技术生态现状 - GPT系列模型占据主导地位:GPT-4系列占36.7%,GPT-3.5系列占25.3%,开源方案如LLaMA、CodeLlama仅占11.6%[16][17][19] - CodeLlama在代码-需求追溯任务中表现出色,幻觉率比通用模型低23%,但采用率仍然很低[16] - 提示工程以指令式提示为主,占62.2%,少样本学习占43.6%,零样本学习占37.7%,思维链方法仅占14.0%[20][21][23][25] 质量特性与核心挑战 - 功能适用性获得最多关注,可靠性次之,安全性和可解释性几乎被忽视[26][30] - 可复现性问题最严重,影响66.8%的研究,LLM的随机性和黑盒API不透明性导致结果难以验证[29][30] - 幻觉问题影响63.4%的研究,AI生成需求可能包含虚构内容,导致系统设计偏差[29][30] - 可解释性问题影响57.1%的研究,决策过程不透明在高风险领域尤为致命[29][30] 评估与实践现状 - 仅23.9%的研究公开发布工具,45.8%使用不公开数据集,缺乏统一基准测试框架[33][35] - 评估主要依赖传统NLP指标,精确率/召回率/F1分数最常用,人工评估和错误分析罕见[33][35][37] 工业化进程与未来路线 - 90.3%研究停留在概念或原型阶段,仅8.4%达到实验部署水平,1.3%实现生产级集成[39][41] - 主要限制因素包括:泛化能力和领域适应、数据质量和可用性、评估方法、人工介入需求[42][45] - 未来四阶段推进策略:强化评估基础设施、治理感知开发、可扩展的情境感知部署、工业级标准化[44][46]
聚焦AI青年成长|2025浦东国际人才港论坛·人工智能产业人才论坛报名启动
机器之心· 2025-11-27 10:23
论坛核心信息 - 论坛主题为“青年聚力,智汇浦东”,聚焦人工智能青年人才在技术突破、产业融合及生态构建中的作用[2] - 论坛将于12月6日13:30-16:00在张江科学会堂科创厅举办[4] - 旨在激发创新潜能,推动技术与产业融合,助力浦东打造世界级人工智能产业高地[4] 论坛背景与目标 - 浦东是全国首个人工智能创新应用先导区,正以张江AI创新小镇为核心打造全球AI人才高地[4] - 论坛汇聚高校教授、青年科学家、创业先锋及产业领袖,围绕人才培养、技术突破与落地实践展开探讨[4] - 目标是为上海建设全球影响力的AI集群注入新动力[4] 论坛议程与环节 - 议程包括产业推介、企业签约仪式、主旨演讲、大咖论道及青年新锐对话等多个环节[5][6] - 主旨演讲主题为“以卓越育卓越”:打造AI时代顶尖人才引育正循环,由上海交通大学人工智能学院执行院长王延峰主讲[5] - 大咖论道环节主题为“无界·共融:具身智能的进化路径与生态构建”,由中欧国际工商学院教授谭寅亮主持[5] - 青年新锐对话环节主题为“聚合·共生:AI青年如何打通‘前沿理论’到‘落地价值’”,由布兰矩阵AI创始人李光辉主持[6] - 论坛将发布《人工智能产业人才发展趋势报告》,发布单位为上海市人工智能行业协会和上海浦东人才发展有限公司[6] 主要参与机构 - 指导单位为浦东新区人才工作局[7] - 主办单位为上海张江(集团)有限公司[7] - 承办单位包括上海张江数智经济发展有限公司、上海张江首身智能机器人卓限公司等[7] - 协办单位为机器之心(上海)科技有限公司及上海市浦东新区工商联张江人工智能商会[7] - 学术支持单位为中欧国际工商学院[7] 核心嘉宾背景 - 王延峰:上海交通大学人工智能学院执行院长,国家级高层次人才,国家科技创新2030“新一代人工智能”重大项目专家组成员,发表学术论文100余篇[11] - 谭寅亮:中欧国际工商学院决策科学与管理信息系统教授,曾任斯坦福大学人工智能研究院访问学者,2019年被评为世界最佳40名40岁以下商学院教授[12] - 苏洋:灵心巧手联合创始人兼首席AI架构师,专注于前沿AI技术的落地与生态共建,负责操作系统、机器人乐队等技术架构[13] - 王宏涛:镜识科技创始人兼CEO、浙江大学教授,曾牵头研发出全球首款机器人正向设计优化软件[14] - 王韬涵:上海电气中央研究院机器人技术团队项目负责人,东京大学博士,具备10余年机器人研究与工程实践经验[15][16] - 李光辉:布兰矩阵BraneMatrix AI创始人兼CEO,拥有10年互联网及安全行业经验,曾任腾讯安全企业级安全服务负责人[17] - 陈源培:灵初智能联合创始人,00后学者,全球首次落地基于强化学习的双臂双手多技能操作,发表AI顶会论文10余篇[18] - 刘邦:蒙特利尔大学 & Mila副教授,加拿大CIFAR人工智能讲席教授,已发表论文与教程100余篇,荣获Amazon Research Award (2025)等荣誉[19]
无问芯穹完成近5亿元A+轮融资,加码Agentic Infra基础设施建设,引领智能体产业变革
机器之心· 2025-11-27 10:23
融资情况 - 公司完成近5亿元A+轮融资,由珠海科技集团、孚腾资本领投,惠远资本、尚颀资本和弘晖基金跟投,老股东洪泰基金、达晨财智、尚势资本 & 海棠基金、联想创投、君联资本、申万宏源、徐汇科创投、元智未来持续追投 [1] - 融资阵容汇聚国家产业资本与头部市场化基金,体现“国资+市场”双重加持 [1] 公司业务与客户 - 公司成立两年半,专注于打造高性能AI基础设施,提供软硬件联合优化与多元异构算力服务 [3] - 公司产品包括面向人工智能开发与服务的“无穹AI云”及“无垠终端智能解决方案” [3] - 已服务百川智能、Kimi、联想集团、猎聘、理想汽车等头部人工智能及智能体企业客户,以及北京中关村学院、上海人工智能实验室等人工智能科学研究机构 [3] 资金用途与战略方向 - 募集资金将主要投入持续扩大软硬协同、多元异构的技术领先优势 [5] - 资金将用于推动AI云产品与AI终端方案在产业中的规模化拓展 [5] - 资金将加大智能体基础设施研发投入,构建一流的智能体服务平台及配套云、端基础设施 [5] 行业趋势与公司观点 - 人工智能正从“对话工具”向“行动伙伴”演进,智能体有望成为未来社会的新型生产力单元 [6] - 基础设施是服务智能体开发与迭代的产线,也是智能体落地实践的试验场和规模化应用的基石 [6] - 公司已完成智能体原生基础设施转型,将以构建新一代可学习、可进化的Agentic Infra为战略核心 [6] 技术与产品架构 - 公司构建了“智能体基础设施 ×(AI 云 + 终端智能)”技术与产品架构 [7] - 在云端,无穹AI云提供智能体服务平台、人工智能服务平台等标准化产品能力,已完成超25,000P算力纳管,覆盖26座城市的53个核心数据中心 [9] - 在终端,无垠终端智能解决方案包括端模型、端软件和端IP,其中端模型无穹天权以3B计算成本、7B内存需求实现21B级智能水平,终端推理加速引擎无穹开阳在主流硬件上实现3倍时延降低、40%能耗节省和40%内存占用,自研LPU IP无穹天璇实现能效翻倍 [10] 近期产品发布 - 公司近期发布由Agentic AI驱动的云端基础设施智能体蜂群Infra Agents与终端通用推理加速优化平台Kernel Mind [11] - 同时发布配套智能体技术,包括支持智能体持续进化的强化学习框架RLinf和支持高效无损交流的通信框架Cache to Cache [11] 投资方观点 - 珠海科技集团认为智能体技术正引领人工智能进入新阶段,公司已在“云+端”全栈体系中构建成熟产品矩阵与多行业落地案例 [12] - 孚腾资本认为公司在AI基础设施领域展现出技术前瞻性与系统化能力,其Agentic Infra新范式具备深远战略价值与广阔商业想象空间 [13] - 惠远资本认为公司以AI智能体生态为核心战略,其布局与中国构建自主人工智能产业生态的战略方向高度契合 [13]
当推荐系统真正「懂你」:快手团队在NeurIPS 2025提出新成果TagCF
机器之心· 2025-11-27 04:09
文章核心观点 - 快手团队提出TagCF框架,旨在让推荐系统从仅理解用户兴趣内容,升级到理解用户社会角色和特性,实现从“会猜”到“懂你”的跨越 [2] - 该方法通过引入用户角色建模,为推荐系统带来更强的可解释性和逻辑推理能力,并能显式地建模和突破用户信息茧房 [6][28] - 该研究成果已被NeurIPS 2025接收,相关代码与实验框架已全面开源 [3] 研究背景与动机 - 当前推荐系统算法主要聚焦于“内容层”理解,擅长识别用户喜欢哪类视频,但缺乏对“用户是谁”的深度理解 [2] - 用户角色是隐藏在内容关联背后的“混杂因素”,例如“耳机-交响乐手-小提琴”的关联实则源于“交响乐手”这一用户角色 [6] - 引入用户角色视角使推荐系统能更清晰地理解用户,迈向显式的可解释推荐,并在逻辑上具备更强的通用性与表达能力 [6][7] 提出的新任务 - 用户角色识别:建模用户的特征、个性、社会角色和需求,其中特征包含但不限于用户直接提供的特征值(如性别和年龄) [9] - 用户行为逻辑建模:建模用户角色和物品主题之间的逻辑关联图,可细分为I2U(物料适合分发给什么用户)和U2I(用户希望看到什么物料)两个子任务 [10][13] TagCF框架模块设计 - 基于MLLM的视频内容理解中台:利用MLLM模型对每日新增视频提取多模态内容,通过预设提示词自动生成物品标签与用户标签,并实时更新标签库 [16] - 基于LLM的行为逻辑图探索中台:在得到标签集合后,构建标签间逻辑图,使用LLM根据起始标签生成对侧的目标标签,形成U2I和I2U逻辑图 [18] - 赋能下游推荐系统:下游推荐系统可使用中台信息进行模型增强,提出了针对物品标签空间或用户标签空间增强的方案TagCF-it和TagCF-ut [22] 工程挑战与解决方案 - 面临无限制生成导致标签集合无序扩张、视频覆盖率长尾分布等挑战 [23] - 构建弱重叠高频标签子集作为覆盖集,经验上覆盖集规模为7k-20k,能在30天内收敛,在工业场景下具有足够稳定性和通用性 [24][25] - 用户标签全集规模为2,976,845,覆盖集大小为7,633且已收敛;物品标签全集规模为50,208,782,覆盖集大小为20,956且每日仍有数百扩张 [41] 实验效果与性能提升 - 在快手工业离线数据集上,TagCF-ut在NDCG@10指标上达到0.0201,相比基线最佳模型提升8.06%;TagCF-it在Cover@20指标上达到0.5440,提升14.21% [34] - 在Books数据集上,TagCF-ut在NDCG@10指标上达到0.1881,提升10.3%;在MRR@10指标上达到0.1560,提升13.60% [34] - 线上实验表明,TagCF-util策略相比基线提升交互次数0.946%,TagCF-expl策略提升多样性0.102%,并能有效提升用户长期留存指标0.037% [39][40] 技术优势与行业意义 - 用户角色相比兴趣点是更加稳定的特征,用户标签集合比物品标签集合具有更强的稳定性和表达能力,体现为更小的集合大小和更快的收敛速度 [40][41] - TagCF框架在符号与统计两种范式之间搭起桥梁,其tag-logic内容理解中台具备可迁移能力,未来可扩展至召回、电商、搜索等多业务场景 [44][45] - 该方法标志着推荐系统从“懂内容”到“懂人”的技术跃迁,使系统有能力从用户信息茧房出发进行有逻辑的语义探索,平衡准确性与多样性 [45]
Adam的稳+Muon的快?华为诺亚开源ROOT破解大模型训练「既要又要」的两难困境
机器之心· 2025-11-27 04:09
文章核心观点 - 华为诺亚方舟实验室发布新型大模型优化器ROOT,旨在解决现有主流优化器Adam和Muon在大规模训练中的痛点,实现收敛速度与稳定性的兼顾[2] - ROOT通过自适应Newton-Schulz迭代和软阈值去噪两大核心技术,精准修复了Muon的维度脆弱性问题,并增强了对梯度噪声的鲁棒性[21][26][32] - 实验证明,在10B token的预训练中,ROOT的训练损失达到2.5407,比Muon基线低0.01,并在多项下游任务和跨模态任务中表现优于AdamW和Muon[41][43][47] LLM优化器发展历程 - 优化器在LLM训练中扮演核心“引擎”角色,从最早的SGD到引入动量的SGD,确立了神经网络训练的基本范式[5][6] - Adam/AdamW成为深度学习事实标准,通过动量和逐参数自适应学习率提升收敛效率,但在十亿级参数混合精度训练中暴露出数值不稳定性[7] - Muon作为矩阵感知型优化器,将权重矩阵视为整体进行正交化处理,在理论上等同于谱范数下的最速下降,提升了训练效率和显存利用率[8][11][12] 现有优化器的核心局限 - Muon采用固定系数的Newton-Schulz迭代,导致不同维度矩阵的正交化误差大幅波动,例如在2048x2048方阵上MSE达0.0499,存在“维度脆弱性”[19][23][24] - 大模型训练梯度存在“重尾现象”,异常值噪声会被正交化过程放大,严重影响稳定性,甚至导致Transformer的attention logits爆炸[19][30][31] ROOT优化器的技术创新 - 提出自适应Newton-Schulz迭代,为每个特定矩阵大小(m, n)量身定制细粒度系数,使正交化误差显著降低,例如在2048x8192矩阵上MSE从0.0761降至0.00033[26][27][29] - 引入软阈值去噪机制,将梯度矩阵分解为正常分量和异常分量,仅对鲁棒分量进行正交化,通过L1范数惩罚异常值,公式为min‖Mₜ-Bₜ-Oₜ‖²_F + λ‖Oₜ‖₁[32][33][36] ROOT的实验性能表现 - 在1B参数Transformer的10B token预训练中,ROOT的训练损失曲线始终低于Muon,最终损失为2.5407,较Muon低0.01[39][41] - 在9个LLM基准测试中,ROOT平均得分60.12,高于AdamW的59.05和Muon的59.59,并在6个基准上领先[43][44] - 在CIFAR-10视觉任务中,ROOT的Top-1准确率达88.44%,显著优于Muon的84.67%,证明其跨模态泛化能力[46][47] 行业影响与团队背景 - ROOT的代码已开源,其“去噪+正交化”范式有望为万亿级模型训练建立新优化标准,推动AI系统更可靠高效的训练[50][52] - 研究团队来自华为诺亚方舟实验室,共一作者韩凯为专家研究员,谷歌学术引用超2.1万次,通讯作者王云鹤为实验室主任[54][58]
首个3D生成解构模型PartCrafter问世,GitHub狂揽2k星标
机器之心· 2025-11-27 04:09
技术突破与核心创新 - 提出PartCrafter模型,开创结构化3D生成新理念,能够从单张2D图像直接生成由多个可独立操作部件构成的复杂3D网格模型 [2] - 模型核心采用组合式潜在空间设计,为每个部件分配独立潜在变量并引入可学习的部件身份嵌入,以强化对部件语义属性和独立身份的感知能力 [15] - 设计局部-全局联合去噪Transformer架构,通过局部分支确保单个部件的几何细节完整合理,通过全局分支协调所有部件的空间关系和整体布局一致性 [16][20] 性能优势与实验结果 - 在物体部件级生成任务上,PartCrafter仅需约34秒即可生成高保真、部件可拆分的3D网格,而对比模型HoloPart需18分钟且依赖耗时的后处理步骤 [23] - 在Objaverse数据集上,PartCrafter的倒角距离为0.1726,F-Score为0.7472,优于HoloPart的0.1916和0.6916 [24] - 在场景级生成任务中,PartCrafter在存在严重遮挡的场景下表现稳定,在3D-Front数据集上的倒角距离为0.1491,F-Score为0.8148,优于MIDI模型的0.1602和0.7931 [26] 数据集构建与行业应用 - 为解决数据瓶颈,团队自主构建了大规模高质量部件级3D数据集,包含约13万个三维对象,其中约10万个拥有精确的多部件标注,并精选出约5万个高质量标签对象,共计超过30万个独立三维部件 [19] - 该技术可直接生成可编辑部件,为游戏、虚拟现实、工业设计等领域快速生成可定制的3D资产提供了全新思路,极大提升了3D内容创作流程的实用性和工作效率 [32][34]
NeurIPS 2025奖项出炉,Qwen获最佳论文,Faster R-CNN获时间检验奖
机器之心· 2025-11-27 03:00
NeurIPS 2025 会议概况 - 会议共收到21575份有效投稿,最终接收5290篇,整体录用率为24.52% [4] - 今年共有4篇论文获得最佳论文奖,另有3篇论文获得最佳论文亚军 [1] - 任少卿、何恺明、Ross Girshick、孙剑2015年合著论文《Faster R-CNN》获得时间检验奖 [2] - 《Random synaptic feedback weights support error backpropagation for deep learning》获得Sejnowski-Hinton奖 [3] 最佳论文奖核心研究 - 论文《Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)》提出Infinity-Chat数据集,包含26K条真实世界开放式用户查询 [5][6] - 研究揭示了语言模型在开放式生成中存在人工蜂群思维效应,包括模型内重复和模型间同质化 [6] - Infinity-Chat包含31,250条人工标注,每个样本有25位独立标注者参与 [8] - 论文为理解语言模型多样性、价值多元与社会影响做出重要贡献 [9] - 论文《Gated Attention for Large Language Models》首次系统分析注意力门控对大模型性能的影响 [12] - 研究证明门控机制通过增强注意力机制的非线性和提供输入相关稀疏性来提升性能 [12] - 门控机制能消除注意力池和巨量激活现象,提高训练稳定性并减少损失波动 [16] - 该方法已成功应用于Qwen3-Next模型,并在各尺寸架构上验证有效性 [16] - 论文《1000 Layer Networks for Self-Supervised RL》证明将网络深度增加到1024层可显著提升自监督强化学习性能 [18] - 在无监督目标条件设定下,该方法在对比式RL算法上将性能提升2×–50× [18] - 增加模型深度不仅提升成功率,还会在质量上改变学到的行为 [18] - 论文《Why Diffusion Models Don't Memorize》揭示了训练动力学中存在隐式动态正则化 [20] - 研究发现随着训练集大小N线性增长,模型泛化时间窗口变宽 [20] - 只有当N超过与模型相关的阈值时,过拟合才会在无限训练时间极限下消失 [20] 最佳论文亚军研究 - 论文《Optimal Mistake Bounds for Transductive Online Learning》解决了长达30年的公开难题 [30] - 研究精确刻画了传导式在线学习的最优错误上界为Ω(√d),并给出与之匹配的O(√d)上界 [30] - 这一结论确立了传导式在线学习与标准在线学习之间存在二次量级差距 [30] - 论文《Superposition Yields Robust Neural Scaling》论证表征叠加是支配神经网络缩放定律的主要机制 [33] - 研究不再停留在现象描述,而是为缩放定律提供了新的机制性洞见 [33] 时间检验奖研究 - 《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks》论文已被引用超过56,700次 [40] - 该论文是第一个用完全可学习的两阶段pipeline取代selective search和手工设计候选框的方法 [41] - 实现了极高精度与接近实时(5 FPS)检测的统一,使目标检测模型得以真正部署到实际应用中 [40] Sejnowski-Hinton奖研究 - 获奖论文《Random synaptic feedback weights support error backpropagation for deep learning》提出了著名的反馈对齐机制 [46] - 研究证明多层网络可在无需对称反馈权重下有效学习,前向权重会自然与随机反馈信号对齐 [46] - 这项工作帮助建立了生物可行学习规则的全新研究方向 [47]
通用脑机接口时代要来了?跨尺度脑基础模型CSBrain真正读懂脑信号
机器之心· 2025-11-27 03:00
脑机接口行业技术范式转变需求 - 脑机接口被视为连接人类智能与人工智能的终极界面,其核心在于高精度的脑信号解码[2] - 当前脑电信号解码技术主要依赖任务特定的深度学习模型,存在缺乏通用性与跨任务迁移能力的致命短板[2] - 传统模型难以适应复杂、多样、动态的人脑信号,导致BCI系统停留在彼此孤立的"专才"应用阶段[2] CSBrain脑基础模型技术创新 - CSBrain模型引入跨尺度时空标记化模块,通过多尺度时空卷积核提取脑电信号特征并生成多粒度脑电tokens[6] - 模型采用结构化稀疏注意力模块,将计算复杂度从O(N²)降低至O(N·k),有效抑制脑电噪声带来的虚假关联[7] - 该模型采用掩码自预测的自监督预训练范式,基于TUEG数据集中超过9000小时的脑电信号数据完成大规模预训练[8] 实验验证与性能表现 - 研究团队在11个代表性脑解码任务、16个公共数据集上验证,涵盖运动想象、情绪识别、癫痫检测等关键BCI应用场景[12] - CSBrain在11项任务平均结果中较当前SOTA模型实现3.35%的整体性能提升[12] - 在运动想象任务上的准确率指标较SOTA模型提升5.2%,在癫痫检测任务上的AUC-PR指标提升7.6%[12] 行业应用前景与发展方向 - CSBrain为多达11类BCI应用提供有效支撑,为脑基础模型提供新的架构设计思路[13] - 该技术为下一代脑机接口的设计打开全新可能,推动脑科学与人工智能的深度交汇[13] - 随着数据规模扩展与计算能力提升,脑基础模型研究有望在更广泛的脑-AI融合场景中发挥更大作用[14]