深度学习

搜索文档
大模型发展情况及展望:海内外大模型梳理
2025-07-30 02:32
行业与公司关键要点总结 **人工智能行业整体发展** - 人工智能投资经历三轮浪潮 当前浪潮持续时间更长 上涨力度更强 资本开支投入力度和商业化回报潜力更高[1][4] - 人工智能发展三阶段:符号主义 专家系统 深度学习 当前处于深度学习阶段 核心技术为深度神经网络[5] - 模型智能水平提升三规律:算力增长 效率提升(训练成本逐年下降) 范式转变(如强化学习引入)[23] - 推理算力需求爆发式增长 占当前算力使用80%-90% 谷歌Gemini流量TOKEN达480T(2025年4月) 两个月后翻倍至900T[25][32] **大模型技术进展** - **深度学习应用**:Transformer架构通过思维树增强逻辑能力 提升问答速度和问题解决表现[1][6] - **强化学习突破**:进入post-training scaling law阶段 少量反馈数据即可提升逻辑推理能力 减少对外部语料依赖[8][9] - **训练范式演变**:未来重点为延长强化学习时间 增加算力投入 引入MID training阶段(专家标注高质量数据)[13][17] - **成本趋势**:训练成本逐年下降 GPT-4训练成本前年较高 2024年下降 2025年进一步降低[22] **海外大模型动态** - **OpenAI**:GPT-4.5发布延迟 GPT-5预计在逻辑思维 动态处理 图形界面操作跨代提升 O3模型文本/视觉推理突出[10][11] - **GROX系列**:GROX4强化学习算力与预训练相当 表现惊人 提供未来训练范式参考(算力与时间大幅增加)[13] - **谷歌Gemini**:均衡性强 性价比 推理速度 绝对能力突出 API调用市场份额45%[14][30] - **GOROCK4**:使用20万块H100训练 性能强劲 测试成绩刷新 与头部模型差异小[12] - **Isotropic Cloud 4**:编程优化模型 推理速度快 价格低 第三方调用量巨大 估值攀升[15] **国内大模型进展** - **技术差距**:中美模型差距约3-6个月 无显著技术壁垒 国内模型可能在下一次迭代后冲击SOTA[18][33] - **代表模型**: - 豆包1.6:支持深度推理 多模态理解(图片 视频)及界面操作[19] - Kimi K2:DPC V3架构 总参数量1万亿 非推理领域领先[19] - 千问三:具备长短COT能力 混合推理 quarter版本编程性价比超Claude 4[19] - **编程领域**:国内模型能力接近海外顶尖(如Claude 4) 性价比更高 此前被低估[20] - **算力需求**:国内模型需更多算力支持 短期悲观但基座表现优异 三季度或有大版本发布[21] **商业化与市场表现** - **谷歌AI Overview**:覆盖全球后 每月激活频次1470亿次(占搜索35%-50%) 月度吞吐量290T TOKEN[26] - **API市场格局**:谷歌45% Sora(编程能力强)第二 Deepseek第三 OpenAI份额低[30] - **AGI进展**:技术无显著障碍 强化学习与合成数据解决数据短缺 应用闭环(搜索 编程 多模态生成)[31] - **投资机会**:关注计算资源与应用标的 强化学习迭代推动性能跃升 类比AlphaGo股价效应[33] **潜在风险与挑战** - **深度推理模型**:简单问题反应过慢 混合推理为发展方向(如Claude 3.7动态激活深度推理)[16] - **算力波动**:短期事件冲击(如DeepSick影响英伟达股价)但非长期趋势[24] - **商业化渗透率**:AI搜索主导 虚拟试衣等新应用渗透率低 增长空间大[27][28] (注:部分文档内容重复或交叉引用 已合并关键数据与观点)
ChatGPT大更新推出学习模式!“一夜之间1000个套壳应用又死了”
量子位· 2025-07-30 00:24
ChatGPT学习模式推出 - 公司正式推出学习模式,旨在引导用户逐步思考而非直接提供答案[1] - 该功能已向免费版、Plus、Pro和Team用户开放,Edu用户将在未来几周内获得[2] - 学习模式不仅可用于问题辅导,还能帮助用户准备考试[3] 教育应用与影响 - 数据显示约三分之一的大学生使用ChatGPT辅助学业,但存在直接抄答案的担忧[4] - MIT研究发现使用ChatGPT写作文的人大脑活动较低,显示批判性思维可能受损[5] - 公司表示不会立即推出锁定学生模式的工具,但未来可能探索此功能[10] 学习模式设计原理 - 学习模式通过引导性问题促使用户自主思考,而非直接给出答案[12][13] - 该模式是与教师、科学家及教学法专家深度合作的成果,基于学习科学研究[15] - 采用定制系统指令驱动,融合主动参与、认知负荷管理等教育原理[15] 核心功能特点 - 交互式提问:结合苏格拉底式提问和自我反思提示引导学习[16] - 支架式响应:信息被组织成易于理解的部分,突出关键联系[16] - 知识点检查:通过测验和开放式问题提供个性化反馈[17] - 个性化教学:根据用户技能水平和对话记忆提供定制内容[18] - 灵活切换:用户可随时开启或关闭学习模式[19] 实际应用案例 - 学习"博弈论"时,系统会制定多阶段学习路线图[20] - 教学过程穿插引导性示例、思想实验和检验性问题[21] 未来发展计划 - 当前功能通过自定义系统提示词实现,未来将直接训练到主要模型中[24] - 改进方向包括更清晰的可视化展示、进度跟踪和深度个性化[24] - 公司与多个合作伙伴开展研究,包括斯坦福大学SCALE计划[24] - 承诺发布模型设计与认知联系的深入分析[25] 战略意图 - CEO对传统教育持怀疑态度,认为18年后教育将截然不同[26][27] - 公司可能从根本上重塑未来教育模式[28]
首访上海,“AI之父”缘何掀起浪潮?
国际金融报· 2025-07-28 13:06
行业技术发展 - 杰弗里·辛顿在人工神经网络领域的长期研究为深度学习技术奠定基础 其与团队提出的反向传播方法是训练人工神经网络的关键突破 被誉为机器学习的缺失数学部分 [6] - 2012年辛顿与团队开发的AlexNet模型赢得ImageNet竞赛冠军 推动深度学习从边缘技术转变为人工智能核心 引发全球科技巨头对神经网络技术的巨额投资 [7] - GPU技术的迅猛发展为人工神经网络研究注入新生命力 成为该领域发展的关键转折点 [6] 技术突破与影响 - 反向传播技术实际应用改变世界 每日有数亿用户使用基于神经网络的聊天机器人 这些系统通过大量文本数据训练的神经网络架构生成响应 [6] - 深度学习被全球科技巨头视为人工智能发展核心引擎 学术界重新重视神经网络理论 推动人工智能进入新时代 [7][8] - 大语言模型延续了辛顿1985年构建的语言与神经联结模型框架 采用更多词汇输入 多层神经元结构和复杂特征交互模式 其语言理解方式与人类高度相似 [10] 技术范式与安全 - 人工智能存在两大主流范式:逻辑型(智能基于符号规则推理)和生物学基础型(智能基于学习与联结网络) [10] - 辛顿估计人工智能接管并摧毁人类文明的概率达10%至20% 呼吁将至少三分之一计算资源投入人工智能安全研究 [11] - 批评大型科技公司将商业利益置于监管之上 警告放松管制会加速风险积聚 [11] 行业警示与趋势 - 人工智能发展速度超越专家预测 一旦超越人类智能可能无法阻止其掌控一切 [10] - 专家共识认为人类终将创造出比自己更聪明的人工智能 智能体未来会为生存和完成任务寻求更多控制权 [11] - 辛顿将研究重心转向AI安全 呼吁建立全球性AI安全协作机制 警告通用人工智能可能带来存在性威胁 [11]
“AI大神”李沐终于开源新模型,爆肝6个月,上线迅速斩获3.6k stars!
AI前线· 2025-07-25 05:36
技术突破与创新 - 开源音频基础模型Higgs Audio v2基于Llama-3.2-3B架构,预训练数据包含1000万小时音频及丰富文本数据,Github获3.6k stars [1] - 模型创新性地将语音数据融入文本大语言模型训练,实现"能听会说"的多模态能力,而非单独训练语音模型 [2][5] - 在EmergentTTS-Eval测评中,情绪和提问类别分别以75.7%和55.7%胜率超越gpt-4o-mini-tts,并在Seed-TTS Eval等基准测试中达业界领先 [3] - 采用语义优先的tokenizer策略,实现375倍音频压缩率(1小时语音压缩至0.16MB),保留核心语义信息 [15][17] - 关键技术创新包括:自动化标注流程处理1000万小时AudioVerse数据、统一音频分词器、DualFFN架构(保留91%原始训练速度) [26] 模型架构与训练 - 沿用文本模型的"system-user-assistant"交互框架,通过多轮指令控制实现复杂语音任务(如带情感的角色对话) [8][11] - 语音信号通过离散化处理:每100毫秒片段匹配45个声学模板,1秒音频用24个token表示(64k词表) [15] - 训练采用生成模型与理解模型协同进化策略,两者输入输出互逆形成闭环训练系统 [22] - 数据来源规避版权风险,采购合规数据或清洗公开数据(1亿小时原始素材筛选出1000万小时有效数据) [19] 应用场景拓展 - 支持多语种自然对话生成、语调适配、声音克隆哼唱、语音与背景音乐同步生成等复合功能 [6] - 突破传统TTS局限,实现带场景理解的情感语音合成(如根据角色性格生成吵架对话) [11] - 语音理解方面可分析说话者性别年龄、场景类型(室内/室外)、交互状态(教学/争吵)等上下文信息 [12] - 低延迟交互能力支持实时语音聊天,实现接近人类对话的流畅体验 [13] 行业影响 - 开创性验证"文本+语音"多模态统一建模路径,打破传统单任务语音模型局限 [10][13] - 演示大语言模型通过数据扩展(1000万小时音频)实现能力边界突破的scaling law应用 [13][19] - 技术路线具有可扩展性,相同框架可延伸至音乐生成、环境音分析等更广泛音频领域 [11][12]
Nature:Meta公司开发非侵入式神经运动接口,实现丝滑人机交互
生物世界· 2025-07-24 07:31
人机交互技术革新 - Meta公司现实实验室研发了一款手腕佩戴装置,可通过手写动作实现人机交互,无需个性化校准或侵入性手术[3] - 该装置将手腕肌肉电信号转换为计算机指令,显著提升交互流畅度和可及性规模[3] 技术原理与性能 - 研究团队基于数千名受试者数据开发高灵敏度手环,结合深度学习构建泛型解码模型,性能遵循尺度定律(随模型规模和数据量提升)[5] - 装置通过蓝牙实时识别手势,支持虚拟导航和文本输入(每分钟20.9个单词,手机键盘平均36词/分钟)[6] - 个性化数据可进一步优化解码精度,为生物信号解码器广泛应用提供方向[5] 应用场景与数据共享 - 神经运动手环特别适用于行动受限群体(如肌无力、瘫痪患者),改善其计算机交互能力[8] - 团队公开了包含300名受试者、超100小时表面肌电信号记录的数据库,推动sEMG领域研究[9] 学术成果发布 - 研究成果发表于Nature期刊,标题为《A generic non-invasive neuromotor interface for human-computer interaction》[2][10]
突发!美科技巨头解散上海AI研究院,首席科学家发声
是说芯语· 2025-07-23 09:38
AWS亚马逊云科技上海AI研究院解散事件 - AWS亚马逊云科技上海AI研究院于7月22日正式解散 这是AWS最后一个海外研究院 [1] - 公司回应称解散决定基于对组织、发展重点及未来战略方向的评估 目的是优化资源并持续投资创新 [1] - 解散决定以内部通知形式突然传达 团队措手不及 [2] - 研究院核心团队完整 王敏捷表示希望与本土团队合作开发世界级AI产品 [3] 研究院历史与成就 - 研究院成立于2018年世界人工智能大会期间 是AWS在亚太地区首个AI研究机构 [5] - 初期聚焦深度学习和自然语言处理 后拓展至图神经网络和智能推荐系统等前沿领域 [5] - 开发的Deep Graph Library(DGL)成为全球图神经网络领域标杆开源项目 为亚马逊电商业务创造显著价值 [5] - 累计发表论文超90篇 覆盖机器学习顶会 与卡内基梅隆大学、复旦大学等全球高校建立合作网络 [5] 员工影响与行业趋势 - 员工安置方案尚未披露 部分员工已被国内科技企业接洽 [4] - 团队在AI Agent、图神经网络等领域经验或加速本土技术突破 [4] - 2025年以来跨国科技巨头在华研发收缩成趋势 IBM关闭运营32年的中国研发中心裁员约1800人 [7] - 微软迁移上海AI实验室数百名专家至美澳等地 英特尔和高通缩减在华5G与AI芯片投资转向东南亚 [7] 院长观点与技术背景 - 首任院长张峥是开源深度学习平台MXNet和DGL的共同创始人 [6] - 张峥曾强调AI发展需兼顾创新与伦理 指出技术对齐是关键挑战 [6] - 认为ChatGPT等生成式AI的崛起标志着"世界模型"的初步形成 [6]
地平线的“无人区”突围
华尔街见闻· 2025-07-22 12:06
作者 | 周智宇 这个"智驾基带论",不仅是对当前行业主流信仰的直接挑战,更是余凯一以贯之的"反共识"哲学的集中体现。 如今汽车行业里每一个参与者也都需要重新思考一个根本性问题:在智能汽车的下半场,究竟什么样的产业形态和商业模式,才更具生命力?是赢家通吃 的"垂直帝国",还是专业分工的"开放联盟"?地平线和它的"反共识"盟友们所走的这条路,其最终的成败,将为这个问题的答案写下至关重要的一笔。 从边缘到牌桌上 当下的智能汽车行业,一个词被奉为圭臬——"灵魂"。 编辑 | 张晓玲 2025年的中国汽车市场,智能化"军备竞赛"已达白热化,一个观念被所有头部玩家奉为圭臬:智能驾驶是汽车的"灵魂",必须"全栈自研",牢牢掌握在自己 手中。从新势力到科技巨头,无数企业耗费百亿重金,只为在这场"灵魂之战"中占据高地。 然而,地平线创始人余凯,一位科学家出身的"闯入者",却为这场狂热的豪赌提出了一个截然相反的"反共识"预言。 他在近期的一次采访中表示,今天被车企视为"灵魂"和核心壁垒的智能驾驶,终将演变成一个标准化的"功能价值"产品,如同智能手机中人人使用却无人自 研的通信"基带"。在他看来,绝大多数车企未来都将放弃自研智驾 ...
Cell子刊:上海交大孙加源/熊红凯/戴文睿团队开发肺病诊断AI系统,准确率媲美专家
生物世界· 2025-07-22 07:02
胸腔内淋巴结肿大的临床挑战 - 胸腔内淋巴结肿大是肺科常见难题,表现为纵隔和肺门淋巴结异常增大,最常见恶性病因是肺癌[2] - 2022年全球新增肺癌病例约250万例,死亡约180万例,肺癌是世界第一大癌症和癌症死亡首要原因[2] - 除肺癌外,淋巴瘤、肺外肿瘤转移、结节病、结核病等良恶性疾病均可表现为胸腔内淋巴结肿大[2] AI-CEMA系统的技术突破 - 上海交大团队开发深度学习系统AI-CEMA,基于CP-EBUS多模态视频实现胸腔内淋巴结肿大诊断,准确率媲美专家[3] - 系统通过1006个淋巴结数据训练,在267个淋巴结的前瞻性多中心研究中验证,AUC达0.8490(专家AUC=0.7847)[5] - 成功迁移应用于肺部病变诊断任务,取得0.8192的AUC值[5] AI-CEMA的临床价值 - 实现胸腔内淋巴结肿大的无创诊断,诊断性能达到专家水平[6] - 提供自动化、无创且专家级的诊断方案,在胸腔内淋巴结肿大和肺部病变诊断中展现巨大潜力[8]
十年六万引,BatchNorm 封神,ICML 授予时间检验奖
36氪· 2025-07-17 08:52
论文获奖与影响力 - 论文《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》获ICML 2025"时间检验奖",表彰其十年间对深度学习领域的深远影响[1][3] - 论文引用量超6万次,为同时代被引用最多的深度学习文献之一[6][7] - BatchNorm成为神经网络构建的默认组件,被广泛应用于卷积层和全连接层后[7][8] 技术原理与创新 - 提出"内部协变量偏移"概念,描述神经网络训练中因参数更新导致输入数据分布变化的问题[12] - 通过小批量数据归一化(均值为0、方差为1)并引入可学习参数gamma和beta,稳定网络训练[15][17] - 使模型训练速度提升14倍(实验数据),降低对学习率和初始化的敏感性[7][20] 行业应用效果 - 在ImageNet分类任务中实现4.82% top-5错误率,超越人类评分准确率[7] - 替代Dropout起到正则化作用,减少过拟合现象[20] - 推动上百层深度网络的训练可行性,成为模型架构设计的基础组件[23][26] 后续发展与理论争议 - 激发层归一化、实例归一化等衍生技术的出现,形成归一化技术家族[25] - 理论解释从"减少协变量偏移"转向"平滑损失函数曲面"的优化视角[21] - 持续保持最广泛应用地位,成为深度学习工程实践的标准工具[26][27]
一篇被证明“理论有误”的论文,拿下了ICML2025时间检验奖
猿大侠· 2025-07-17 03:11
深度学习技术突破 - Batch Normalization论文荣获ICML 2025时间检验奖,引用量超过6万次,成为深度学习发展史上的里程碑式突破[1][2] - 该技术极大地推动了深层神经网络的训练和应用,使深度学习从小规模实验走向大规模实用化和可靠性[3] 技术原理与创新 - BatchNorm通过标准化隐藏层数据分布(均值为0、方差为1)解决"内部协变量偏移"问题,并引入可学习参数γ和β保持网络表达能力[8][12] - 实验显示使用BN后训练步数仅需原来的1/14即可达到相同精度,并在ImageNet分类任务上超越人类评估者准确率[13] 行业应用与影响 - 在BatchNorm出现前,训练深度超过几十层的网络非常困难,而ResNet等模型结合BN技术后使训练上百甚至上千层的超深度网络成为现实[16][17] - 后续几乎所有主流卷积神经网络(如ResNet, DenseNet, Inception)和其他类型模型都广泛采用BatchNorm[18] 理论发展与争议 - 2018年MIT研究挑战BN核心理论,发现其实际作用是通过平滑Optimization Landscape使梯度行为更稳定,而非解决内部协变量偏移[22][23][24] - 2022年新研究从几何视角提出BN是一种无监督学习技术,能主动适应数据内在结构并提升模型泛化能力[25][26][29] 作者动态与行业布局 - 两位作者Christian Szegedy和Sergey Ioffe先后加入马斯克团队xAI,参与开发Grok 4等产品[30][31] - Christian Szegedy后加入AI初创公司Morph Labs担任首席科学家,目标为实现"可验证的超级智能"[32][33]