Workflow
AI科技大本营
icon
搜索文档
小红书技术专家解密语音识别与推荐算法,干货满满|ML Summit 2025
AI科技大本营· 2025-03-24 08:39
2025全球机器学习技术大会 - 大会将于4月18-19日在上海虹桥西郊庄园丽笙大酒店举行,汇聚50余位学术界和工业界顶尖专家,聚焦智能体、联邦学习、多模态大模型等AI技术实践 [2] - 小红书将派出两位技术负责人分享语音识别与推荐算法领域的最新研究成果 [2] 小红书语音技术突破 - 音频技术负责人解奉龙博士将分享基于大模型的语音/音乐技术综合解决方案FireRed,其团队开发的FireRedASR在字错误率(CER)上较SOTA模型Seed-ASR降低8.4% [4][6] - FireRedASR-LLM在混合场景测试集(含短视频、直播等)上,CER较行业领先服务商降低23.7%~40.0% [6] - FireRed系列技术包括:支持zero-shot语音克隆的TTS2.0、超低延时对话系统FireRedChat、小红书风格音乐生成方案FireRedMusic [9] 小红书推荐算法创新 - 推荐算法负责人严岭将探讨大模型在社区推荐场景的应用,包括利用LLM提升内容理解能力、解决冷启动问题及打破信息茧房 [8][11] - 严岭团队重点研究跨业务流量调控、基于人群的推荐系统,并强调通过LLM推理能力实现可解释的兴趣探索 [8][11] 大会附加价值 - 大会设置AI创新展区,展示产业链企业技术产品方案,目前展位所剩不多 [12] - 活动定位为AI生态融合与行业协同创新平台,推动技术走向更广阔应用场景 [12]
杨立昆“砸场”英伟达:不太认同黄仁勋,目前大模型的推理方式根本是错的,token 不是表示物理世界的正确方式|GTC 2025
AI科技大本营· 2025-03-21 06:35
英伟达GTC 2025大会核心观点 - 杨立昆从视觉派角度否定当前主流语言派AI技术路线 认为token不是表示物理世界的正确方式 [8][9] - 杨立昆提出联合嵌入预测架构(JEPA)作为替代方案 强调需要在抽象表示空间而非像素层面进行预测 [14][15] - 杨立昆预测高级机器智能(AMI)可能在十年内实现 但当前大模型扩展路线是错误的 [19][20] AI技术发展方向 - 当前大语言模型已进入产业优化阶段 未来重点应转向机器理解物理世界、持久记忆、推理规划四大方向 [10][11][12] - 世界模型概念被提出 认为人类通过内部物理世界模型处理现实 未来AI需要完全不同架构 [13] - 系统1(快思考)与系统2(慢思考)的区别被强调 当前大模型仅实现系统1水平 [36][37] 硬件与计算技术 - 神经形态硬件和光学计算近期难有突破 量子计算应用前景受质疑 [39][43] - 内存计算技术在边缘设备如智能眼镜上有应用潜力 [40][41] - 视网膜处理机制被作为高效感知系统的生物参考 [43] 开源与创新生态 - Llama系列模型下载量超10亿次 开源模式推动行业创新 [30] - 全球分布式训练开源基础模型被认为是未来趋势 [32] - 中国科学家贡献被肯定 DeepSeek和ResNet案例显示创新可来自任何地方 [8][27] AI应用前景 - AI在医疗影像、自动驾驶等感知领域已产生实际价值 [20] - 科学研究和药物设计是AI最具潜力的应用方向 [20] - AI助手多样化发展需要开源平台支持 未来人机关系将转向管理者-虚拟员工模式 [32][58] 技术挑战与突破 - 残差连接等工程技巧对深度学习发展至关重要 [51] - 为JEPA架构寻找有效"配方"是当前主要挑战 [56] - 视频预测任务显示联合嵌入架构相比重建方法更具优势 [45]
阶跃星辰 Tech Fellow 段楠:Step-Video 系列模型的关键技术解读
AI科技大本营· 2025-03-21 06:35
2025全球机器学习技术大会 - 大会将于4月18-19日在上海虹桥西郊庄园丽笙大酒店举行 设有12大技术专题 汇聚50+位院士 IEEE Fellow等顶尖专家 [2] - 专题涵盖智能体 联邦学习 多模态大模型 强化学习等前沿议题 [2] - 大会设置AI企业创新展区 展示产业链技术产品方案 展位所剩不多 [9][11] 段楠博士技术分享 - 阶跃星辰Tech Fellow段楠博士将在「多模态大模型前沿」专场分享《视频生成基础模型进展 挑战和未来》 [2] - 段楠博士曾任微软亚洲研究院资深首席研究员12年 专注自然语言处理 多模态基础模型等领域 [4] - 分享将围绕开源Step-Video系列模型 剖析文生视频 图生视频等任务的最新进展 [6] 阶跃星辰开源模型 - Step-Video-T2V为300亿参数视频生成模型 支持8-10秒540P视频 覆盖11类内容生成需求 中英双语输入 [5][6] - Step-Audio是首款工业级开源语音交互模型 支持多语种实时高保真生成 适用于客服 翻译等场景 [5][6] - 两款模型在多项指标上超越现有开源模型 已应用于自动驾驶 影视创作等领域 [6] 行业影响与参与 - 大会为科研学者 技术专家提供前沿洞见 推动AI技术变革与应用落地 [8] - 活动旨在促进AI生态融合 探索产业升级路径 拓展应用场景 [9][11]
3小时复刻传奇,OpenManus一作梁新兵:通用Agent的构建与赋能
AI科技大本营· 2025-03-20 09:07
2025全球机器学习技术大会(ML-Summit 2025) - 大会将于4月18-19日在上海虹桥西郊庄园丽笙大酒店举行 [2] - 汇聚50余位重磅嘉宾包括院士、IEEE Fellow及企业技术专家 [2] - 专题涵盖智能体、联邦学习、多模态大模型等前沿技术领域 [2] - 设置AI创新展区展示产业链优秀企业技术方案 [9][11] OpenManus项目 - 开源框架采用模块化架构结合Computer Use和MCP执行机制 [7] - 突破传统function calling模式实现智能任务拆解与工具协同 [7] - 具备自主规划能力与策略自适应特性 [7] - 已在数据分析、信息处理等场景实现落地应用 [7] 梁新兵技术贡献 - MetaGPT核心贡献者主导OpenManus项目开发 [5][6] - 团队仅用3小时完成对Manus的复刻并在GitHub走红 [5] - 研究成果包括Data Interpreter/Self-Supervised Prompt Optimization论文 [5] - 将分享通用Agent构建的技术创新与实践经验 [7]
黄仁勋年度演讲来了,Scaling Law失效只是假象,推理需求暴涨100倍,AI模型优化迎来新挑战|GTC 2025
AI科技大本营· 2025-03-19 01:49
演讲核心观点 - 英伟达推出下一代Blackwell Ultra芯片,提升AI训练和推理能力,并规划至2028年的芯片路线图[7][11][16] - 公司提出"AI工厂"概念,强调数据中心将从检索计算转向生成计算,预计到2028年数据中心资本支出超1万亿美元[43][69][71] - 发布个人AI超级计算机DGX Spark和DGX Station,面向模型微调与推理市场[19][21] - 布局量子计算领域,设立加速量子研究中心(NVAQC),推动量子计算与AI融合[23][25] - 推出人形机器人基础模型Isaac GR00T N1和开源物理引擎Newton,宣布"通用机器人时代已经到来"[31][33][165] 芯片与技术发布 - Blackwell Ultra芯片包含GB300 NVL72和HGX B300 NVL16两个版本,相比前代Hopper GPU,大语言模型推理速度提升11倍,算力增加7倍,内存容量扩大4倍[8] - 公布未来芯片路线图:2026年推出Rubin架构,2027年更新Rubin Ultra,2028年推出Feynman架构[11][14][16] - Rubin性能可达Hopper的900倍,Blackwell是Hopper的68倍[16] - 推出基于硅光子技术的Spectrum-X和Quantum-X交换机,能效提升3.5倍,信号稳定性提高63倍[28][30] AI与计算趋势 - 计算领域迎来拐点,AI增长加速,推理所需计算量比预期多100倍[43][63] - 从感知AI、生成式AI到自主式AI和物理AI的演进,每个阶段都带来新的市场机会[56] - 推出分布式推理服务库NVIDIA Dynamo,作为AI工厂的操作系统,并宣布开源[111][113] - 强调合成数据的重要性,需要生成万亿级token来训练AI模型[67] 行业应用与合作 - 与AWS、谷歌云、微软Azure等云服务商合作,将率先提供Blackwell Ultra实例[12] - 与戴尔、惠普、联想等服务器厂商合作,计划2025年底推出基于Blackwell Ultra的AI基础设施[12] - 与通用汽车(GM)合作构建未来自动驾驶车队,推出自动驾驶安全系统NVIDIA Halos[82][84] - 与思科、T-Mobile合作构建AI边缘计算无线网络堆栈[80] 机器人技术 - Isaac GR00T N1是全球首个开放且完全可定制的人形机器人基础模型,配套Isaac GR00T蓝图技术生成合成数据[31] - 开源物理引擎Newton由Google DeepMind和迪士尼共同开发,专为机器人设计[33] - 机器人Blue亮相,由Newton物理引擎驱动,展示具身智能技术进展[35][171] - 预测物理AI和机器人学将成为最大行业之一,机器人将作为数字工作者与人类并肩工作[148][165]
基辛格遗世之作:AI 吞噬世界下的人类
AI科技大本营· 2025-03-19 01:49
人工智能与人类价值的定义 - 随着机器具备更多人类特质,人类与机器的界限将变得模糊,需要明确区分人类与人工智能的定义[3] - 建议通过定义"尊严"作为人类的核心属性,为人类价值设定底线而非上限[3] - 康德的尊严概念强调人类作为道德推理主体的固有价值,人工智能是否能满足这一要求尚待探讨[3] - 人类需要重新界定自身属性,包括能动性、好奇心和自由等特质,以确保在机器学习过程中传递适当的人类概念[3] 人工智能的局限性 - 人工智能本身可能无法拥有尊严,因为它们不具备出生、死亡、不安全感或恐惧等人类特质[4] - 即使未来人工智能能展现个性、情感等特质,从道德意义上讲它们仍非真实人类,类似于文学角色[4] - 人工智能无法真正体验人类的生理感受或做出全新选择,它们受限于代码和硬件构成[4] 人机协作的未来方向 - 需要在战略层面以人类道德为基础进行控制,同时将战术控制权交给更高效的人工智能系统[5] - 过度依赖不可扩展的控制形式可能助长不安全人工智能的发展,建议将人类融入人工智能团队内部工作[5] - 开发人性化人工智能是首要任务,但也需探索"人造人类"的潜在作用,前提是出于个人选择[5] - 在人工智能时代,需要在"自我设计"与"与创造物相一致"之间找到平衡,避免陷入被动或限制潜能[5] - 理想未来是人类智能与机器智能相互赋能,这需要双方充分了解对方,并持续定义和共享人类概念[5]
诺奖采访深度学习教父辛顿:最快五年内 AI 有 50% 概率超越人类,任何说“一切都会好起来”的人都是疯子
AI科技大本营· 2025-03-18 03:29
作者 | 诺贝尔奖官方 采访中,辛顿表达了对人工智能未来发展的担忧。他认为, 人工智能可能在短短五年内超越人类智慧 ,并就此可能引发的社会风险,例如大规模失业 和虚假信息等问题,提出了警告。更令人深思的是,辛顿暗示,人工智能的潜在风险可能远超我们目前的认知。 编译 | 王启隆 出品丨AI 科技大本营(ID:rgznai100) 杰弗里·辛顿(Geoffrey Hinton),这位被誉为"人工智能教父"的科学家,于去年获得了诺贝尔物理学奖,引起了全网一阵讨论。 最近辛顿接受了诺贝尔奖官方的专访,他回忆起接到诺奖电话时的趣事时,第一反应竟然是疑惑,因为自己研究的并非物理学(这点和全网的疑惑倒是 一样)。 作为深度学习领域的先驱,辛顿最广为人知的成就是神经网络。但很多人其实不知道, 他曾说过自己这辈子"最自豪"也是"最失败"的成就,其实是与 特里·塞诺夫斯基(Terry Sejnowski)共同提出了玻尔兹曼机理论。 详见: 《 深度学习之父 Hinton 万字访谈录:中美 AI 竞赛没有退路可言 》 他们的工作,以及另一位诺奖物理学奖得主约翰·霍普菲尔德(John Hopfield)等神经网络先驱的早期研究,共同 ...
全栈自研,理想发布下一代自动驾驶架构 MindVLA
AI科技大本营· 2025-03-18 03:29
核心观点 - 理想汽车发布下一代自动驾驶架构MindVLA,融合视觉、语言和行为智能,赋予车辆3D空间理解、逻辑推理和行为生成能力,实现从运输工具到智能司机的转变[1][13][15] - MindVLA采用3D高斯表示、MoE混合专家架构LLM基座模型、Diffusion轨迹优化等关键技术,平衡模型参数规模与实时推理性能[1][4][7] - 该架构基于全栈自研,深度融合空间、语言及行为智能,通过端到端+VLM双系统架构实现感知、思考和适应环境的能力[1][3] 技术架构 - 采用3D高斯作为中间表征,提升多粒度、多尺度3D几何表达能力,利用海量数据自监督训练提升下游任务性能[4] - 自研MoE混合专家架构LLM基座模型,引入稀疏注意力实现模型稀疏化,加入3D数据训练使模型具备空间理解和推理能力[7] - 通过Diffusion将Action Token解码为优化轨迹,采用常微分方程采样器实现2-3步完成高质量轨迹生成,结合RLHF微调提升安全下限[7] 功能特性 - 实现"听得懂":支持语音指令改变路线和行为,如自主寻找超市或调整行驶速度[13] - 实现"看得见":具备通识能力识别商业招牌,通过环境照片定位用户位置[15] - 实现"找得到":自主漫游寻找车位,不依赖地图信息完成复杂空间推理[15] 性能突破 - 3D GS训练速度提升至7倍以上,显著优化场景重建与生成效率[10] - 采用并行解码技术和投机推理,充分发挥NVIDIA Drive AGX性能,实现实时推理[7] - 通过世界模型构建仿真环境,完成大规模闭环强化学习,实现"从错误中学习"[10] 行业影响 - 重新定义自动驾驶,如同iPhone 4重新定义手机,将汽车转变为能与用户沟通的智能体[15] - 探索物理世界与数字世界结合范式,未来有望赋能多个行业发展[1][15] - 展示跨场景适应性,不仅在驾驶场景优异,在室内环境也表现出延展性[12]