机器之心

搜索文档
英伟达通用机器人芯片来了:AI算力提升7.5倍,宇树、银河通用已搭载
机器之心· 2025-08-26 04:11
新一代机器人芯片Jetson Thor发布 - 英伟达正式发布新一代机器人专用芯片Jetson Thor 旨在提升算力以适配具身智能算法并支持人形机器人等多种形态[4] - 与上一代Jetson Orin相比 Jetson Thor的AI计算能力提升7.5倍 最高达2070 FP4 TFLOPS 功耗130W 能效提升3.5倍[4] - 内存容量提升两倍至128G 显存带宽为273GB/s[4] 技术规格与性能提升 - Jetson T5000配置包括2070 TFLOPS FP4稀疏性能 搭载96个第五代Tensor Core的2560核Blackwell架构GPU[8] - 配备14核Arm Neoverse-V3AE 64位CPU 每个核心1MB二级缓存和16MB共享系统三级缓存[8] - 支持多实例GPU技术 具有10个TPC 网络配置为4x25 GbE[8] - 通过FP4精度与推测解码优化 性能有望进一步提升[11] 软件生态与模型支持 - 配套工具满足实时应用低延迟与高性能需求 支持所有主流生成式AI框架与推理模型[9] - 支持模型包括Cosmos Reason DeepSeek Llama Gemini Qwen等通用模型及Isaac GR00T N1.5等机器人专用模型[9] - 支持完整NVIDIA AI软件栈 覆盖Isaac Metropolis Holoscan等平台[11] 产品定位与市场策略 - 专为生成式AI模型推理打造 支持大型transformer模型/VLM/VLA在端侧实时运行 降低云端依赖[8] - 产品包含开发者套件与量产模组 开发套件起售价3499美元(约2.5万元人民币) 量产模组千片以上单价2999美元(约2.14万元)[12] - 在英伟达计算解决方案中 DGX负责云端训练 Omniverse负责仿真 AGX负责端侧运行 Jetson Thor强化端侧算力[12] 行业合作与应用前景 - 宇树科技 银河通用机器人等国内顶尖公司宣布首发搭载Jetson Thor芯片[14] - 联影医疗 万集科技 优必选等公司宣布首批使用新一代端侧算力[15] - 硬件合作伙伴研华科技 米文动力等正在打造成套系统 传感器企业亚德诺 英飞凌等构建相应组件[15] - 面向自动驾驶汽车的Nvidia Drive AGX Thor即将上市 现已开放预订 预计9月开始交付[16] 技术研究与战略布局 - 英伟达研究人员提出Jet-Nemotron混合架构语言模型 性能优于Qwen3 Gemma3等模型 在H100 GPU上生成吞吐量提高53.6倍[16][18] - 公司40%收入来自Meta 微软 谷歌 亚马逊等科技巨头 正押注机器人 自动驾驶等万亿美元级市场[18] - 机器人技术与AI结合代表数万亿美元增长机会 公司通过基础设施计算机和软件为整个行业提供支持[19]
清华辍学、斯坦福睡地板,华人小哥用AI社交挑战Meta,融资数千万美元
机器之心· 2025-08-26 04:11
公司背景 - 公司名称为Intent Inc 由Brandon Chen于2022年9月共同创立并担任CEO [22] - 公司已获得数千万美元融资 [4] - 创始人曾联合创立游戏工作室Ottor Game 融资约100万美元 并获得Newgen Capital和真格基金支持 [24] - 创始人拥有清华大学肄业背景 曾获生物奥赛金牌 研究方向包括DNA折纸 [27] 产品特性 - 产品定位为AI原生即时通讯工具 专注于将意图无缝转化为结果 [23] - 核心功能包括智能图片处理:能自动识别用户意图并将多张照片合成为无痕迹的完整图片 [4][6][8] - 集成旅行规划功能:自动识别聊天记录中的地址信息 实时计算车程距离(示例显示7.4英里/15分钟)并自动比价打车服务 [13][16] - 内置语音转文本功能:可自动转录语音消息为文字内容 [14] - 支持协同购物:在聊天界面直接生成共享购物清单 避免遗漏采购项 [17][19] 技术架构 - 采用大模型技术实现自动执行功能 消除协作障碍 [23] - 实现多模态交互:支持文本、图片、语音和地理位置数据的综合处理 [14][15][16] 市场定位 - 产品对标微信式社交软件 但强调AI原生特性与自动化协作优势 [4][21] - 目前通过官网https://intent.app/开放用户体验申请 [21] 创始人经历 - 创始人曾于斯坦福大学期间意外上线产品并获取2600名用户 [28] - 拥有跨领域创业经历:从生物学研究转向社交软件开发 [3][27]
视频「缺陷」变安全优势:蚂蚁数科新突破,主动式视频验证系统RollingEvidence
机器之心· 2025-08-26 04:11
技术突破与学术认可 - 蚂蚁数科AIoT技术团队关于主动式可信视频取证系统的论文被网络安全顶会USENIX Security 2025录用 录用率为17.1% [2] - 该系统利用相机卷帘门效应嵌入高维物理水印 结合AI技术与概率模型验证 显著提升检测准确率和安全防护能力 [2][4] 技术原理与创新设计 - 创新性利用CMOS摄像头卷帘快门效应的时域混叠特性 通过动态调节LED设备产生变频闪烁信号 以条纹模式嵌入视频帧 [6][9][12] - 采用带分隔频率的频移键控技术 使用16种频率构建4096种探针组合 实现紧凑的高维探针定义方案 [15] - 工作频率需保持在1/2Te以下以维持高对比度 分隔频率可提供足够强度(∝ 2Te/3)和更高对比度(∝ Te/3) [19][20] - 采用自回归随机编码模式 通过指数最小采样法生成随机序列 确保帧间关联性和加密密钥绑定 [23][24] 系统性能与验证效果 - 在静态场景检测中准确率达99.32%-99.84% 动态场景达99.31%-99.83% 总误拒率0.04% 误接受率0.53% [38] - 针对深度伪造攻击(SimSwap/E4S/LatentSync/SadTalker)的检测准确率均达100% 误拒率和误接受率均为0% [40][41] - 支持多品牌移动设备: iPhone 12(准确率94.52%) 小米15 Pro(96.43%) 华为Mate 60 Pro(97.55%) [42] - 去条纹视频生成效果优异 条纹提取精度通过MSE评估 去条纹效果通过SSIM衡量 [44] 应用场景与系统优势 - 可广泛应用于司法审判 公共安全 公证认证 身份核验及司法取证等关键场景 [6][46] - 系统能生成去条纹化视频版本 确保画面清晰可供人工查看 且无多帧持续条纹遮挡 [28] - 通过二阶段工作流程实现批量解码 采用深度神经网络提取条纹特征并解码探针信息 [27][28][30]
热议!DeepSeek V3.1惊现神秘「极」字Bug,模型故障了?
机器之心· 2025-08-26 04:11
DeepSeek-V3.1模型异常行为事件 - DeepSeek-V3.1模型在输出中随机插入"极"字 该问题在多种任务中出现 包括代码生成和物理试卷整理 甚至在自我修复过程中也无法避免 [1][3][5] - 异常现象在官方网页/API和第三方平台(如火山引擎)均被复现 第三方API复现概率更高 官方API因支持多token预测(MTP)可能部分掩盖问题 [3][5][11] - 类似问题在早期版本(如R1 0528和V3-0324)中也有出现 R1版本会插入"极客园"字符串 V3-0324版本会输出"极速赛车开奖直播"字符串 [7][8] 用户测试与社区反馈 - 知乎用户Fun10165在整理物理试卷时首次发现该问题 后续在Trae平台测试中确认 [3][4] - Reddit用户u/notdba报告模型在贪婪解码中优先输出三种"极"相关token(如extreme/id:15075、极/id:2577、極/id:16411) 这些token也常作为第二或第三选择潜伏 [9][10][12] - 多语言混用问题被报告 在中文译俄语任务中 模型会混合英文和中文词汇 异常比例波动在0%-5%之间 且跨平台(如OpenRouter)一致出现 [14] 技术分析与原因推测 - 数据污染被广泛认为是根本原因 可能源于训练数据清洗不彻底 特别是合成数据或预训练数据中混入"极长的数组"等异常模式 [15][16] - Token混淆假设被提出 "极"(token ID 2577)与省略号"..."(token ID 2576)可能因ID接近被模型错误关联 [13] - 多token预测(MTP)机制可能缓解问题 但不支持MTP的推理堆栈(如llama.cpp)会使异常更明显 [11] 行业影响与警示 - 事件暴露AI开发中数据质量的基础性作用 高性能追求需以数据清洁度为前提 [16] - 同类问题在早期版本低频出现但未引起关注 此次高频异常引发社区对模型可靠性的广泛讨论 [7][16]
ChatGPT到底学了多少「污言秽语」?清华团队首提大语言模型中文语料污染治理技术
机器之心· 2025-08-25 23:38
中文词表污染问题研究 - 清华大学、南洋理工大学和蚂蚁集团的研究团队发现GPT-4o/o1/o3/4.5/4.1/o4-mini的中文词表污染率高达46.6%,包含大量色情和赌博相关词元如「波*野结衣」和「大发时时彩」[3][6] - 研究团队对OpenAI近期发布的GPT-5和GPT-oss的词表进行分析,发现其中文token没有变化[4] - 中文污染词定义为存在于LLM词表中、从主流中文语言学角度编译不合法、不常见、不常用内容的中文词(多于2个字)[12] 污染词分类与危害 - 中文污染词分为五类:成人内容(如「波*野结衣」)、在线赌博(如「大发彩票网」)、在线游戏(如「传奇私服」)、在线视频(如「在线观看」)和奇怪内容(如「给主人留下些什么吧」)[13][14] - 专家标注团队对ChatGPT模型的中文长词(1659个)进行标注,发现污染词有773个(46.6%),其中成人内容污染词最多(219个,13.2%)[13] - 输入中文污染词会显著降低ChatGPT的回答质量,在解释和重复任务上有约50%的性能损失(例如GPT-4o在解释任务上性能下降44.3%,在重复任务上下降41.8%)[17][18] 污染检测与自动化识别 - 研究团队微调GLM-4-32B构建自动化中文污染词识别模型,通过设计网络检索机制(返回10条Google检索信息)达到97.3%的识别正确率[23] - 识别模型对23个主流LLM的9个词表进行检测,发现中文污染词普遍存在,其中成人内容、在线赌博和奇怪内容占大多数[23] - 上一代ChatGPT模型(GPT-4/4-turbo/3.5)包含很少表征多个中文字的token,但不包括中文污染词[24] 污染追踪与数据治理 - 研究团队通过LLM词表反向估计训练数据污染情况,结合Zipf分布和上下确界理论拟合词ID-词频的经验估计,为海量数据治理提供轻量化方案[29][30][31] - 估计结果显示「波*野结衣」相关页面在GPT-4o中文训练语料占比高达0.5%,是中文常用词「您好」的2.6倍[35] - 在无污染开源数据集上按0.5%比例混合「波*野结衣」相关页面,能准确复现4个相关词在GPT-4o词表中的词ID[35][40] 污染数据的潜在价值 - 哈佛大学ICML 2025文章指出预训练中适量的污染数据可作为对齐模型的催化剂,当有害数据适量时(10%),有害表征更容易被区分[37][39] - 实验显示按0-25%不同有害数据比例预训练Olmo-1B模型,适量(10%)有害数据预训练的模型在应用抑制方法后有害性最低,甚至低于不包含有害数据的预训练模型[39] 研究影响与应用 - 研究团队于2025年5月29日在清华大学基础模型学术年会上首次分享,并提出针对10T级大语言模型训练语料库的污染数据治理技术[8] - 央视于2025年8月17日新闻中指出AI数据被污染存在风险[9] - 该研究为LLM海量训练语料治理提供轻量化解决方案,项目网站为https://pollutedtokens.site/[6][7][41]
刚刚,马斯克将OpenAI和苹果告上法庭:指控ChatGPT垄断iPhone,自家Grok被打压
机器之心· 2025-08-25 23:38
马斯克对OpenAI和苹果的垄断指控 - xAI指控OpenAI和苹果通过协议将ChatGPT内置到iPhone中 扼杀AI行业竞争[4] - 苹果App Store被指控降低竞品聊天机器人和超级应用优先级 包括Grok和X[4] - 双方协议使iPhone用户没有理由下载第三方AI应用 并强迫使用ChatGPT作为默认聊天机器人[8] App Store排名争议 - Grok拥有100万条评论且评分达4.9 但未被列入任何排名[2] - ChatGPT在免费App榜单排名首位 而xAI和X分别排第31和36位[5] - Grok和X未出现在"必备应用"栏目 该栏目据称在2025年8月24日仅ChatGPT为AI聊天机器人(实际搜索未出现)[9] 市场垄断与数据优势 - iPhone集成ChatGPT使OpenAI获得可能数十亿条来自数亿iPhone用户的提示[12] - 苹果智能手机市场占有率构成垄断 为OpenAI建立护城河[12] - 苹果被指控操纵排名偏袒OpenAI 使其他AI公司不可能在App Store排第一[12] 双方回应立场 - OpenAI发言人称诉讼符合马斯克一贯的骚扰模式[12] - 苹果声称App Store运营公平且不带偏见[12] - 马斯克曾威胁采取法律行动 指控苹果违规垄断[12]
唯快不破:上海AI Lab 82页综述带你感受LLM高效架构的魅力
机器之心· 2025-08-25 09:10
大语言模型效率挑战与架构演进 - 大语言模型(LLMs)如GPT、Claude、Gemini等在语言理解、生成、代码生成等任务取得突破,但模型规模和数据量快速扩张导致算力和存储资源消耗急剧增加,训练与推理成本居高不下成为应用瓶颈 [2] - Transformer架构的自注意力机制存在O(N²)计算复杂度问题,在长序列任务中成本高昂,FFN部分的密集MLP层也面临效率问题 [3] - 新兴应用场景如RAG、智能体、长链推理和多模态进一步放长了序列需求,加剧了效率与性能之间的矛盾 [3] 高效架构研究综述 - 上海AI Lab联合多家机构总结440余篇论文,形成82页综述论文《Speed Always Wins: A Survey on Efficient Architectures for Large Language Models》,系统梳理LLM高效架构最新进展 [5][7] - 综述将高效架构分为7大类:线性序列建模、稀疏序列建模、高效全注意力、稀疏专家模型、混合模型架构、扩散语言模型和其他模态应用 [6][8] - 研究目标是在算力受限条件下持续推动AI发展,涉及方法类别和代表性论文已形成完整组织架构 [8][10] 线性序列建模技术 - 线性序列建模是研究热点方向,包括Mamba、Lighting Attention、RWKV等代表性工作,通过降低注意力训练和推理复杂度,无需KV Cache开销 [6][11] - 这些方法可概括为统一建模数学形式,通过线性化过程将预训练模型的Softmax Attention架构转为Linear Sequence Modeling架构,实现效率大幅提升 [11] - 具体分为线性注意力、线性RNN、状态空间模型和测试时推理RNN四类,从记忆视角和优化器视角进行统一对比 [12][14][15] - 线性化技术进一步细分为基于微调的线性化和基于蒸馏的线性化 [15] - 硬件高效实现方法包括Blelloch Scan、Chunk-wise Parallel和Recurrent for Inferences三种范式 [17] 稀疏序列建模方法 - 稀疏序列建模利用Attention Map天然稀疏性加速计算,分为静态稀疏注意力、动态稀疏注意力和免训练稀疏注意力三类 [21][24] - 代表性方法包括Global Attention、Window Attention、Dilated Attention等,通过不同稀疏模式降低计算与显存需求 [21][23] 高效全注意力优化 - 高效全注意力在保持完整注意力前提下优化内存访问与KV存储,分为IO-Aware Attention、Grouped Attention、Mixture of Attention和Quantized Attention四类 [22][25] - IO-Aware Attention包含广泛使用的Flash Attention系列,Grouped Attention包含GQA、MLA等全注意力变体 [22][28] 稀疏混合专家系统 - 稀疏混合专家(MoE)已成为语言和多模态大模型架构事实标准,通过对FFN模块改进大幅提升模型容量而不增加计算成本 [26][27] - 分为路由机制、专家架构和MoE转换三个方向,路由机制包括Token-choice和Expert-choice两类 [27][29][31] - 专家结构创新包括共享专家、细粒度专家、零专家、深度路由等 [31][33] - MoE转换通过Split、Copy、Merge等手段构造专家 [33] 混合架构设计 - 混合架构在线性/稀疏注意力和全注意力间取得平衡,分为层间混合和层内混合两种形式,在效率与效果间找到最佳平衡点 [34][35][37] 扩散语言模型进展 - 扩散大语言模型将扩散模型从视觉生成迁移至语言任务,在生成速度上取得大幅进步,分为非自回归扩散LLM、桥接扩散与自回归LLM以及扩展至多模态三类 [38][39][40][42] 多模态应用扩展 - 高效架构已扩展至视觉、音频和多模态领域,以Mamba为代表的线性模型在分类、检测、分割、生成、医疗、自动驾驶等多个视觉任务取得优秀表现 [43][44] - 在音频领域应用于理解、增强与生成任务,多模态领域涵盖理解与统一模型 [43][44] - 应用案例包括InsectMamba、V-MoE、Audio mamba、MaTAV等众多模型 [44]
全球开源大模型,前十五名全是中国的
机器之心· 2025-08-25 09:10
国产开源大模型在Design Arena排行榜的领先表现 - Design Arena排行榜前15名开源AI模型全部来自中国公司[1][3] - 排名第一的DeepSeek-R1-0528模型Elo评分达1332分 胜率68.1% 参战1798场[4] - 智谱GLM-4.5和阿里的Qwen 3 Coder 480B分别以1318分和1318分位列第二、三名 胜率分别为66.4%和66.4%[4] 主要厂商模型分布及性能数据 - 前15名中阿里占6款 DeepSeek占5款 智谱占3款 Kimi占1款[6] - DeepSeek-V3-0324模型Elo评分1299分 胜率63.9% 参战2122场[4] - 阿里Qwen3-30B-A3B模型胜率43.7% 参战1961场 响应时间34.65秒[6] - OpenAI的GPT OSS 120B仅排第16名 Elo评分1150分 胜率42.9%[6] 中国开源生态的规模扩张 - 7月多家厂商在Hugging Face开源33款大模型 包括阿里、智谱、昆仑万维、月之暗面、腾讯、阶跃星辰等[7] - 行业统计显示中国有19个主要开源模型实验室 涵盖DeepSeek、Qwen、Moonshot AI、Zhipu、腾讯混元、小红书RedNote等机构[9] - 开源模型正推动技术进展 改变以往以GPT系列为代表的闭源模型主导格局[9] 行业影响及认知转变 - DeepSeek等开源模型已达到与闭源顶尖模型竞争水平 使应用端公司可聚焦模型调优和应用优化[10] - 开源趋势可能改变AI研究社区发展路径 使最先进模型开源成为必然选择[10] - 国际观察者认为中国AI崛起与数学基础优势相关 东亚人在数学领域已占据主导地位[10]
突破长视频生成瓶颈:南大、TeleAI推出全新AI生成范式MMPL,让创意一镜到底
机器之心· 2025-08-25 06:08
技术突破 - 南京大学联合TeleAI推出长视频自回归生成新范式Macro-from-Micro Planning(MMPL),采用"宏观规划、微观执行"双层生成架构,解决长视频生成中的时域漂移和串行瓶颈问题[3][4][12] - MMPL实现分钟级高质量长视频稳定生成,生成效率显著提升,结合蒸馏加速技术后预览帧率最高可达约32 FPS,接近实时交互体验[5][13] - 在统一测试集上显著优于MAGI、SkyReels、CausVid、Self Forcing等现有方法,在视觉质量、时间一致性和稳定性方面全面领先[15] 技术原理 - 微观规划阶段基于首帧联合预测稀疏关键未来锚点帧(包括早期邻近帧、中部关键帧和末端结束帧),在同一次去噪过程中联合生成,构成片段的"视觉骨架"[20][21][26] - 宏观规划通过分段稀疏连接设计,将各片段末端锚点作为下一段起始条件,使误差累积从T帧级别降低至S段级别(S ≪ T),从根本上缓解长程漂移问题[22][23] - 并行填充阶段所有片段可完全独立生成,支持多GPU并行处理,结合自适应工作负载调度机制实现规划与填充的重叠执行,大幅提升资源利用率[30][31][32] 性能表现 - 支持20秒、30秒乃至1分钟的连贯叙事,片段衔接自然,无明显色彩漂移、闪烁或结构崩坏[19] - 生成整体吞吐量大幅提升,提供最小内存峰值模式和最大吞吐量模式两种运行策略,在内存、延迟与吞吐量之间灵活权衡[32][35][40] - 将长视频生成从"接龙式绘画"转变为"系统性制片",使AI具备从整体出发的规划能力,理解情节推进、协调画面连贯性、控制运动节奏[13][36][37]
超97万:Yoshua Bengio成历史被引用最高学者,何恺明进总榜前五
机器之心· 2025-08-25 06:08
全球顶尖科学家学术影响力排名 - Yoshua Bengio成为全球被引用次数最多的科学家 总被引用量达973,655次 近五年引用量698,008次[1][3] - 排名基于AD Scientific Index平台 涵盖全球2,626,749名科学家 涉及221个国家地区24,576家机构[3] - Bengio的生成对抗网络论文引用量突破100,904次 深度学习论文引用量达100,061次[3] 人工智能领域核心研究者表现 - Geoffrey Hinton排名第二 总被引量952,643次 近五年引用577,970次 占比60.7%[4][6] - Hinton参与的AlexNet论文引用量高达182,853次 标志着深度学习在计算机视觉领域的突破[4][5] - 何恺明排名第五 总被引量735,881次 近五年引用619,578次 ResNet论文引用量达290,239次[8][10] - ResNet被Nature评为21世纪被引量最多论文 引用范围在103,756-254,074次之间[10][11] 跨学科高影响力研究者 - 医学领域Ahmedin Jemal排名第三 总被引量924,788次 近五年引用520,211次 占比56.3%[8] - 数学与生物学交叉领域Eric Lander排名第四 总被引量737,656次 近五年引用247,907次 占比33.6%[8] - Ilya Sutskever排名第七 总被引量671,834次 近五年引用504,890次 ImageNet论文引用量182,853次[11][14][15] 高影响力论文特征分析 - 顶级论文持续产生深远影响 如AlexNet(2012年)和ResNet(2016年)至今仍被广泛引用[5][10] - 计算机视觉领域论文占据主导地位 前10名中包括多篇图像识别和神经网络相关研究[10][11] - 生成对抗网络和注意力机制等基础架构论文引用量显著 如Attention Is All You Need引用范围56,201-150,832次[11][15]