Workflow
世界模型
icon
搜索文档
智源研究院发布“悟界”系列大模型,推动AI迈向物理世界
新京报· 2025-06-06 10:43
智源研究院发布"悟界"系列大模型 - 公司推出"悟界"系列大模型 包括原生多模态世界模型Emu3 脑科学多模态通用基础模型见微Brainμ 跨本体具身大小脑协作框架RoboOS 2 0与具身大脑RoboBrain 2 0以及全原子微观生命模型OpenComplex2 [1][4] - "悟界"模型代表对虚实世界边界的突破 推动人工智能从数字世界迈向物理世界 [3] 大模型技术发展趋势 - 大模型正从大语言模型向原生多模态大模型 世界模型方向演进 目标是让AI感知和理解物理世界 [2] - 提升大语言模型性能的三大路径 强化学习后训练和推理提升 数据合成突破 多模态数据利用 [2] - 多模态数据是文字数据的千万倍以上 目前远未被有效利用 [2] 脑科学多模态模型应用 - Brainμ整合超过100万单位神经信号预训练 支持从基础研究到临床研究和脑机接口应用 [4] - Brainμ在抑郁症 阿尔茨海默病 帕金森综合征预测上超越专用模型 [5] - 公司正与神经科学实验室 脑疾病研究团队和脑机接口企业合作 包括在便携式消费级脑电系统上重建感觉信号 [5] 具身智能发展突破 - RoboBrain 2 0任务规划准确率较1 0提升74% 全链路平均响应时延低于3毫秒 端云通信效率提升27倍 [8] - RoboOS 2 0实现无服务器一站式轻量化部署 机器人部署时间从天级降至小时级 [8] - 当前具身智能面临硬件不成熟 数据短缺 模型能力弱等挑战 形成发展循环悖论 [7] 微观生命模型创新 - OpenComplex2实现生物分子研究从静态结构预测到动态构象分布建模的突破 [9] - 该模型可预测蛋白质构型分布 助力新型治疗方案研发 缩短生物医药研发周期 [9] - 公司构建全球首个高速跨尺度心脏药物安全性评价平台 将药物评价时间从90天缩短至1天 [9]
刚刚,智源全新「悟界」系列大模型炸场!AI第一次真正「看见」宏观-微观双宇宙
机器之心· 2025-06-06 09:36
AI技术发展趋势 - AI技术从理解文字进化到建模世界、操控实体、模拟大脑、解构分子 [1] - 2025年AI领域热点包括DeepSeek R1、OpenAI o3、智能体Manus、英伟达Cosmos世界基础模型等 [2] - 智源大会聚集四位图灵奖得主、三十余位大模型企业创始人及CEO、一百多位青年科学家探讨AI前景 [3] 智源「悟界」系列大模型 - 智源推出全新「悟界」系列大模型,突破虚实边界,向物理AGI迈进 [4] - 「悟界」系列包含原生多模态世界模型Emu3、脑科学模型见微Brainμ、具身智能框架RoboOS 2.0/RoboBrain 2.0、全原子微观生命模型OpenComplex2 [6] - 大模型发展从文图视频主导的数字世界进入物理世界,理解尺度从宏观跨越到微观 [8] 原生多模态世界模型Emu3 - Emu3是全球首个原生多模态世界模型,支持文本、图像、视频、声音、脑信号等多模态统一建模 [12] - 通过新型视觉tokenizer实现多模态同构表征,支持端到端多模态输入输出映射 [14] - Emu3推动AI从单一模态理解向多模态协同跃迁,加速创意生成、智能搜索等应用落地 [14] 脑科学多模态通用基础模型见微Brainμ - 见微Brainμ基于Emu3架构,统一处理MRI、EEG、双光子成像等神经信号,累计处理超100万单位数据 [15] - 支持跨任务、跨模态、跨个体建模,性能超越专用模型,成为神经科学领域的AlphaFold [15] - 具备跨物种能力,兼容人类、小鼠、狨猴、猕猴数据,推动脑机接口技术实用化 [17] 具身智能框架RoboOS 2.0与RoboBrain 2.0 - RoboOS 2.0是全球首个具身智能SaaS平台,支持无服务器轻量化部署,性能提升30%,响应时延压缩至3毫秒以下 [22][24] - RoboBrain 2.0任务规划准确率提升74%,空间推理能力提升17%,新增深度思考与闭环反馈能力 [27][28] - 开源框架降低开发门槛,代码量仅为传统方式的1/10,与全球20多家具身智能企业合作 [24][31] 全原子微观生命模型OpenComplex2 - OpenComplex2突破生命尺度,可预测生物分子静态结构及动态构象分布 [34][35] - 基于FloydNetwork图扩散框架与多尺度原子级精度表示,精准捕捉分子动态特性 [35] - 在CASP16竞赛中唯一成功预测蛋白质T1200/T1300构象分布,推动生物医药研发加速 [36][38] 行业影响与未来展望 - 智源「悟界」系列从语言建模转向世界建模,为多模态、具身智能、AI for Science注入活力 [40] - 四大方向协同布局是认知智能走向具身智能与科学智能的关键一步 [40] - 大模型时代将深入理解与改变世界的系统,不止于提示框 [41]
世界模型有新进展,算力成本、数据质量成关键!数据ETF(516000)多空博弈激烈
每日经济新闻· 2025-06-06 07:11
指数及成分股表现 - 中证大数据产业指数(930902)盘中震荡 成分股石基信息涨停 科华数据上涨2.43% 神州泰岳上涨1.91% 神州信息领跌3.04% 拓维信息下跌2.51% 税友股份下跌1.99% [1] - 数据ETF(516000)最新报价0.92元 近1周累计上涨1.89% 涨幅排名可比基金第一 盘中换手率6.44% 成交额2853.13万元 [1] 人工智能技术进展 - 北京智源人工智能研究院发布"悟界"系列大模型 包含原生多模态世界模型Emu3 脑科学多模态通用基础模型Brainμ 具身大脑RoboBrain 2.0 全原子微观生命模型OpenComplex2 [1] - Emu3为全球首个原生多模态世界模型 基于世界模型的多模态和推理能力 可实现更自然智能的AI交互 [1] 行业应用动态 - 造车新势力积极布局世界模型技术 小鹏 理想 华为 地平线等企业将世界模型作为智能驾驶系统核心技术 [2] - 智能驾驶竞争焦点从车端算力转向云端世界模型构建能力 需提升车载芯片算力 传感器精度 算法研发能力 [2] - 世界模型采用云端训练+车端蒸馏技术提升泛化能力 但规模化落地受算力成本与数据质量限制 [2] 产品跟踪标的 - 数据ETF紧密跟踪中证大数据产业指数 该指数覆盖大数据存储设备 分析技术 运营平台 生产应用等领域上市公司 [2] - 数据ETF场外联接基金包括华夏中证大数据产业ETF发起式联接A/C/D类份额(代码020335/020336/023779) [2]
李飞飞的世界模型,大厂在反向操作?
虎嗅· 2025-06-06 06:26
公司概况 - 李飞飞创办的World Labs专注于开发具备"空间智能"的下一代AI系统,探索AI对三维世界的理解与建模能力[2] - 公司在2024年成立后三个月内完成两轮融资,累计筹集2.3亿美元,估值突破10亿美元成为AI领域独角兽[3] - 投资方包括a16z、英伟达NVentures、AMD Ventures、Intel Capital等科技与风投机构[4] 技术方向 - 核心研究方向为"世界模型",即AI对现实世界的三维理解能力,需结合视觉、空间感、动作等多维度信息[15][18] - 关键技术包括:NeRF(神经辐射场)实现二维图像到三维重建、高斯平面表示法提升实时渲染效率、扩散模型优化空间数据细节[30][33][38] - 需突破多视角数据融合与物理动态建模,使AI能预测物体运动(如风吹树叶、球体滚动)[41][46] 应用场景 - 游戏行业:AI根据照片或视频自动生成逼真三维场景,替代传统手工建模[51] - 建筑行业:几分钟内生成立体结构并模拟光照效果,大幅提升设计效率[53] - 机器人领域:赋予三维视觉能力,解决二维视觉导致的距离判断与导航问题[54] - 数字孪生:构建工厂/城市的虚拟副本用于灾害模拟与优化[56] - 创意产业:辅助艺术家进行空间化创作,成为"创作者伙伴"[59] 行业挑战 - 数据瓶颈:需大量带深度信息与空间结构的真实场景数据,目前获取成本高[63][64] - 算力限制:NeRF等技术计算资源需求大,难以大规模商业化落地[66] - 泛化能力:模型在陌生场景中易失效,需提升适应性[67] - 需跨学科协作整合硬件、软件、数据与应用生态[69] 团队与行业趋势 - World Labs团队涵盖计算机视觉、图形学、扩散模型、物理仿真与机器人控制等多领域专家[73][75] - AI研究范式从单一学科转向多学科融合,需集体智慧推动系统工程[77] - 空间智能被视为实现通用人工智能(AGI)的第一步,需具备空间感知与动态推理能力[94][95]
对话智源研究院院长王仲远:人工智能正加速从数字世界走向物理世界
每日经济新闻· 2025-06-06 05:15
每经记者|可杨 每经编辑|董兴生 6月6日,智源研究院在"2025智源大会"上发布"悟界"系列大模型,宣告其从"悟道"时代迈入"具身智能"探索阶段。 智源研究院院长王仲远在接受《每日经济新闻》记者在内的媒体采访时表示,"AI(人工智能)正加速从数字世界走向物理世界",这是推动其战略升级的根 本逻辑。 王仲远 图片来源:主办方供图 这一判断背后,是AI技术与应用边界的重构。当前,主流大模型大多聚焦在C端文本生成、语言对话等"数字智能"场景,而智源试图将AI推向更具挑战性也 更具想象空间的"现实世界"——包括机器人、操作系统与世界模型的构建。在王仲远看来:"这个世界不需要那么多'博士',更需要能执行任务、能落地的 AI。" "具身智能"正成为下一场AI竞赛的起点。王仲远判断,具身智能的"小组赛"还没结束,远没有到"淘汰赛"。但谁能在这一新赛道率先跑通技术路径、突破数 据瓶颈,谁或将定义人工智能的下一个十年。 从早期的"悟道"系列到如今的"悟界"系列,智源研究院的战略转向并非突如其来,而是"水到渠成"。王仲远坦言:"我们认为人工智能最终要造福人类社 会,要帮助大家摆脱繁琐的、重复的、简单的劳动,使得大家能够更多地享 ...
蔚来-SW(09866.HK):将迎来多款新车交付;改革成效有望逐步兑现
格隆汇· 2025-06-06 02:06
1Q25业绩表现 - 公司1Q25营收120亿元,Non-GAAP净亏损62.8亿元,符合市场预期 [1] - 1Q25交付42,094辆汽车,环比下滑,汽车毛利率环比下降至10.2% [1] - 研发费用31.8亿元,销管费用44.0亿元,环比均有所下滑 [1] - 净亏损主要受季节性因素及产品迭代期影响 [1] 2Q25及全年展望 - 2Q25计划交付7.2-7.5万辆汽车 [1] - 2025年将推出多款新车型,包括ET9、萤火虫首款车型及乐道两款SUV [1] - 公司指引部分车型毛利率有望超过20% [1] - 全年自由现金流有望实现正向流入 [2] CBU改革与费用优化 - 公司启动CBU改革,通过拆分经营单元提升组织效率和销量 [2] - 2Q25研发费用目标控制在20-25亿元,效率提升15% [2] - 销管费用率目标4Q25降至10%左右 [2] 技术进展与产品升级 - 5月30日推出蔚来世界模型NWM首个版本,升级主动安全、高速领航等功能 [3] - 智能硬件预埋为技术迭代提供空间,不同版本车主均可享受最新技术成果 [3] 市场估值与目标价 - 当前美股及港股对应2025年0.6x P/S [3] - 下调港美股目标价15%至41港币/5.3美元,对应2025年0.9x P/S [3] - 港股和美股较当前股价分别有47%/41%上行空间 [3]
马斯克与特朗普公开对骂,特斯拉市值一夜蒸发超1万亿元;“AI教母”李飞飞揭秘“世界模型”丨全球科技早参
每日经济新闻· 2025-06-06 00:30
AI意识与人机关系 - OpenAI模型行为负责人Joanne Jang提出人类即将进入"AI意识"阶段 强调需要关注AI对人类情感福祉的实际影响而非争论AI本体 [2] - 当前重点在于引导健康的人机关系 避免产生不健康的依赖 [2] 特斯拉市值波动 - 特斯拉CEO马斯克与美国总统特朗普公开对骂导致公司股价单日暴跌14% 市值蒸发1525亿美元(约10943亿元人民币) [3] - 特朗普暗示可能取消特斯拉及其关联公司的政府合同 加剧市场恐慌 [3] 微软与OpenAI合作关系 - 微软CEO纳德拉承认与OpenAI的合作关系正在经历变化 但强调双方合作依然牢固 [4] - 指出OpenAI从研究实验室转型为商业化产品公司必然伴随合作关系调整 [4] AI世界模型技术突破 - 斯坦福教授李飞飞提出"世界模型"概念 旨在让AI系统具备理解三维物理世界规律的能力 [5] - World Labs公司研究方向聚焦于突破AI仅处理文字信息的局限 推动对物理世界的推理能力 [5] 稳定币公司上市表现 - Circle成为纽交所"稳定币第一股" IPO首日开盘暴涨122.58% 最终收涨近170% [6] - 发行价31美元远超指导区间(27-28美元) 盘中因波动触发熔断机制 [6] - 公司成为美国市场第四家纯加密货币上市公司 反映稳定币赛道获主流资本市场认可 [6]
腾讯研究院AI速递 20250606
腾讯研究院· 2025-06-05 15:26
ChatGPT更新 - 新增连接器功能,可访问企业和个人数据源如Outlook、Teams、Google Drive等 [1] - 推出录音模式,支持自动转录、提取关键点、带时间戳查询,首先向macOS的Team用户开放 [1] - 调整定价策略,为Enterprise和Team工作区增加信用点,现有用户将能完全访问最新模型功能 [1] Cursor 1.0发布 - 推出BugBot自动代码审查工具,可自动找出潜在bug并提供修复建议 [2] - 后台智能体功能向所有用户开放,支持Jupyter Notebook深度集成,提升科研和数据科学任务效率 [2] - 新增记忆功能可记住对话关键信息,一键安装MCP服务器,优化聊天体验支持直接渲染Mermaid图表和Markdown表格 [2] Luma推出Modify Video - 推出"Modify Video"功能,能在保留原视频动作和运镜的同时,完全改变场景、角色和环境 [3] - 支持视频动捕、风格迁移和单元素编辑三种操作,可精确控制只编辑想要的元素而不篡改原动作 [3] - 官方测评显示Luma在观看愉悦度、结构相似度、运动轨迹跟随等多个维度上均超越同行Runway V2V [3] Bland TTS声音克隆技术 - 推出突破性声音克隆技术,仅需3-6个语音样本即可完美复制说话风格,并能根据文本内容自动调整情感表达 [4] - 采用大语言模型直接预测"音频Token",实现语音风格控制、音效生成、语音混合和情绪理解四大核心功能 [5] - 已广泛应用于创作者配音、开发者API集成和企业客户服务,未来将开启超个性化语音助手、语言学习革命等可能性 [5] Firecrawl推出search API - 发布v1.10.0版本,推出Search MCP,实现一键网页搜索与内容抓取功能 [6] - 支持多种输出格式和搜索参数自定义,Python/Node.js SDK全面支持这些新功能 [6] - 增强功能包括自动代理抓取、Redis分离、并发日志接口、元数据提取增强,并修复了子域名处理等问题提升稳定性 [6] 上海AILab推出VeBrain框架 - 提出VeBrain通用具身智能大脑框架,集成视觉感知、空间推理和机器人控制能力 [7] - 将机器人控制转化为MLLM常规2D空间文本任务,并通过"机器人适配器"实现从文本决策到真实动作的精准映射 [7] - 在13个多模态基准测试中超越GPT-4o和Qwen2.5-VL,在机器人控制任务上比现有模型提升50%成功率,构建了60万条指令的VeBrain-600k高质量数据集 [7] DeepMind研究观点 - 揭示智能体策略中包含准确模拟环境的全部信息,且可通过算法从策略中提取世界模型 [8] - 研究表明实现AGI不存在无模型捷径,提升性能和通用性必须学习更精确的世界模型 [9] Karpathy新观点 - 提出基于复杂UI界面、缺乏脚本支持、使用不透明二进制格式的软件产品将面临被淘汰风险 [10] - 将软件按风险等级分类:Adobe产品、DAWs等专业软件处于高风险区,Blender、Unity位于中高风险区,Excel居中低风险区,VS Code、Figma等基于文本的工具处于低风险区 [10] 李飞飞对话a16z - 认为LLM只是"有损压缩"的认知方式,世界模型才是AI真正重要的发展方向 [11] - 创办World Labs旨在开发具备"空间智能"的AI系统,认为技术已达临界点,如NeRF等三维视觉建模技术的突破让世界模型构建成为可能 [11] - 世界模型的应用远超机器人,将使AI不仅能"看懂"三维世界,还能"生成"并"操作"虚拟空间,为设计、创作与模拟实验开辟全新维度 [11]
【蔚来(NIO.N)】1Q25基本面承压,多维度寻求边际改善——2025年一季度业绩点评(倪昱婧)
光大证券研究· 2025-06-05 13:36
1Q25财务表现 - 1Q25总收入同比+21.5%/环比-38.9%至120.4亿元,毛利率同比+2.7pcts/环比-4.1pcts至7.6% [3] - Non-GAAP归母净亏损同比扩大28.2%/环比收窄4.2%至62.8亿元 [3] - 汽车业务收入同比+18.6%/环比-43.1%至99.4亿元,ASP同比-15.3%/环比-1.8%至23.6万元 [4] - 汽车业务毛利率同比+1.0pcts/环比-2.9pcts至10.2% [4] 运营与交付数据 - 1Q25交付量同比+40.1%/环比-42.1%至4.2万辆 [4] - Non-GAAP研发费用率同比-2.6pcts/环比+7.5pcts至24.2% [4] - Non-GAAP SG&A费用率同比+5.4pcts/环比+10.9pcts至35.0%,主因乐道品牌渠道及充换电网络建设 [4] - Non-GAAP单车亏损环比扩大至14.9万元,截至1Q25末在手现金260亿元 [4] 2Q25E展望与降本措施 - 2Q25E交付量指引7.2-7.5万辆 [4] - 4-5月毛利率或受老车型清库影响承压,6月起2025款ET5/ET5T/ES6/EC6交付有望带动NIO品牌毛利率修复 [4] - 多维度降本措施包括自研芯片降低单车成本、乐道品牌渠道扩建及充换电网络建设 [5] 中长期战略与产品规划 - "5566"改款爬坡+4Q25E ES8改款上市有望推动NIO品牌4Q25E单月销量达2.5万辆 [5] - L60销量爬坡+2H25E L90/L80上市或带动乐道品牌4Q25E单月销量达2.5万辆 [5] - 世界模型5/30推送,实现主动安全/高速领航/城区领航/智能泊车升级,停车场自主寻路功能为全球首个量产 [5]
CVPR 2025 Tutorial:从视频生成到世界模型 | MMLab@NTU团队&快手可灵等联合呈现
量子位· 2025-06-05 08:32
视频生成技术进展 - 图像生成技术已广泛应用于日常生活 视频生成技术从最初的"抖动幻影"跃升为能讲故事、控制动作、进行长时推理的高质量动态内容[1] - 可灵、Sora、Genie、Cosmos、Movie Gen等模型突破不断拓宽视频生成边界 研究者开始探讨视频生成能否成为通往世界模型的桥梁[2] - 视频生成技术已初步展现对时空一致性、视觉因果链的建模能力 并可能发展为交互式世界模型[6] 世界模型研究方向 - 研究重点转向如何将视频生成作为视觉先验 赋能AI感知世界、理解交互、推理物理 迈向更具具身智能能力的世界模型[3] - 学术界与产业界研究者将探讨生成建模、3D理解、强化学习与物理推理 将生成能力转化为感知、预测与决策的智能基座[4] - 视频生成技术可能帮助理解物体交互 捕捉人类行为背后的物理与语义因果 从生成走向交互式世界模型[6] CVPR 2025教程安排 - 教程将探讨基础世界模型规模化作为实现具身AGI的路径 由Google DeepMind科学家Jack Parker-Holder主讲[5] - 斯坦福大学博士生Hong-Xing "Koven" Yu将分享基于物理的世界模型在生成、交互与评估方面的研究[5] - Luma Al首席科学家Jiaming Song将讨论从推理优先视角突破预训练算法天花板[5] - Kling Al视频生成负责人Pengfei Wan将介绍可灵模型及更强大视频生成模型的研究进展[5] - 加州大学伯克利分校助理教授Angjoo Kanazawa将探讨面向智能的4D世界理解[5] - 纽约大学助理教授Sherry Yang将分享面向具身学习的生成式世界建模[5] 行业应用前景 - 视频生成技术不仅是内容输出工具 更是通向感知-建模-推理-决策一体化世界模型的入口[6] - 该领域对关注视频生成与多模态理解、具身AI、机器人交互智能、生成式世界建模与物理推理的研究者具有重要价值[7]