WorldGen
搜索文档
夸克AI眼镜发布,搭载阿里千问;OpenAI前首席科学家Ilya:大模型“大力出奇迹”见顶,AI正重回“科研时代” | AI周报
创业邦· 2025-11-30 03:18
AI硬件与终端产品进展 - 夸克发布搭载阿里千问大模型的AI眼镜,采用高通AR1旗舰芯片与恒玄BES2800芯片双芯设计,亮度达4000 nits,支持0.6秒极速抓拍、3K视频录制及超分超帧后4K输出,配备五麦克风阵列与可换电双电池系统[4] - 智元机器人远征A2完成106.286公里跨省行走,创吉尼斯世界纪录,其本体硬件性能与平衡算法趋于成熟,为大规模商用奠定基础[18][19] - Vionbotics推出行业首款可量产立面清洁机器人,机身仅550mm,适配复杂场景,消毒率达99.9%[23][24] - 谷歌DeepMind挖角波士顿动力前CTO Aaron Saunders,由其担任硬件工程副总裁,推动Gemini AI成为通用机器人控制平台[6][11] 大模型技术演进与市场动态 - OpenAI前首席科学家Ilya Sutskever指出当前大模型依赖数据堆砌的范式已触瓶颈,AI发展需回归科研时代,重点转向赋予模型持续学习与自我纠正能力[5] - 马斯克称xAI旗下Grok 5模型有10%概率实现AGI,强调实时数据是实现人类级推理的关键[12] - Anthropic发布升级版Claude Opus 4.5模型,增强代码编写、财务分析及复杂代理能力,并接入微软Microsoft Foundry[14] - 中国开源AI模型下载量占比达17%,首次超越美国的15.8%,DeepSeek与阿里千问成为主要贡献者[28] - OpenAI预计2030年ChatGPT付费用户数将达2.2亿,付费用户占比从当前5%提升至8.5%[31] 产业生态与战略布局 - 雷军提出"所有产业都值得用AI重做一遍",以小米汽车工厂AI检测为例,效率提升10倍、精度提升5倍,预计人形机器人将在5年内大规模应用于工厂与家庭[9] - 谷歌与Meta洽谈价值数十亿美元的AI芯片供应协议,计划自2027年起向Meta数据中心提供TPU,若成功可能夺取英伟达年收入的10%份额[12] - 英伟达CEO黄仁勋要求员工全面使用AI自动化任务,反对减少AI使用的管理倾向,并透露公司工程师已采用AI编程工具Cursor[13] - AMD CEO苏姿丰认为AI算力需求"永无止境",到2030年AI与数据中心市场规模将达1万亿美元,强调投资不足比过度投资更危险[32] 投融资与市场预测 - 全球AI领域本周披露融资事件22起,总融资规模49.14亿元人民币,早期阶段项目占比达18个[34] - 国内AI融资集中于广东与北京各5起,无问芯穹以4.5亿元人民币A+轮融资成为本周最高金额交易[37][40] - 海外AI融资总额37.71亿元人民币,人形机器人研发商Apptronik获3.31亿美元A+轮融资[48][49] - 贝恩预测2035年全球人形机器人年销量乐观情形下超1000万台,市场规模达2600亿美元,规模化替代需满足成本下降与关键技术成熟等条件[33]
OpenAI正在大举从苹果硬件工程团队挖人;育碧发布首个可玩式GenAI研究项目,包含AI助手与NPC丨AIGC日报
创业邦· 2025-11-25 00:08
人才竞争与招聘动态 - OpenAI在过去一个月为其AI设备团队招聘了40多名员工,其中许多工程师直接来自苹果公司[2] - 新招聘的员工包括级别非常高的关键部门总监、经理和工程师,背景几乎涵盖苹果硬件部门所有领域[2] - 苹果公司对OpenAI的挖角行为表示非常不满[2] 游戏行业AI应用进展 - 育碧推出首个可玩生成式AI研究项目Teammates,探索通过实时语音指令增强游戏玩法[3] - 项目包含AI语音助手Jaspar,可接受自然语音指令实现高亮显示、提供背景、调整设置和暂停游戏等功能[3] - AI NPC角色Pablo和Sofia具备全新高级能力,支持玩家直接指挥或对话交互[3] AI技术安全与检测挑战 - 达特茅斯学院开发的新型AI工具能伪装人类完成问卷,破解现有检测方法的成功率高达99.8%[3] - 该AI工具成功规避了专门识别非人类行为的"反向禁忌"问题测试[3] 3D内容生成技术突破 - Meta推出WorldGen端到端系统,仅凭单条文本提示即可生成可交互、可导航的三维世界[3] - 该技术融合程序化逻辑推理、扩散模型生成和面向对象场景分解方法,输出几何结构严谨的三维场景[3] - 生成内容适用于游戏开发、模拟仿真及沉浸式社交环境等多元应用场景[3]
Meta再推WorldGen,一句话「盖」出50×50米一座城
具身智能之心· 2025-11-25 00:03
文章核心观点 - Meta公司推出名为WorldGen的突破性生成式AI系统,能够仅通过一段文本提示生成完整、可交互、可导航的3D世界,覆盖面积达50x50米,并在整个区域内保持风格和几何结构的一致性[12][13][19] - 该技术融合了程序化推理、扩散模型3D生成以及面向对象的场景分解,代表了生成式AI从2D内容创作向复杂3D环境构建的重大跨越[13][17] - WorldGen的输出可直接兼容Unity、Unreal等主流游戏引擎,无需额外转换,展示了在游戏开发、仿真和沉浸式社交环境等领域的巨大应用潜力[22][29] 技术方法与创新 - 系统采用多阶段流程:规划(程序化blockout生成、导航网格提取)、重建(图像到3D基础模型)、分解(场景部件提取)、精修(网格与纹理优化)[21] - 与基于Gaussian Splatting等技术(如World Labs的Marble)相比,WorldGen以网格为基础输出几何结构,原生支持物理模拟、碰撞检测和导航,功能性更强[29] - 传统方法通常从单一视角向外扩展,移动3-5米后质量骤降,而WorldGen能生成50x50米完整纹理化场景并保持一致性[18][19] 应用前景与行业影响 - 该技术有望大幅降低3D内容制作门槛,使普通人无需编写代码即可从文本提示创建虚拟世界,推动内容创作大众化[22][30] - 对游戏开发、技术美术和关卡设计师等工作流程将产生变革,从业者可从手动建模转向使用AI提示词驱动并筛选编辑输出[30][31] - 生成过程算力需求较高,开发者需评估本地与云端渲染能力以确定合适部署方式[31] 当前状态与发展方向 - WorldGen目前仍处于研究阶段,尚未对开发者开放,但已展示出跨行业节省时间和成本的潜力[22] - 未来版本计划支持更大规模世界生成并降低生成延迟,进一步提升实用性[20][22]
雷军:辅助驾驶不是自动驾驶;继续干!传库克明年不退休;Altman:谷歌复苏,OpenAI进入艰难时刻 | 极客早知道
搜狐财经· 2025-11-24 02:22
苹果公司管理层动态 - 彭博社记者古尔曼驳斥英国《金融时报》关于苹果公司CEO Tim Cook最早于明年卸任的报道,称其为“完全是假的”且“交接时机尚未成熟”,认为明年年中离职不太可能[1] - 古尔曼指出库克自2011年接任以来带领公司市值从约3500亿美元跃升至逾4万亿美元,业绩卓越,完全有资格自主决定去留,除非突发重大变故不会被强制离任[1] iPhone Air市场表现 - iPhone Air销量低于预期,仅达到苹果最高预期的大约三分之一,导致公司在该手机上市仅几周后就将生产计划削减了一半[2] - 产品页面当月吸引100万次浏览,比去年同期产品高出28%,但转化率比其他机型低约三分之一[2] - 在中国市场,iPhone Air依然是17系列中销量最差的机型,消费者更青睐其他性价比更高、配置更好的产品[2] 小米汽车业务动态 - 小米官方澄清汽车工厂电池产线起火事件,称其为生产设备调试优化过程中操作人员手动模式下的失误导致电池包短路引起明火,火情极小且迅速扑灭,并非电池本身存在设计缺陷或制造瑕疵[2][3] - 小米汽车所有车型电池包均坚持超高标准开发,满足电池国标相关要求[3] 人工智能行业竞争与人才流动 - OpenAI正从苹果硬件工程团队大肆挖人,仅过去一个月内就为其设备团队招募逾40名员工,其中包括总监级关键人物,涉及相机工程、iPhone硬件、芯片、Vision Pro开发等多个领域[3][4] - OpenAI首席执行官Sam Altman内部告知员工,谷歌近期推出Gemini 3人工智能模型可能在编程等任务上表现出色,会给公司带来暂时性经济阻力,但OpenAI最终仍会保持领先地位[4][5] - 投资者已向OpenAI投入超600亿美元,近期对其估值达5000亿美元,基于其持续主导生成式AI开发市场的预期[5] AI与自动驾驶行业趋势 - AMD首席执行官苏姿丰表示不担心AI泡沫,认为AI与数据中心运算市场规模到2030年将达到每年1万亿美元,当前敢于大胆下重注的企业已开始收获回报,投资不足反而风险更大[8] - 苏姿丰预期未来AI需求重心将从训练大型语言模型逐步转向对算力要求相对较低的推理任务,并正积极布局抓住这一转型机遇[8] - 小米董事长雷军提醒辅助驾驶不是自动驾驶,驾驶时仍需时刻保持专注,同时小米汽车端到端辅助驾驶HAD增强版正式发布,引入强化学习与世界模型等功能[8][9] 其他行业动态 - Meta推出WorldGen端到端系统,可凭单条文本提示词自动生成可交互、可导航的三维世界,适用于游戏开发、模拟仿真等多元应用,目前仍处于研究阶段但内容可直接兼容Unity、Unreal等主流游戏引擎[11][13] - 小鹏汽车官方为G7上新官方改色“宠粉色”,定制改色服务全车型统一价格2990元,可选超过50种色彩并提供两年质保[15] - 由长城控股等投资的智驾公司毫末智行被爆员工24日起不用到岗上班,赔偿机制等后续安排不明,公司近年商业化场景落地明显落后,多名高管已离职[9][10]
AI早报 | “灵光”App下载量突破100万;AMD CEO苏姿丰:不担心AI泡沫 投资不够反而比较危险
搜狐财经· 2025-11-24 00:31
AI应用与产品发布 - 蚂蚁集团全模态通用AI助手“灵光”App上线4天下载量突破100万,首批推出三大核心功能并登陆主流应用商店 [2] - Meta推出端到端系统WorldGen,可根据单条文本提示词自动生成可交互、可导航的沉浸式3D世界 [3] 行业领袖观点与战略 - AMD首席执行官苏姿丰认为AI市场是巨大机会,不担心AI泡沫,强调算力需求永无止境,提供最佳AI基础设施的公司将蓬勃发展 [2] 产业链投资与布局 - 鸿海与英伟达合作建设投资额达140亿美元的超级计算中心,计划于2026年上半年完工 [4] - 该27兆瓦数据中心将由英伟达Blackwell GB300芯片提供动力,将成为亚洲首个GB300 AI数据中心 [5] 资本市场关注热点 - 近一个月机器人概念股获机构密集调研,九号公司、蓝思科技等17家公司机构来访接待量超200家 [3] - 其中九号公司、蓝思科技、中控技术接待量居前,分别达到365家、348家和342家 [3]
知情人士回应长城旗下毫末智行原地解散;钟睒睒向一中学捐款1亿元;苏姿丰:不担心AI泡沫,投资不够反而比较危险丨邦早报
创业邦· 2025-11-24 00:08
毫末智行运营状况 - 长城控股的智驾公司毫末智行通知员工自11月24日起无需到岗上班,复工日期未定,赔偿方案尚未公布 [4] - 公司目前约有200名员工,内部对于停工后是彻底解散还是暂时停工尚无具体说法 [4] 小米汽车相关动态 - 小米汽车副总裁辟谣,称小乔地铁站附近致8人死亡的车祸与小米汽车完全无关 [4] - 小米公司澄清“小米汽车工厂内电池产线起火”为谣言,实为调试过程中因操作失误导致单个电池包短路起火,火情极小且迅速扑灭,未造成人员受伤或波及其他区域 [9][10] - 小米强调所有车型电池包均符合国标,事件系生产流程调试偏差,非电池本身设计或制造缺陷 [9][10] - 武汉大学雷军班学生首次公开亮相,培养方案灵活,有学生已开始创业并实现初步盈利 [13] 企业家动态与捐赠 - 农夫山泉创始人钟睒睒以个人名义向诸暨中学捐赠1亿元人民币成立教育基金 [6] - 钟睒睒此前已通过该基金向清华、北大等多所院校累计捐赠数亿元,其财富在《2025胡润百富榜》中增长1900亿元至5300亿元,第四次成为中国首富 [6] 人工智能行业观点与竞争 - AMD首席执行官苏姿丰表示不担心AI泡沫,认为AI市场是巨大机会,算力需求永无止境,投资不足比投资过度更危险 [9] - 苏姿丰预计到2030年,AI和数据中心运算市场规模将达到每年1万亿美元 [9] - OpenAI首席执行官山姆·奥特曼在内部备忘录中预警,谷歌在AI领域的进展可能给公司带来暂时性经济阻力,承认OpenAI的技术领先优势正在缩小 [12] 保险与机器人产业融合 - 针对人形机器人应用风险,平安财险、太保财险等国内头部财产险公司自9月起集中推出具身智能专项保险产品,以金融创新推动产业规模化落地 [13] 汽车行业动态与政策 - 长安汽车预计明年一季度发布首款车载组件机器人,机器人业务规划按近中远期三步走 [15] - 英国政府宣布追加13亿英镑(约121.09亿元人民币)电动汽车补贴,并投入2亿英镑(约18.62亿元人民币)加快充电桩布局 [15] - 雷克萨斯NX绝色限定版在广州车展上市,提供两款专属配色,官方指导价30.96万元和36.96万元 [19] - 多方回应否认上海、广州将试点“老头乐”C7驾照,专家建议可探讨为低速电动车单独上牌并限制行驶区域 [8] 低空经济发展 - 峰飞航空科技发布eVTOL零碳水上机场及海空一体低空经济解决方案,拓展低空基础设施至水域 [17] - 预计2025年我国低空经济市场规模将达到1.5万亿元,2030年有望突破2万亿元 [21] 科技产品与融资动态 - Meta推出WorldGen系统,可凭单条文本提示生成可交互、可导航的3D世界 [21] - 蓝点触控完成超亿元C轮融资,其机器人关节力传感器出货量超10万台,市占率突破95% [15] - 国产汽车半导体企业芯钛科技完成C+轮融资,资金用于车规芯片量产及全国产化供应链建设 [16] - 新型光电传感器研发商向至科技完成天使+轮股权融资 [15] 其他行业数据 - 西贝全国门店近40道产品降价,幅度在5%-20%不等,同时全员平均涨薪500元 [12] - 2025年中国电影年度票房已超460亿元人民币 [21] - 甲骨文股价暴跌致董事长拉里·埃里森个人财富缩水1300亿美元(约9248.98亿元人民币),滑落至全球富豪榜第三 [13] - 彭博社记者辟谣苹果公司CEO蒂姆·库克将于明年初卸任的报道 [13] - 马来西亚宣布自2026年起禁止16岁以下青少年独立使用社交媒体 [21][22]
奥特曼备忘录预警:谷歌复苏将致OpenAI“艰难时期”;Meta推出WorldGen:一句话即可生成可交互3D世界丨AIGC日报
创业邦· 2025-11-24 00:08
OpenAI竞争态势 - OpenAI首席执行官山姆・奥特曼内部预警,谷歌在人工智能领域的进展将给公司带来暂时性的经济阻力[2] - 奥特曼承认OpenAI有部分工作亟待推进,但目前正快速追赶,并预计外界对公司评价氛围将相当严峻[2] - 投资者已向OpenAI投入超600亿美元,近期估值达5000亿美元,核心依据是相信公司将持续主导生成式AI市场[2] AMD对AI市场的战略观点 - AMD首席执行官苏姿丰表示AI市场是巨大机会,不担心AI泡沫,愿意大胆下重注的人正取得回报[2] - 苏姿丰认为算力需求永无止境,提供最好、最可靠AI基础设施的公司将随市场成长而蓬勃发展[2] - 苏姿丰指出投资不足比投资过度更危险,并预测到2030年AI和数据中心运算市场规模将达每年1万亿美元[2] Meta的AI技术进展 - Meta推出WorldGen端到端系统,可仅凭单条文本提示词自动生成可交互、可导航的三维世界[2] - WorldGen融合程序化逻辑推理、基于扩散模型的三维生成技术及面向对象的场景分解方法[2] - 该系统输出几何结构严谨、视觉表现丰富的三维场景,适用于游戏开发、模拟仿真及沉浸式社交环境等应用[2]
腾讯研究院AI速递 20251124
腾讯研究院· 2025-11-23 16:01
生成式AI模型与应用 - 谷歌发布Nano Banana Pro模型,基于Gemini 3 Pro,在文字-图像测试中领先第一代84分,在图像编辑中高出41分,可通过坐标生成特定地点历史事件 [1] - 谷歌AI笔记工具NotebookLM推出“一键生成幻灯片”功能,用户上传资料即可在几分钟内生成逻辑清晰的演示文稿,提供详细版和演讲版两种核心模式 [2] - Meta发布WorldGen系统,通过文本提示生成50×50米可导航、可交互的完整3D世界,基于程序化推理和扩散模型3D生成,输出几何一致且渲染高效的3D世界 [3] - 前OpenAI联合创始人Karpathy组建LLM议会项目,让GPT-5.1、Gemini 3 Pro、Claude Sonnet 4.5和Grok-4组成智囊团,问题分发给所有模型并进行审阅排名 [4] - 腾讯混元开源HunyuanVideo 1.5视频生成模型,参数8.3B支持生成5-10秒高清视频,可在14G显存消费级显卡上运行,支持中英文文生视频与图生视频 [5] - 腾讯混元视频模型通过创新SSTA稀疏注意力机制和多阶段渐进式训练策略,可原生生成480p和720p视频,通过超分模型提升至1080p电影级画质 [6] AI基础设施与资源管理 - 华为发布Flex:ai AI容器技术,能将智算资源利用率提升30%,无生态限制支持英伟达GPU和华为昇腾NPU,核心能力包括算力资源切分和多级智能调度 [7] - 当前AI浪潮面临算力供不应求的产能危机,瓶颈在于电力、涡轮机和增强型外壳供应,与90年代互联网基础设施过剩的情况不同 [11] 行业动态与融资 - OpenAI前CTO Mira Murati创立的Thinking Machines Lab计划筹集40-50亿美元,估值或达500亿美元(约3500亿人民币),公司此前已筹集20亿美元估值100亿美元 [8] - 马斯克与黄仁勋在美国-沙特投资论坛对谈,官宣xAI将与沙特企业Humain合作建500兆瓦数据中心,英伟达将与AWS合作构建目标1000兆瓦规模数据中心 [10] AI在科研与企业中的应用 - OpenAI与范德堡大学等多所高校合作,GPT-5帮助研究人员综合已知结果、加速艰难计算甚至生成新证明,在生物学案例中几分钟内从未发表图表识别出可能机制 [9] - 企业AI的核心在于构建自己的“AI工厂”和数据层,未来企业护城河是将隐性知识转化为私有模型权重,这种“公司主权”将以LoRA权重形式存在 [11] 行业观点与战略思考 - 马斯克认为AI发展到一定阶段货币将不再具有实际意义,并称人形机器人将成为有史以来规模最大的行业,AI与机器人能实现消除贫困目标 [10] - AI时代即使范式正确,具体架构选择和商业模式仍决定成败,90年代微软虽看准互联网方向但押错交互式电视路径被开放网络超越的案例值得深思 [11]
Meta再推WorldGen,简单一句话,竟「盖」出50×50米一座城
机器之心· 2025-11-22 04:12
文章核心观点 - Meta发布名为WorldGen的突破性研究,能够仅通过一段文本提示生成可导航、可交互的完整3D世界,将生成式AI的应用从图像和视频向前推进了一大步 [11][12] - 该技术基于程序化推理、扩散模型和面向对象的场景分解,生成几何结构一致、视觉效果丰富的3D场景,覆盖面积达50米x50米,并能在整个区域保持风格与几何的一致性 [12][18][27] - WorldGen的产出可直接兼容Unity、Unreal等主流游戏引擎,无需额外转换,展示了在游戏、仿真和沉浸式社交环境中节省时间和成本的巨大潜力,推动3D内容创作走向大众化 [21][28] 技术方法与优势 - WorldGen是一个端到端系统,主要流程包括规划、重建、分解和精修四个阶段,首先生成3D场景的图像,再进行图像到3D的重建 [16][22] - 与基于Gaussian Splatting等技术的方法相比,WorldGen以网格为基础输出几何结构,使其成为面向功能开发的工具,原生支持物理模拟、碰撞检测和导航,而不仅用于渲染视觉内容 [27] - 该技术克服了其他方法从单一视角扩展导致移动3到5米后质量迅速下降的短板,能够生成完整纹理化的大规模场景 [17][18][27] 应用前景与影响 - 该技术有望彻底改变3D内容制作复杂耗时的传统工作流,为技术美术和关卡设计师等工作带来变革,从业者将从手动操作转向使用提示词驱动AI并进行筛选编辑 [21][28][29] - 生成内容可直接用于游戏引擎,但生成过程对算力需求高,开发者需评估本地与云端渲染能力以决定合适部署方式 [21][29] - 此项研究目前仍处于研究阶段,尚未对开发者开放,但未来计划支持更大规模的世界生成并降低生成延迟 [19][21]