DreamOmni2
搜索文档
贾佳亚教授:模型不必一味求大!优化神经元连接方式同样是智能跃升的「关键密码」丨GAIR 2025
雷峰网· 2025-12-16 08:28
冯诺依曼研究院的技术成果 - 2023年发布全球首个32K长文本上下文理解大模型技术LongLoRA,使大模型首次能阅读并分析长达四万多个Token(约两三万字)的书籍内容[5][13][16] - 2024年推出开源多模态模型Mini-Gemini,在GitHub上获得超3000个Star,曾是开源社区中性能最强的模型,具备高性能图像理解与推理式图片生成能力[5][18] - 2024年推出Mini-Gemini新版本,新增完整中文语音系统,支持长视频理解、无样本音色克隆及跨语言生成,解决了中文语音系统混乱的痛点[5][20] - 推出轻量化智能图像生成编辑技术ControlNeXt,可实现图像风格转换、动效生成和超级分辨率等功能,无需大量预训练资源[6][34] - 推出全球领先的智能图像生成编辑统一系统DreamOmni2,在开源系统中与投入超50亿美金、使用10万张卡的Nano Banana对齐,而该研究院仅由2名学生用500张卡、耗时半年完成开发[6][36] - DreamOmni2具备广告设计、图像编辑、虚拟试衣、一键美容、改变光照、产品设计等强悍功能,在部分评测中超越了Nano Banana、GPT-4o等模型[37][59] - 该研究院的图像生成编辑技术可实现精准的像素级编辑,例如将图片中的油灯替换成狗、替换人物、改变发型、一键试衣、改变物体材质或光线等复杂操作,处理时间从专业美工的三天缩短至约10秒[38][40][43][45][48][51] - 该研究院的技术可对图像、视频生成进行6到20倍的加速,有望为全行业节省95%的能源[61] 大模型与人工智能的发展方向 - 大模型的智力是综合多因素的结果,神经元数量不代表更聪明,更重要的是神经之间的连接方式、大脑皮层的复杂度以及大脑与其他器官的配合程度[7][70] - 大模型未来发展有两个关键要点:遵循Scaling Law是基本方向,同时需聚焦“改善神经元连接方式”,让模型在同等神经元数量上变得更聪明[7][70] - 从早期的卷积神经网络到后来的Transformer,都是在改变神经元的连接方式,这种改变让大模型的智能提升了约1万倍[7][71] - 未来还会有比Transformer更优的架构,能将智能再提升1万倍[2][72] - 未来人工智能发展的两大重心:一是训练方法要从一次性学习转为像人一样的连续终身学习;二是要结合机器人、机械臂等作为人工智能的感知载体,弥补当前AI无实体的短板[7][75] - AI与大模型的未来发展模式会走向感知机器与终身学习结合的训练模式,这一发展将在未来五到十年持续发生,并带来巨大进步[7][75]
GAIR 2025 大会首日:AI重构教育、科学与产业的十三重碰撞
雷峰网· 2025-12-13 04:02
文章核心观点 文章报道了第八届GAIR全球人工智能与机器人大会首日主论坛的盛况与核心讨论,大会主题聚焦于AI对教育的重新定义(AI之道)与AI在各领域的范式重构(AI之术)[1][3],与会顶级学者分享了AI前沿技术进展、产业应用挑战与未来发展趋势,认为AI正从技术讨论迈向重塑教育、产业乃至文明的内在力量[1] AI之道:教育的重新定义 高等教育培养模式的重构 - 深圳理工大学提出“加减替换”培养模式以应对AI冲击:减法包括压缩课堂时长20%、每周减少一天上课时间并删减低效课程内容;加法包括要求大一学生必修两学期人工智能导论、每周腾出一天进实验室;替换包括用跨文化交流课替代传统英语教学、计划以智能APP取代传统教科书[6] - 高等教育管理需从传统“电子版电话黄页”式信息系统迭代为智能信息系统,弱智能层面可在现有平台接入大语言模型,强智能层面则让系统直接对接各子系统以实现实时响应与智能决策[7] - 大学应回归培养“有智慧的人”的本质,帮助学生找到自身定位,并推出科研成果与素质教育双成绩体系进行全面评价[6] 教育理念与目标的根本转变 - 生成式AI使知识从“黄金”变成“无处不在的空气”,教育应从“知识传输”转向培养学生的能力、好奇心、学习主动性和共创意识[9] - 未来教育的重点需从“真”(知识与事实)转移到“善”(价值观、自省力、判断力)与“美”(独特的自我展现),以培养更聪明的人并防范缺乏价值判断的AI系统风险[9][10] - 大学的核心竞争力最终产品是“人”,重要能力包括运用知识的能力、沟通能力(人与机器)、创造力以及人文素养,好大学和好学科的共同特征都与数学及母语语言文学有关[15] 教育体系与评估的变革讨论 - 当前AI教育转型不存在“弯道超车”,社会对教育抱有过高期望,进步应是全社会责任而非仅由师生承担[13] - 应创造自有教学理念而非跟随他人“领先”话语体系,AI极大地推动了教育民主化并为师生带来更强自主性[14] - 考核方式需因应AI时代改变,若学生能用AI作弊则说明考试方式本身出了问题,港科大是全球首个宣布GPT是好东西并在教学中广泛使用的学校[9][11] - 在应试教育现实下,校内应减教学、减刷题、减考试量,增加“体验”以让孩子找到AI不能代替的科研与人生快乐[17] AI之术:领域的范式重构 机器人技术与产业自动化 - 全球服装市场规模巨大,预计到2030年价值达2.3万亿美元,但智能化不足,2019年数据显示纺织产业机器人密度很低,总生产时间和成本的80%用于物料搬运,67%劳动力集中于缝纫过程[23] - 研究团队开发了可像人一样思考、配合旋转布料方向的缝纫机器人,以及被动式无致动器抓手、布料边缘高速检测、双臂机械手2D和3D裁剪等技术,以革新服装生产流程[22][24] - 选择汽车座椅作为3D剪裁自动化方案的优先商业化场景,因为该品类产量高且预计到2028年相关工业生产设备投入达3.63亿美元,目前尚无自动化解决方案[24] - 欧洲因人工昂贵将成为继中国、北美、东南亚和日本之外最大的自动化服装市场[25] 大模型技术演进与挑战 - 大模型需从当前“一次性学习”模式革新为人类“连续学习”式的终身学习,并从“虚拟大脑”走向与机器人等实体载体结合的“感知机器”,这是未来5-10年的核心方向[28][29][30] - 需改善神经元连接方式让模型在同等数量神经元上变得更聪明,发展进程可能缓慢但方向明确[28] - 面临幻觉与长上下文处理瓶颈,可通过“有损计算”理念破解,即利用参数精度无需过高、无需启用全部参数两个关键点,开发简易算法优化相对位置信息与KV缓存显存占用[38][39] - 大语言模型依赖公开数据的发展模式即将触顶,如何利用私有数据持续赋能是巨大挑战,且将基于公开语言数据的成功经验迁移到其他非语言数据领域是错误的[49] 科学基础模型与AI+科学 - 科学基础模型面临语言边界限制与科学数据复杂性两大瓶颈,例如一张光谱信息量相当于1000张图片,人类30亿个基因可存储全球数据,语言作为低维离散符号系统难以覆盖[42] - 构建路径包括将分子、基因、光谱等非文本科学数据转化为Token表示并统一编码,以及通过数据对齐(如基因数据与病理数据对齐)推动科学发现[43] - 团队已完成覆盖十余门学科的超大规模模型训练,并推动“大模型种子班”和“科学家工作坊”以加速AI+科学研究[44][45] 时空AI与城市计算 - AI真正产业价值需进入物理世界(如具身智能、无人驾驶、城市管理),面临数据稀缺、需结合行业知识、现有模型非为时空而设三大挑战[33][34] - 城市计算可作为具身智能的方法论,具身智能将成为城市计算的核心组件,未来城市有望成为“巨大的具身智能体”[35] - 城市知识体系是实现时空数据与其他数据融合的路径和方法论[34] 算力基础设施与超智融合 - 超算核心逻辑是集聚算力攻克复杂科学问题(如地球系统模式、气候变化研究),与AI大模型的并行思维本质相通[52][55] - 超算领域面临国产算力硬件投入大、软件生态投入相对少以及复合型人才流失的困境[55] - 需借鉴通用人工智能的可扩展模型经验,加强算力软件与科学发现协同,完善国产生态以留住人才,深圳超算将搭建超智融合平台形成开源生态[55][56] 医疗人工智能的应用 - 医学人工智能应由医生主导,因为所有工具最终都要落到医生面对患者的场景中,AI是医生调用或辅助诊疗的工具,从人文关怀角度医生使用AI比患者独自面对机器体验更好[60] - 实现路径包括基于现有语言大模型接入更多数据模态并构建应用体系,以及大模型与小模型协同,由垂域小模型纵向攻克预警、诊断、治疗等核心环节[60] - 落地需放在整个医院医疗体系中思考,构建培训、AI赋能、后续医疗支撑的体系以实现“强基层”和真正落地价值,而非仅技术解决[60] 智能硬件与端侧AI - 云端模型存在显著浪费,一些语音指令经云端解析再回传至少50%传输成本被无效消耗,全球云端模型每日消耗成本高达万亿至百万亿量级但有效利用率存疑[63] - 行业正从云端向端侧战略转移,未来智能硬件最重要的是原生记忆和自主学习,大模型需从固定工具转向持续学习和实时成长[63][64] - 当前“更多数据、更大算力、更高人才密度、更大参数=更好模型”的共识可能扼杀创新,Transformer架构偏向压缩智能和静态函数,并未真正产生知识[63] 新型模态感知与空间智能 - 未来5-10年,面向新型模态(如声波、毫米波)的新型感知模型会非常繁荣,传统AI与新型传感将“殊途同归”以实现对物理世界的准确感知和空间智能[65][67][68] - 当前多模态感知仍集中在语音、文字、图像、视频,对新型模态探索不多,需用最新模型技术理解新型传感器数据以进行空间感知、智能交互、健康监测等技术探索[67][68]
人工智能周报(25年第43周):OpenAI 推出 AI 浏览器,DeepSeek 发布开源 DeepSeek-OCR 模型-20251028
国信证券· 2025-10-28 14:28
行业投资评级 - 行业投资评级为“优于大市” [1][4] 核心观点 - AI技术对互联网巨头的广告业务、云计算场景和企业效率提升作用显著,典型体现在Q2腾讯广告持续保持20%增长、阿里云增速环比提速至26% [2] - 随着百度、阿里推出自研芯片,完成芯片、模型、应用全链条布局的云厂商有望实现市场份额持续提升 [2] - 建议继续聚焦AI主线,推荐腾讯控股、阿里巴巴、快手、百度集团、美图公司,以及与宏观经济关联度较低的腾讯音乐和网易云音乐 [2][29] 公司动态 - OpenAI推出AI浏览器ChatGPT Atlas,支持内容总结、商品比较等实时交互功能,并引入“代理模式”实现自动化操作 [15];同时收购Mac端AI界面Sky开发商Software Applications,强化Mac生态适配与办公场景自动化能力 [15] - Meta重组AI团队,裁员约600人,聚焦前沿模型研发,年内资本支出上限已上调至720亿美元 [17] - Google升级AI Studio推出“vibe coding”功能,降低开发门槛,强化Gemini生态竞争力 [18] - 华为发布鸿蒙6,实现跨生态互传与AI智能体两大突破,支持与苹果设备高速互传,速率达160MB/s,并上线80多个应用智能体 [19] - 阿里巴巴旗下夸克上线对话助手,作为“C计划”首个落地成果,依托Qwen3-Max模型及“可信生成”技术,基于夸克1.5亿月活生态升级 [20] - 腾讯预计正式发布ima2.0版本,核心落地“任务模式”与“AI要点”功能,从“问答工具”升级为主动执行任务的“智能伙伴” [21] 底层技术 - DeepSeek发布开源新型文字识别模型DeepSeek-OCR,通过“上下文光学压缩(COC)”技术实现7-20倍文本Token效率提升,在10倍压缩比下保持97%以上准确率 [22] - 腾讯发布并开源混元世界模型1.1(WorldMirror),支持多模态先验注入,可一次性输出点云、3D高斯点等多类3D几何结果,单卡处理8-32视图仅需1秒,效率较传统方法提升千倍 [23] - 百川智能发布循证增强医疗大模型Baichuan-M2 Plus,首创六源循证推理(EAR)范式,医疗幻觉率较DeepSeek降低3倍 [24] - 港科大开源DreamOmni2模型,在205个测试用例中物体迁移准确率、抽象属性一致性均超越GPT-4o与谷歌Nano Banana,生成准确性较开源模型提升37% [25] - 字节跳动发布Seed3D 1.0模型,基于Diffusion Transformer架构,构建单张2D图到仿真级3D资产的端到端生成链路 [26] 行业政策 - 十四届全国人大常委会第十八次会议审议网络安全法修正草案,拟新增AI安全与发展的框架性规定,包括支持AI基础理论研究、关键技术研发、算力基础设施建设、完善伦理规范等 [27] - 科技部部长阴和俊在中共中央新闻发布会上明确“十五五”AI发展核心方向,包括强化基础研究与核心技术攻关、实施“人工智能+”行动、健全法律法规与伦理准则等 [27][28] AI相关网站流量数据 - ChatGPT周平均访问量达1391.00百万,访客量环比下降6.12% [9] - Bing周平均访问量达786.40百万,访客量环比下降4.34% [9] - Gemini周平均访问量达270.70百万,访客量环比增长70.02% [9] - DeepSeek周平均访问量达82.73百万,访客量环比下降0.46% [9] - 通义千问周平均访问量达6.30百万,访客量环比下降3.96% [9]
腾讯研究院AI每周关键词Top50
腾讯研究院· 2025-10-25 04:34
算力与芯片 - 甲骨文建设最大AI超算 [3] - 英伟达推进美国本土晶圆生产 [3] 模型进展 - 清华与智谱联合发布Glyph框架 [3] - 谷歌推出Gemini 3 0模型 [3] - DeepSeek发布DeepSeek-OCR模型 [3] - 百度推出PaddleOCR-VL模型 [3] AI应用与产品 - 谷歌发布Google Skills和Vibe Coding [3] - Sora模型升级至2 0版本 [3] - 快手推出AI编程产品矩阵 [3] - 港科大发布DreamOmni2 [3] - 字节跳动推出Seed3D 1 0 [3] - OpenAI推出ChatGPT Atlas [3] - Claude发布桌面版 [3] - 腾讯发布混元世界模型1 1 [3] - 百川发布Baichuan-M2 Plus模型 [3] - 华为发布HarmonyOS 6 [3] - Anthropic发布网页版Claude Code [3] - X平台将Grok接入其服务 [4] - Adobe推出AI Foundry [4] - 混元推出AI分身功能 [4] - 元宝推出AI录音笔 [4] - Vidu发布Q2版本 [4] - 谷歌将Gemini接入Maps应用 [4] - Anthropic推出Agent Skills [4] - 李飞飞团队发布RTFM [4] - World Labs参与相关应用开发 [4] - Manus发布1 5版本 [4] - 微软推出Win11大更新 [4] - 科勒推出Dekoda智能马桶 [4] 前沿科技 - 谷歌研究量子回声算法 [4] - Dexmal开发Dexbotic技术 [4] - 原力灵机进行科技探索 [4] - 松延动力推出Bumi小布米 [4] - 三星推出Galaxy XR [4] - Anthropic开发生科专用Claude [4] - 宇树开发仿生人形机器人 [4] - DeepMind与CFS合作开发人造太阳 [4] 行业观点 - Vercel提出Kimi K2替代观点 [4] - a16z提出视频模型专业化观点 [4] - Manus探讨Agent认知流程 [4] - Jason Wei提出AI进展关键思路 [4] - 哈佛大学研究AI入侵职场现象 [4] - Reddit讨论死亡互联网理论 [4] - Karpathy提出AGI预期管理观点 [4] 行业事件 - Meta对AI部门进行裁员 [4] - 麦肯锡分析Tokens消耗情况 [4] - nof1 ai进行Alpha Arena实验 [4]
腾讯研究院AI速递 20251024
腾讯研究院· 2025-10-23 16:01
谷歌AI学习平台 - 谷歌推出AI学习平台Google Skills,整合内部资源提供超过3000门课程,覆盖大型语言模型技术及伦理内容[1] - 平台采用游戏化激励方式,过去一年已有2600万人在其分散平台学习技能,现集中至统一入口[1] - 平台与150多家雇主组成招聘联盟,用户完成证书可跳过初筛直接进入面试,构建学习至就业的闭环[1] Sora项目升级 - Sora2将推出“角色客串”功能,允许用户将现实物品或生成人物投射到虚拟世界并创建独特IP进行互动[2] - 社交体验将优化,支持特定社群组队分享并减少过度内容审核,应用优化包括流畅度提升和视频编辑功能[2] - 安卓版即将上线,可在谷歌应用商店预注册[2] 快手AI编程产品 - 快手发布AI编程产品矩阵,包括KAT-Coder模型、CodeFlicker开发工具和万擎MaaS平台三位一体解决方案[3] - KAT-Coder模型在SWE-bench Verified榜单解决率达73.4%,其开源版达74.6%,收入在8个月内增长4倍[3] - CodeFlicker工具已在公司内部80%工程师中使用,支持自动生成代码仓库说明书和企业级定制服务[3] 多模态图像编辑模型 - 港科大贾佳亚团队推出DreamOmni2多模态图像编辑模型,在GitHub两周内获得1.6k星标,可处理多个参考图像并理解抽象概念[4] - 基于FLUX Kontext模型,该模型在传统任务上优于现有开源模型,支持风格迁移、动作模仿和多图编辑[4] - 采用创新三阶段数据构建范式和索引编码技术,首次实现从单一物体到完整3D场景的生成并已开源[4] 3D生成大模型 - 字节跳动推出3D生成大模型Seed3D 1.0,基于Diffusion Transformer架构,可从单张图像生成高精度3D模型[5] - 该1.5B参数模型在纹理材质生成上对标SOTA水平,能准确还原精细特征[5] - 生成的3D模型可导入仿真引擎供机器人训练,并支持从单一物体扩展至完整3D场景生成[6] Meta AI部门调整 - Meta在AI部门进行大规模裁员约600个职位,华人AI科学家田渊栋及其团队受影响,FAIR实验室成为重灾区[7] - FAIR实验室遭重创,有消息称其首席科学家可能辞职,而新成立的TBD超级智能实验室仍在招聘[7] - 公司认为原有架构过于官僚化,正将重心从开放式基础研究转向超级智能竞赛,近期达成270亿美元数据中心融资[7] AI智能终端 - 科勒推出Dekoda智能马桶售价599美元起,通过AI摄像头视觉分析排泄物判断肠道健康等状况[8] - 使用需订阅年费26至70美元的应用,其AI模型基于超100万数据点训练并采用布里斯托大便分类法[8] - 产品面临隐私争议和高昂价格限制,分析结果相对简单仅分为正常、硬便、稀便等类别[8] 量子计算突破 - 谷歌发布量子回声算法在Willow芯片上运行,解决原子相互作用速度比Frontier超级计算机快13000倍,数小时完成需3.2年的计算[9] - 这是量子计算机首次在真实硬件上成功运行可验证算法,结果可在其他同等水平量子计算机上重复验证[9] - 算法可研究从分子到黑洞的各种系统结构,为药物研发和材料科学应用铺路[9] AI模型性能比较 - Vercel公司CEO表示内部测试中Kimi K2运行速度是GPT-5和Sonnet 4.5的5倍(2分钟对比8-10分钟)[10] - Kimi K2准确率超60%,比GPT-5(低于40%)高出50%,比Sonnet 4.5(低于50%)也有优势[10] - 硅谷多家公司如Cline、Cursor等已接入K2模型,因其性能强且价格更便宜[10] 视频模型发展趋势 - a16z合伙人指出视频模型进入产品时代,不同模型如Sora 2和Veo 3正走向专业化发展[12] - 模型能力与产品间存在巨大鸿沟,创作者需手动完成的工作应由产品层面解决[12] - 未来将出现针对特定场景的专用模型、帮助用户选模型的产品和整合创作套件[12]
让海外创作者喊出「King Bomb」的P图大杀器来了
36氪· 2025-10-23 06:57
行业技术变革趋势 - 图像编辑与生成模型进入集中爆发期,对传统专业创意软件(如Photoshop)的市场地位构成显著冲击 [1] - 谷歌Nano Banana、字节Seedream4.0、阿里Qwen-Image-Edit-2509等模型引领多模态生图技术升级,涌现OOTD穿搭、文字渲染、生成电影分镜等新能力与玩法 [1] - 技术路线转向多模态指令融合,将语言理解、视觉识别与生成控制结合以实现更自然的创作体验,但语言指令描述不清、处理抽象概念乏力等局限仍存 [1] DreamOmni2技术突破与性能表现 - 港科大贾佳亚团队开源DreamOmni2,基于FLUX-Kontext训练,保留指令编辑与文生图能力,并拓展多参考图生成编辑能力 [2] - 在具体物体和抽象概念的编辑与生成任务中,DreamOmni2表现显著优于当前SOTA开源模型,部分方面甚至超越谷歌Nano Banana [2] - 实测显示DreamOmni2在换背景、风格迁移、物体替换等任务中效果精准,毛发细节保留完好,色彩氛围表现力强,生成时间短 [17][21][26][35][38] - 与主流模型对比中,GPT-4o生成结果AI痕迹明显且人物姿态失真,Nano Banana衣物颜色形态易变,DreamOmni2在细节保留与自然度上综合领先 [27][29][42] - 定量数据显示DreamOmni2在具体物体编辑任务中Human评分达0.6098,抽象属性任务中达0.6829,均高于GPT-4o和Nano Banana [44][45] 技术创新与架构优化 - 采用三阶段式数据构建范式:特征混合方案生成高质量数据对、多模态编辑数据构建、多模态生成数据整合,突破以往数据桎梏 [48][50][53] - 框架设计引入多参考图索引编码优化,通过索引编码与位置编码偏移解决像素混淆问题,提升多图像输入的区分精度 [55][56] - 训练策略上提出VLM与生成模型联合训练机制,结合LoRA模块分别优化编辑与生成功能,使模型能理解复杂用户指令并标准化输出 [56] 社区影响与行业意义 - DreamOmni2开源两周内GitHub获1.6k Star量,被海外创作者称为“King Bomb”,Youtube涌现大量使用分享视频 [6][10] - 该模型推动多模态生图能力进入深水区,为创作者提供语义理解更全面、创意延展性更强的智能引擎 [11] - 贾佳亚团队通过DreamOmni2及Mini-Gemini、ControlNeXt等系列开源工作,构建覆盖感知、理解与生成的全链路多模态技术栈,增强行业影响力 [59][60]
谷歌最强AI,被港科大开源超了?让海外创作者喊出「King Bomb」的P图大杀器来了
机器之心· 2025-10-23 05:09
行业趋势与竞争格局 - AI图像编辑与生成模型进入集中爆发期,对传统专业创意软件(如Photoshop)的市场地位构成冲击[2] - 谷歌Nano Banana、字节Seedream4.0、阿里Qwen-Image-Edit-2509等模型引领多模态生图技术升级,涌现出OOTD穿搭、文字渲染、生成电影分镜等新能力与玩法[2] - 行业技术路线正向多模态指令融合方向发展,旨在将语言理解、视觉识别与生成控制能力结合,实现更自然的创作体验[2] DreamOmni2模型核心优势 - 模型在开源两周内于GitHub上获得1.6k的Star量,显示开源社区的高度认可[12] - 在基于指令的多模态编辑任务中,DreamOmni2在具体物体和抽象属性处理上均显著优于当前SOTA开源模型,部分方面甚至超越谷歌Nano Banana[3][53] - 定量结果显示,DreamOmni2在具体物体任务上的人类评估得分达0.6098,在抽象属性任务上的人类评估得分达0.6829,全面领先于GPT-4o和Nano Banana等竞争对手[54][55] 技术突破与创新 - 公司独创三阶段式数据构建范式,通过特征混合方案创建包含具体物体与抽象属性的高质量数据对,解决了多模态训练中抽象概念稀缺及缺乏参考图像条件的结构性缺陷[58][60][65] - 框架设计实现了多参考图索引编码优化,通过将索引编码添加到位置通道并计算偏移,有效缓解了复制粘贴现象和参考图像之间的像素混淆[67][68] - 提出VLM与生成模型联合训练机制,使模型能更好地理解复杂且不规则的现实用户指令,并通过LoRA方法分别训练编辑与生成模块,在统一模型中无缝融合两项功能[68] 实际应用表现 - 在证件照背景替换任务中,模型能快速完成且保留毛发等细节,效果不输专业修图[16][20] - 在图像风格转换任务中,模型能精准还原参考图的色调与氛围,并将风格感无缝融入原图[22][25] - 在物体替换任务中,模型能准确识别主体与衣物的层级关系,自然保留人物脸部特征与姿态,其效果在对比测试中优于GPT-4o,与Nano Banana各有优势[28][31][37][52] 公司技术战略与影响 - DreamOmni2是公司过去两年深耕多模态领域的延续,团队已逐步构建起覆盖感知、理解与生成全链路的多模态技术栈[72] - 公司通过将多项研究成果(如Mini-Gemini、ControlNeXt、DreamOmni、MGM-Omni)向社区开放,增强了其多模态技术的影响力并推动生态演进[72][73] - 该模型的系统性创新为下一代AI视觉创作工具的智能进化提供了参考,使模型的多模态理解、编辑与生成能力能做到自然衔接与切换[72]