Workflow
机器之心
icon
搜索文档
具身智能能力狂飙,安全却严重滞后?首个安全可信EAI框架与路线图出炉!
机器之心· 2025-09-16 11:57
文章核心观点 - 具身人工智能(EAI)能力与安全发展出现脱节,行业产品能力提升快但安全滞后,学术研究零散不成体系[2][4] - 研究团队提出系统性框架,旨在定义安全可信具身智能概念并建立发展蓝图,推动领域从碎片化研究转向整体构建[5][9][11] - 核心贡献包括首次定义安全可信EAI概念、提出五级成熟度模型、构建十大核心原则分析框架[11] 概念定义与演进路线 - 提出"Make Safe EAI"理念,将安全作为内生核心能力而非附加模块,划分为L1-L5五个演进等级[9][11] - L1对齐:通过数据训练符合人类价值观[17] - L2干预:通过可解释性与人类监督确保控制[17] - L3模仿反思:通过安全行为模板学习[17] - L4进化反思:通过物理世界互动自主优化安全策略[17] - L5可验证反思:提供数学可验证的安全保证[17] - 框架建立在可信计算数十年演进基础上,从可信系统到可信AI再到安全可信具身AI[12][14] 分析框架与现状评估 - 构建可信性与安全性两大维度十大核心原则的分析框架[11][16] - 当前研究集中在准确性、可靠性和抗攻击性等原则,可审计性、可辨识性等原则研究不足[19][22] - 定量分析显示各原则下研究论文数量分布不均,揭示研究热点与空白领域[22] 工作流解构与风险分析 - 将具身智能工作流解构为四个核心阶段:指令理解、环境感知、行为规划、物理交互[23][25] - 基于四阶段工作流构建文献分类体系,系统梳理各阶段各原则下的现有研究[25] 开发工具与模拟器要求 - 高质量孪生模拟器是开发可信EAI的关键工具,需要具备场景保真度、可定制性和环境可编辑性[28][30] - 图8展示了评估模拟器的关键维度,包括场景保真度对比、场景定制能力和环境可编辑性[30] 未来发展方向 - 当前研究瓶颈在于孤立优化单个组件,需要向整体闭环的控制论范式转移[32] - 提出具身智能控制论框架,包含智能体、世界和互动三要素构成的闭环系统[34] - 未来系统建立在三大支柱:高保真可扩展可交互的虚拟环境、能够自我进化的智能体、无缝协同架构[35][37][40] - 虚拟环境需要攻克高保真、可扩展、可交互的"不可能三角"[35] - 下一代记忆系统是实现智能体自我进化的核心技术[39] - 协同架构需要整合身脑协同、多智能体协作与人机协同[40][42]
在「外滩大会·具身智能:从泛化到行动,重塑产业未来」上,这些大牛都说了什么?
机器之心· 2025-09-16 08:37
机器之心报道 机器之心编辑部 当大模型几乎能回答所有问题,那 AI 的下一站将在何方?当「数字认知」的潜力被空前释放,我们又如何将其转化为「物理世界」的真实生产力? 随着行业的不断发展,答案正变得越来越清晰:行动,或是智能的终极体现。而实现这一跨越的载体,便是具身智能。 如今,技术已将其推至产业变革的商业化临界点。但我们仍必须回答三个关键问题:需要怎样的颠覆性创新,才能赋予具身智能真正的泛化行动能力?又如何跨 越从「技术可行」到「商业成功」的鸿沟,找到其不可替代的价值锚点?这场由「行动」驱动的革命,又将会把我们带往何方? 或许这一切问题,我们都可以在这里找到答案。 9 月 11 日下午,机器之心联合张江具身智能机器人有限公司共同出品的 2025 Inclusion・外滩大会 「具身智能:从泛化到行动,重塑产业未来」见解论坛在上海隆 重举办。在这场围绕具身智能展开的盛会上,多位来自学界和业界的代表分享了他们在具身智能行业发展的经验和看法。 主题演讲 为了构建沉浸式环境,业界早期尝试基于视觉点云来实现数字孪生,但生成的环境远远达不到沉浸式感知,于是开始构建物理数字系统,让物理学的各种视觉、 触觉等感知过程融入其中 ...
从少样本到千样本!MachineLearningLM给大模型上下文学习装上「机器学习引擎」
机器之心· 2025-09-16 04:01
文章核心观点 - 大型语言模型在上下文学习方面存在局限 难以从大量示例中有效学习规律 而MachineLearningLM通过创新的继续预训练框架突破了这一瓶颈 在多个领域的分类任务中显著超越基准模型[2] - 该研究采用三大核心创新:百万级合成任务训练 随机森林模型过滤机制 以及高效上下文示例编码技术 实现了千示例级别的上下文学习能力[6][10][13] - 模型在保持通用能力无损的前提下 在金融 健康 生物信息 物理等领域的表格分类任务中准确率平均超越GPT-5-mini等基准模型13-16个百分点[23][24] 技术方法创新 - 构建超过300万合成任务的大规模预训练语料库 基于结构因果模型生成二分类及多分类任务 确保与下游评估集无重叠[7] - 引入随机森林模型进行两级过滤:样本级共识过滤保留高置信度样本 任务级过滤剔除无效任务 提升训练稳定性[11][16] - 采用表格编码格式替代自然语言描述 将数值标准化映射到[0,999]整数区间 使每个数值仅需1-3个token 大幅提升数据容纳效率[15][20] - 实施序列级批量预测 将多个查询拼接成一条序列统一推理 提升推理速度并增强训练稳定性[21] 性能表现 - 在8条到1024条示例的上下文学习中 准确率呈现单调增长 从58.4%提升至75.3% 显著优于对比模型[23][24] - 在MMLU基准测试中零样本准确率达73.2% 50样本达75.4% 与基准模型Qwen-2.5-7B-Instruct持平 在统计和物理等特定领域还有提升[24][25] - 能够同时处理数值特征与自然语言描述 实现真正的异构输入推理 无需对文本进行分桶或转换嵌入向量[25] 应用与展望 - 在金融 医疗健康与科学计算等领域具有广泛应用前景 能够扩展大型语言模型的实际应用边界[27] - 未来研究方向包括合成多模态分类任务 突破上下文长度限制 集成不确定性预测和检索增强方法 以及赋能智能体记忆机制[34]
谁说Scaling Law到头了?新研究:每一步的微小提升会带来指数级增长
机器之心· 2025-09-16 04:01
Scaling Law的收益递减争议 - 很多人认为Scaling Law面临收益递减 继续扩大计算规模训练模型的做法被质疑[1] - 研究发现即使模型在单步任务准确率提升变慢 这些微小进步叠加能让完成任务长度实现指数级增长 这在现实中更有经济价值[1] - 虽然scaling law显示LLM在测试损失等指标存在收益递减 但模型现实世界价值源于智能体能完成任务的长度 从这个角度 更大模型能将单步准确率微小提升复合放大 在任务完成长度上实现指数级跃升[3] 论文核心发现 - 论文标题The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs 来自剑桥大学等机构[5][6] - 长期以来完成长程任务一直是深度学习致命弱点 自动驾驶demo炫酷但真正上路跑长途用了十多年 AI能生成惊艳图片但拍连贯一致长视频仍是难题[6] - 可以通过解耦推理或智能体任务中规划(planning)和执行(execution)需求来解决长程任务问题 规划涉及决定检索信息或使用工具顺序 执行是让规划变成现实[7] - 在思考的幻觉论文中 LLM显然知道规划 最初正确执行许多步骤 最终失败在于执行 随着任务变长 模型执行规划时更容易犯错[7] Scaling是否存在收益递减 - 虽然单步准确率提升幅度减小 但准确率微小提升可复合放大 导致模型能完成任务长度呈指数级增长[7] - 在显式提供所需知识和规划后 scaling模型大小仍显著提高模型成功执行轮次数量 说明scaling价值不仅体现在让模型记住更多知识或更会寻找问题解答上[8] - 当步骤准确率超过70%后 步骤准确率微小提升带来比指数级更快任务长度改善 即使在短任务问答基准测试中准确率提升似乎放缓 从数学角度仍可期待更长任务上取得显著收益[15] Self-Conditioning效应 - 随着任务推进 每步错误率本身会上升 这与人类形成对比 人类执行任务时通常通过练习进步[9] - 由于模型训练很大部分根据上下文预测最可能下一个token 让模型以自身容易出错历史为条件会增加未来出错可能性[9] - 随着历史中错误率升高 后续步骤准确率急剧下降 验证模型会进行self-condition设定[9] - 除了长上下文问题 self-conditioning设定还会导致模型在长程任务中性能下降 且这种性能下降不会通过增大模型规模缓解[9] 思考的影响 - 近期思考模型不会受到先前错误影响 能够修正self-conditioning限制[10] - 顺序测试时计算量显著提升模型在单轮对话中可完成任务长度[10] - 没有思维链情况下 DeepSeek V3等前沿大语言模型连两步执行都无法完成 而具备思考能力版本R1能执行200步 凸显行动前进行推理重要性[10] - GPT-5思考版本(代号Horizon)能执行超过1000步 远超能执行432步Claude-4-Sonnet[10] 经济价值衡量 - 人类劳动报酬往往按时间计算 如果智能体经济价值源于它能完成任务时长 那么单轮或短任务基准可能并非评估进一步投资大语言模型计算资源带来收益可靠参考[19] - 这些基准可能让人产生进展放缓错觉 而更能体现经济价值指标 模型能完成任务时长 实际上仍在快速增长[19] - 如果一个模型能完成任务长度表明其经济价值 那么持续投入增加计算量可能值得 即便短任务基准测试给人进展放缓错觉[11] 实验设计与结果 - 通过显式提供必要知识和规划隔离执行失败情况 将航班选择智能体示例中"先检索后组合"步骤串联起来[23] - 规划负责决定检索什么以及如何组合 而执行是实际执行这些操作 符合键值(key-value)词典抽象[23] - 即使去除了规划和知识要求 长时程任务执行对LLM仍具挑战性 所有模型第一步达到100%准确率 但任务准确率在后续回合迅速下降[25] - 更大模型在更多轮次保持更高任务准确率 导致任务长度呈现明显scaling趋势[27] - 随着轮次数量增加 各轮次准确率稳步下降 长上下文和self-conditioning都会导致准确率下降[28] - 当以无错误历史为条件时 模型在第100轮轮次准确率低于初始值 这与长上下文退化观察一致 随着上下文中注入错误比例提高 第100轮准确率持续下降 证明self-conditioning效应[28] 单轮任务执行能力 - 没有思维链情况下 不具备思考能力模型难以在单轮中完成两个步骤衔接[34] - 更大规模Qwen3 32B Gemma3 27B 以及DeepSeek-V3(670B)和Kimi K2(1026B)等前沿非思考型模型 连复杂度为2单轮任务都无法完成[34] - 借助思维链 模型在单轮中能执行步骤数量显著增加 对于智能体 行动前先进行推理至关重要[36] - 对于长时程执行任务 顺序性测试时计算比并行测试时计算更有效[36] - GPT-5(代号Horizon)与其他模型如Gemini 2.5 Pro Grok 4和DeepSeek R1之间存在巨大差距[36] - 经过强化学习训练思维模型DeepSeek R1性能显著优于其经指令微调对应模型DeepSeek-V3[36] - 长时程执行是挑战 开源权重模型仍在追赶仅通过API提供模型[37]
刚刚,OpenAI发布GPT-5-Codex:可独立工作超7小时,还能审查、重构大型项目
机器之心· 2025-09-16 00:22
产品发布与核心能力 - OpenAI发布GPT-5-Codex,专为智能体编程任务优化,训练重点为真实软件工程任务,具备快速响应和独立处理冗长任务的能力 [1] - 模型在SWE-bench Verified和Code refactoring tasks基准测试中准确度优于GPT-5 (high),且首次使用全部500个任务(此前仅用477个) [8][10] - 可根据任务复杂度动态调整思考时间,交互式会话响应快,复杂任务可持续运行超7小时 [11][12] - 在用户请求token最少10%的场景下,token消耗比GPT-5少93.7%;在token最多10%的场景下会投入更多时间深入推理 [12] 功能特性与性能表现 - 具备代码审查能力,可主动发现关键漏洞,通过遍历代码库、分析依赖和运行测试验证正确性,审查意见错误率更低且更聚焦关键问题 [1][14] - 支持前端任务(生成桌面应用、优化移动网站)和云端任务(读取图片截图并返回结果),深度优化Codex CLI、IDE插件及GitHub集成 [16] - 结合交互式会话与持久自主执行能力,支持完整项目构建、功能开发、测试编写、调试和大规模重构 [8] 产品集成与用户体验 - 已在Codex所有使用场景上线(包括CLI、IDE扩展、网页端、移动设备及GitHub代码审查),并为云端任务和代码审查的默认模型 [3] - 发布2.5小时后流量占Codex总流量40%,预计当日成为流量主体 [3] - 用户可通过Codex CLI或IDE插件在本地任务中选择使用,且与ChatGPT账号打通实现无缝切换环境 [3][4] 开发工具升级 - Codex CLI开源并重新设计,支持直接添加图片(如截图、线框图)建立共享上下文,集成待办清单跟踪进度,支持web搜索和MCP工具连接 [19] - CLI提供三种批准模式:只读(需明确批准)、自动(工作区内自动执行)、完全访问(可读任意文件并运行命令) [22] - IDE插件支持VS Code及其分支,支持无缝预览本地改动并直接修改代码,终端界面工具调用和代码差异显示格式更清晰 [20][21] 云端与GitHub集成 - 云端Codex支持图片上传(如UI设计规范或bug截图),并在浏览器中自检效果后附截图至任务或PR [23] - 通过缓存容器使新任务和跟进任务完成时间缩短90%,自动执行环境配置脚本及依赖安装命令 [25] - GitHub集成支持自动代码审查(PR从草稿变为可审查状态时自动分析),用户可通过"@codex review"指令手动请求审查或指定审查类型 [34] 安全与权限管理 - 默认在沙箱环境中运行且关闭网络访问,避免有害操作和提示词注入风险 [34] - 执行危险操作前会请求许可,并经过训练以命令验证输出;支持可配置安全设置(如限制网络域名、批准命令执行) [34] - 在生物与化学领域任务中归类为High能力,并采取相应安全措施减少潜在风险 [30] 商业化与可用性 - 包含在ChatGPT Plus、Pro、Business、Edu和Enterprise订阅中 [3][32] - Plus/Edu/Business用户支持每周数次集中编程会话,Pro用户支持整周多项目完整工作量 [35] - Business计划可额外购买积分突破上限,Enterprise计划提供共享积分池并按实际使用付费 [36] - 暂未开放API Key访问,但即将通过API开放GPT-5-Codex [36]
多模态BUG修复新SOTA:慕尼黑工大GUIRepair登上SWE-bench Multimodal榜单第一
机器之心· 2025-09-16 00:22
研究背景与动机 - 自动化程序修复(APR)是软件工程重要方向 旨在利用智能技术自动定位并修复bug以节省人工调试成本[6] - 现有APR研究主要集中于单一模态(文本+代码)层面 在经典基准(SWE-bench, Defects4J)已展现强性能[6][7] - 现实软件开发中存在多模态问题 特别是前端和GUI应用中用户常通过屏幕截图报告视觉软件缺陷[8][10] - GUI相关问题单靠文字难以描述清楚 截图提供的视觉信息至关重要但现有APR系统很少关注该领域[10][11] - GUI Testing社区虽关注GUI软件问题 但重点在于发现bug而非自动修复 导致APR与GUI Testing出现断层[12] 解决方案与技术框架 - GUIRepair是跨模态自动修复框架 成功将APR与GUI Testing经验知识融合[15] - 核心设计哲学为"Seeing is Fixing" 强调只有真正看见问题才能更好修复问题[17] - 框架由两个互补跨模态组件构成: Image2Code(将视觉元素转化为可执行代码上下文)和Code2Image(将代码行为重新渲染为视觉输出)[18][21] - 实现跨模态双向转换 建立视觉信息与代码行为的联系 包括从图像→代码的理解和代码→图像的验证[18][21] - 输入包含文本描述(issue报告)和源代码 通过多模态LLM进行跨模态推理修复[13] 实验成果与性能表现 - 在SWE-bench Multimodal基准进行评测 该基准涵盖517个真实多模态问题 来源于JavaScript开源库[19] - 使用GPT-4o作为基座模型时成功解决30.37%任务实例 超越现有使用相同模型的修复系统[22][23] - 使用更强o3模型时达到35.98%修复成绩 超过所有开源和商业修复系统 登顶SWE-bench Multimodal排行榜第一[22][23] - 在排行榜中GUIRepair + o3以35.98%分辨率位居首位 高于Refact.ai Agent(35.59%)和OpenHands-Versa(34.43%)等系统[23] 研究意义与行业影响 - 开辟了多模态软件自动修复新研究方向 为自动化程序修复领域带来重大突破[24][25] - 推动自动化多模态软件工程进入新时代 展示跨模态力量在软件工程中的应用潜力[27] - 填补了APR与GUI Testing之间的断层 使模型具备视觉理解与自动修复双重能力[12][34] - 尽管只是起点 但为未来多模态软件工程研究提供更广泛应用场景和更强任务解决能力[28]
从「对口型」到「会表演」,刚进化的可灵AI数字人,技术公开了
机器之心· 2025-09-15 12:19
技术框架 - 采用多模态大语言模型赋能的两阶段生成框架 通过多模态导演模块将音频 图像和文字提示组织成结构化故事线 [6][7][8] - 首先生成蓝图视频明确整体节奏和风格 然后基于首尾帧条件并行生成子段落视频 最后拼接完整视频 [10][11][12] - 引入音频对齐插帧策略保证口型与声学节奏的帧级同步 并通过负向CFG抑制身份漂移模式 [12][17] 数据与训练 - 从演讲 对话 歌唱等语料库收集数千小时视频 通过专家模型筛选嘴部清晰度 音画同步等维度 再经人工复核得到数百小时高质量训练数据 [14] - 构建包含375个"参考图-音频-文本提示"的测评基准 涵盖多语言 多情感 多动作场景 未来将开源 [14] 性能表现 - 在GSB测评体系中总体效果对比OmniHuman-1达2.39 对比HeyGen达1.37 在口型同步维度对比HeyGen达2.35 [16][24] - 在英语演讲场景对比OmniHuman-1的口型同步指标为1.00 中文演讲场景对比OmniHuman-1达3.90 [24] - 支持分钟级长视频生成 总生成时间理论上与单段生成相当 在1分钟视频中保持身份一致性和动态性 [28] 应用功能 - 能够准确还原高难度音节口型(如"truth"的[u:]发音)和高频语音中的静音段落口型状态 [25] - 精准响应情绪 动作 镜头三类文本控制 包括"兴奋"情绪和"镜头缓慢上移"等指令 [26] - 已集成至可灵平台开启公测 支持用户通过图像 音频和文本生成数字人视频 [2][31]
数字生活的原生入口:蚂蚁集团发布AI眼镜全新技术框架gPass
机器之心· 2025-09-15 12:19
AI眼镜行业发展趋势 - AI眼镜将成为AI原生入口 彻底重构数字生活服务模式[4] - 服务形态从平面感知走向空间认知 数字信息与物理环境深度融合[4] - 交互方式从线性指令走向感官交互 基于多模态交互实现更自然高效的沟通[4] - 体验模式从垂直场景走向生活服务 通过环境感知提供个性化主动式服务[4] 行业当前挑战 - 端到端软硬件能力碎片化 基础设施薄弱且缺乏统一标准[6] - 原生应用严重缺乏 难以满足多元化场景需求[7] - 移动互联网服务向智能化服务升级难度大 延缓技术普及速度[7] gPass技术框架核心能力 - 基于生物核身实现可信身份流转 建立设备与用户唯一可信绑定关系[10] - 构建硬件可信根的端到端安全通信连接 打造全链路跨多端软硬结合可信方案[10] - 在手机端和眼镜端建立可信隐私沙盒体系 保障数据传输机密性和完整性[10] gPass交互技术创新 - 提供视频图像声音多模态理解技术 声纹作为核心验证因子[11] - 首次实现智能眼镜端支付功能 通过持续语音交互完成无感核验[11] - 研发跨Android与RTOS渲染解决方案 弥补基础设施不足[11] - 探索手势识别技术 实现跨端精准同步的消息推送[11] gPass连接生态构建 - 实现多端互联 顺畅连接手机/智能汽车/智能家居/可穿戴设备[12] - 支持多模态大模型原生交互 无缝融入AI能力[12] - 接入蚂蚁生态海量智能体 覆盖支付/出行/文旅/金融/医疗等高频场景[12] 应用落地与行业合作 - 已应用于rokid/小米/夸克/雷鸟等眼镜品牌 实现"看一下支付"功能[15] - 在医疗健康场景提供健康咨询/AI问诊/就诊提醒/药品解读等服务[15] - 通过与全产业链伙伴协作 推动AI眼镜从单一工具到完整生态的质变[15]
OpenVision 2:大道至简的生成式预训练视觉编码器
机器之心· 2025-09-15 12:19
研究背景与团队 - 研究由加州大学圣克鲁兹分校、苹果公司与加州大学伯克利分校合作开展 第一作者为UCSC博士生刘彦青 本科毕业于浙江大学 研究方向包括多模态理解与视觉基础模型[2] - 通讯作者为UCSC谢慈航教授 团队成员包括来自UCSC、苹果公司与UCB的研究人员[2] OpenVision系列发展历程 - OpenVision于ICCV发布 是完全基于公开数据和开源代码训练的视觉编码器家族 提供25个以上预训练模型 参数量从590万到6亿+ 覆盖多种patch size与分辨率设置[6] - OpenVision在多个多模态基准任务上媲美甚至超越OpenAI的CLIP与Google的SigLIP 成为学术界和产业界重要替代方案[7] - OpenVision训练管线存在双重对比目标与生成式caption预测设计 导致文本编码器计算量几乎翻倍 训练成本显著增加[8] OpenVision 2技术创新 - 移除文本编码器与对比学习 仅保留图像→描述生成目标 框架简化为图像编码器+文本解码器两个模块[9] - 引入视觉token随机丢弃技术 预训练阶段随机丢弃约2/3视觉token 仅用1/3 token生成完整描述 大幅减少文本解码器计算负担[10] - 采用稀疏提示机制 迫使模型在有限条件下还原完整caption 提升表征抽象能力 体现少即是多理念[13] 性能表现 - 在TextVQA任务中 OpenVision 2(ViT-L/14 224分辨率)达到59.0分 优于OpenAI-CLIP的56.1分和MetaCLIP-5B的55.6分[15] - 在OCR任务中 OpenVision 2(ViT-L/14 224分辨率)达到327分 显著优于OpenAI-CLIP的177分和MetaCLIP-5B的313分[15] - 在336分辨率下 OpenVision 2(ViT-L/14)在TextVQA任务达到63.0分 优于OpenVision的61.2分和OpenAI-CLIP的59.1分[15] - 参数量632M的H/14模型在448分辨率下 TextVQA达到65.6分 ChartQA达到18.1分 OCR达到416分[15] 训练效率提升 - ViT-L/14模型训练时间从83小时缩短至57小时 缩减31% SoViT-400M模型从241小时缩短至121小时 缩减50%[16] - 显存占用减少近一半 ViT-L/14模型峰值显存从24.5GB降至13.8GB[16] - 单卡批大小从2k扩展到8k 大幅提升训练吞吐量[16] - FLOPs per Image从271.75降至208.90(ViT-L/14) 从1636.75降至1017.74(SoViT-400M)[16] 技术原理分析 - 生成式监督更贴近下游多模态大模型推理方式 减少预训练与下游任务间目标错位[22] - 采用Recap-DataComp-1B v2数据集 caption生成结合图像和原始文本 提供更细致贴合语义的监督信号[22] - 视觉token随机掩码技术在保持性能同时降低算力开销 提升模型泛化与鲁棒性[22] 行业影响与开源贡献 - 挑战对比学习主导范式 证明生成式框架同样能训练强大视觉编码器 在效率和可扩展性具显著优势[21] - 开源超过25个不同规模和配置模型 完整公开训练代码与数据管线 为学术界和产业界提供可复现资源[21] - 展示大道至简设计理念 为多模态基础模型发展提供新方向 支持10亿参数规模可扩展训练[21]
用光学生成图像,几乎0耗电,浙大校友一作研究登Nature
机器之心· 2025-09-15 04:00
技术原理 - 开发了一种受扩散模型启发的光学生成模型 利用光学原理而非传统计算机运算完成图像生成[1][2] - 系统通过数字编码器生成静态噪声模式 再通过空间光调制器将噪声刻印到激光束上 最终由解码装置转化为图像[2] - 采用浅层数字编码器将随机二维高斯噪声快速转换为二维相位结构 形成光学生成种子[11] - 包含即时生成和迭代生成两种模式:即时模式通过预计算光学种子实现按需生成 迭代模式采用递归去噪操作重建图像[13][17] 性能表现 - 光学系统生成图像效果与传统图像生成器相当 但能耗显著降低[3] - 在MNIST和Fashion-MNIST数据集上分别达到131.08和180.57的FID评分 证明生成图像符合目标分布[22] - 实现高分辨率图像生成:单色图像采用520纳米波长 彩色图像使用450/520/638纳米三波长通道[24] - 彩色图像生成共享同一解码器状态 虽存在轻微色差但仍保持优异质量[28] 应用前景 - 凭借超高速和超低能耗特性 可应用于VR/AR图像视频生成[6] - 适用于智能手机、AI眼镜等可穿戴电子设备的小型化终端[6] - 为数字AI模型提供可扩展且高能效的替代方案[3] 研究现状 - 目前仍处于物理实验阶段 距离实用化尚有距离[9] - 采用5.8亿参数数字编码器实现高分辨率生成 对比教师数字扩散模型需10.7亿参数和1000次迭代步骤[28]