Workflow
AI图像生成
icon
搜索文档
著名机器人专家警告:投资人形机器人初创企业是浪费资金|首席资讯日报
首席商业评论· 2025-09-29 03:50
1.著名机器人专家警告:投资人形机器人初创企业是浪费资金 据 TechCrunch 报道,著名机器人专家罗德尼・布鲁克斯(Rodney Brooks)向那些将数十亿美元投入人形机 器人初创企业的投资者发出警告:你们正在浪费资金。布鲁克斯是 iRobot 的联合创始人,曾在麻省理工学 院(MIT)工作数十年。他尤其对特斯拉(Tesla)和 Figure 等公司试图通过向机器人播放人类执行任务的 视频来训练其灵巧操作能力的做法持高度怀疑态度。他在一篇新发表的文章中直言,这种做法属于"纯粹的 幻想思维"。 2.王健林及万达集团被限制高消费 据财联社9月28日电,企查查APP显示,近日,大连万达集团股份有限公司及其法定代表人王健林等被限制 高消费。案件流程显示,此前,大连万达集团股份有限公司、万达地产集团有限公司等因此案被强制执行 1.86亿。另据天眼查,大连万达集团股份有限公司股权冻结信息达47条,被冻结股权的标的企业涉及大连万 达商业管理集团股份有限公司、万达文化产业有限公司、大连万达集团商务服务有限公司等。除了股权冻 结,大连万达集团股份有限公司还有10条被执行人信息,总金额达52.62亿元。近年来,万达一直出 ...
谷歌“香蕉”爆火启示:国产垂类AI的危机还是转机?
36氪· 2025-09-26 10:44
Nano Banana的市场影响与用户增长 - Nano Banana上线两周内全球生成超2亿张图片 亚太地区用户热情最高[1] - 英伟达CEO黄仁勋公开宣称是其忠实粉丝[1] - 为Gemini App带来超1000万新用户 并助其超越ChatGPT登顶苹果应用榜[1] 行业竞争格局变化 - OpenAI以11亿美元全股票交易收购产品实验平台Statsig以应对冲击[3] - 字节跳动快速推出Seedream4.0强化豆包和即梦产品[5] - 美图股价因通用模型威胁出现巨量波动[5] 技术突破与产品特性 - 通过自然语言对话实现精准图像编辑 无需结构化提示词[8][9] - 具备Gemini大模型的"原生世界知识" 支持风格一致性/多图融合/逐步编辑等功能[9] - 成本为0.039美元每张图片(按30美元/百万token 每张消耗1290 token计算)[11] - 核心技术依赖文字渲染/交错生成/速度哲学及世界知识引入[11] 垂类应用的竞争壁垒 - 摩根士丹利认为美图核心价值在于"最后一公里"解决方案[14] - 美图优势包括垂直领域数据积累/付费功能专注/多模型整合能力[14] - C端业务依赖美颜美体精细化理解 B端业务聚焦商拍场景know-how[14] - 与阿里达成18亿元战略合作 重点推进AI试衣和AI商品图功能[17] 行业发展趋势与战略方向 - 通用模型与垂类应用的竞争焦点在于场景赋能能力[24][25] - 垂类应用需聚焦"用户付费转化" 避免与通用模型直接技术对抗[24] - AI时代演化速度是移动互联网的三倍 需寻找差异化竞争机会[25] - 终极胜负手取决于能否将通用技术转化为用户愿付费的场景服务[25]
生数科技完成数亿元A轮融资:刚发布正面对标Nano Banana的Vidu Q1参考生图
IPO早知道· 2025-09-19 02:37
专注于多模态大模型及应用的自主研发。 据 IPO早知道消息, 生数科技 日前 完成数亿元人民币 A轮融资。本轮融资将用于模型研发和技术 创新,探索多模态大模型的智能上限和应用广度,同时将持续加强产品拓展、用户服务、产业合作和 全球商业布局。 本轮 融资由博华资本管理的梁溪数字产业基金领投,百度战投、北京市人工智能产业投资基金、启 明创投、达泰资本、卓源亚洲、 BV百度风投等老股东持续跟投,建发新兴投资等产业合作方加码入 场。 成立于 2023年3月 的 生数科技核心团队由来自清华大学、北京大学、帝国理工学院、卡耐基梅隆 大学等全球顶尖高校的科研人才组成,具备深厚的产业实践经验与出色的全球化技术落地能力。公司 专注于多模态大模型及应用的自主研发,其核心产品 Vidu具备AI图像生成、视频生成与音频生成等 多项能力,广泛应用于互联网、广告、电商、动漫、文旅、广电、教育、游戏及影视等行业领域。 2024年7月,Vidu在全球上线,全球首创的「参考生」图片/视频概念,并凭借在商业内容创作领域 中一致性保持方面的关键突破,在AI视频生成和AI生图领域快速覆盖全球200多个国家和地区的超 3000万用户和6000家开发者 ...
用光学生成图像,几乎0耗电,浙大校友一作研究登Nature
机器之心· 2025-09-15 04:00
| 机器之心报道 | | --- | 编辑:张倩、陈陈 见过省电的模型,但这么省电的,还是第一次见。 在 《自然》 杂志发表的一篇论文中,加州大学洛杉矶分校 Shiqi Chen 等人描述了一种几乎不消耗电量的 AI 图像生成器的开发。 该生成器是一种受扩散模型启发的光学生成模型。其工作原理如下:首先通过数字编码器(使用公开数据集训练)生成最终构成图像的静态噪声,这一过程仅需 消耗极少能量。随后,一种被称为空间光调制器(SLM)的液晶屏幕会将这种噪声模式刻印到激光束上。该激光束再通过第二台解码 SLM 装置,将光束中的噪声 模式转化为最终图像。 与传统 AI 依赖数百万次计算机运算不同,该系统利用光完成所有核心工作,因此几乎不消耗电能。论文第一作者 Shiqi Chen 表示:「我们的光学生成模型几乎无 需算力就能合成海量图像,为数字 AI 模型提供了可扩展且高能效的替代方案。」 研究人员采用多种 AI 训练图像对系统进行测试,包括名人肖像、蝴蝶图像以及梵高风格的全彩画作。结果显示,光学系统生成的图像效果与传统图像生成器相 当,但能耗显著降低。 论文标题:Optical generative models 论 ...
Nano-Banana核心团队首次揭秘,全球最火的 AI 生图工具是怎么打造的
36氪· 2025-09-02 01:29
模型技术特点 - Nano banana实现图像生成和编辑功能的巨大质量飞跃 生成速度快 能理解模糊和口语化指令 并在多轮编辑中保持角色和场景一致性 效果更自然 [6] - 模型具备原生多模态能力 特别是交错式生成功能 可像人类一样分步骤处理复杂指令 联系上下文进行创作 而非一次性生成所有内容 [6][20][21] - 文本渲染能力提升成为评估图像生成效果的有效指标 当模型能生成有结构文字时 也能更好学习图像中的结构 [13][15][18] - 每个图像生成仅需13秒 支持快速迭代创作 用户可快速重新生成并修改提示词 [30][31] - 交错生成带来全新范式 可将复杂提示拆解为多个步骤 通过增量生成方式构建复杂图像 [32][34][35] 模型能力比较 - Imagen模型定位专业文本生成图像 在成本和响应速度上高效 适合需要快速生成高质量图像的场景 [36][37] - Nano banana作为多模态创意伙伴 适合多轮编辑和创意探索等复杂工作流 具备世界知识理解能力 [6][36][39] - 原生图像生成模型可插入图像作为参考 在理解提示词意图方面表现更出色 [40][42] 团队协作与改进 - 结合Gemini团队的世界知识与指令遵循能力 以及Imagen团队的图像美学追求 实现技术融合 [3][49] - 通过收集用户反馈构建基准数据集 持续跟踪常见失败模式并改进模型表现 [43][45] - Imagen团队贡献了自然美观的审美判断 显著改善图像生成质量 [49] 应用场景 - 支持像素级精确编辑 可只改动图像中特定元素而保持其他部分不变 [27][29] - 可实现角色多角度渲染和场景重构 将物体放入完全不同的新场景中进行真实融合 [46] - 适用于广告设计 室内装饰 角色设定等多种创意场景 [26][27][40] 未来发展方向 - 未来目标不仅是提升视觉质量 更追求模型智能性和事实准确性 [7][51][54] - 致力于打造能理解用户深层意图 甚至超越用户提示词创造更好结果的聪明模型 [7][51] - 重点改进数据保真能力 确保工作用图表和信息图既美观又准确 [54][57]
「香蕉革命」首揭秘,谷歌疯狂工程师死磕文字渲染,竟意外炼出最强模型
36氪· 2025-08-29 07:53
产品核心功能 - 多图像融合生成全新画面,最多支持13张图片合并 [2] - 二维地图转化为三维景观,理解地理等高线知识 [19][25] - 从图像中提取物理结构,精准转化线稿和上色 [38][40] - 多轮交错生成技术,实现有记忆的连续创作 [53][57] - 支持逆向图像处理,包括黑白线框重新上色和破损照片修复 [37][44] 技术架构突破 - 集成Gemini世界知识引擎,具备地理建筑识别与标注能力 [6][10][12] - 采用原生与交错式生成技术,13秒内生成五张风格统一图像 [57][59] - Gemini团队负责逻辑推理与指令遵循,Imagen团队负责美学优化 [68][70] - 通过文字渲染训练提升图像宏观与微观结构理解力 [64][65][67] 应用场景创新 - 影视制作分镜生成,实现AI辅助拍电影 [10] - 建筑设计视角转换,支持工程绘图与三维视图生成 [26][29] - 虚拟试衣与动作复刻,达成摄影棚级效果 [28][33] - 室内设计与花园改造,生成多种风格方案 [59] - 机器人视角人物轮廓勾勒,实现终结者风格图像 [17] 市场反响与测试表现 - 在LMArena平台上线后迅速风靡社区 [46][48] - 盲测中Gemini 2.5 Flash Image成绩一骑绝尘 [48] - 网友创作涵盖超人COS、奥特曼整蛊等多样化内容 [2][42] - 内部测试处理芝加哥街景等现实场景精度获验证 [50] 开发方法论 - 基于推特用户反馈建立"差评榜"优化模型 [62] - 通过多模态上下文理解实现创意指令执行 [53][55] - 团队目标开发具备事实准确性的智能办公辅助功能 [74] - 追求超越用户指令的智能涌现与创造性输出 [76][78]
谷歌旗下最强图像模型来了,P图师要消失了?
第一财经· 2025-08-27 11:20
产品发布与市场表现 - 谷歌发布最新图像生成和编辑模型Gemini 2 5 Flash Image 并登顶多个主流图像排行榜 [1] - 模型在大模型竞技场LMArena的文生图与图像编辑两个场景均排名全球第一 其中图像编辑榜单得分1362分 领先第二名171分 [5] - 在文生图榜单中模型以1147分排名第一 超过第二名Imagen-4 0-ultra-generate的1135分 [6] - 模型在图像编辑榜单排名第一 超过OpenAI的GPT-4o和阿里巴巴的Qwen-Image-Edit 在文生图榜单排名第三 略逊于字节Seedream 3 0和GPT-4o [6] 技术能力与性能特点 - 模型在角色一致性 提示词跟随 物理逻辑真实性和画面审美方面表现优秀 [4] - 核心亮点是图像编辑能力 支持多图像混合 自然语言针对性修改 并利用Gemini世界知识生成和编辑图像 [13] - 在渲染文本方面表现出色 能生成包含清晰易读且位置合理文本的图片 适合徽标 图表和海报制作 [18] - 模型支持用自然语言进行针对性变换和精准局部编辑 如模糊背景 去除污渍 移除人物 改变姿势 添加颜色等 [32] - 在物理知识方面表现较为出色 能够预判气球爆炸后的物理特征 [35] 商业化应用与成本优势 - 单张图像生成成本不到3毛钱 定价为30美元/100万个输出token 每张图像1290个输出token 价格约0 039美元 远低于OpenAI的0 19美元/张 [4][17] - 模型已具备替代部分人工修图的能力 可帮助设计师一键完成图像修改与创意生成 适用于电商产品图制作 [4] - 在电商场景中 海外用户尝试用模型生成商品展示图 如将涂抹区域替换为香奈儿手袋 效果逼真几乎看不出合成痕迹 [34][37] - 模型能适应产品模型和商业摄影 为电子商务 广告或品牌宣传制作清晰专业的商品照片 [18] 局限性 - 对中国用户的一大限制在于不支持中文输入 即使用英文提示 若生成内容涉及中文效果会显著下降 [4] - 在涉及中文场景的画面时会出现错误 如无法正确生成中文字体 [28] - 在复杂构图指令方面仍存在缺陷 如偶尔会出现多肢体等结构错误 [4][32]
00后看数博(二)| 社交媒体浪潮里的“科技印记”
搜狐财经· 2025-08-13 12:23
2025年数博会概况 - 2025年中国国际大数据产业博览会将于8月28日至30日在贵阳举行 主题为"数聚产业动能 智启发展新篇" [1] AI图像技术 - 腾讯混元图像2.0模型具备实时性及超写实画质 解决AI绘图效率与质感问题 [7] - 腾讯云"大模型图像创作引擎"提供图像风格化 AI写真 线稿生图等企业级服务 例如通过线稿设计图快速生成实物设计图缩短生产周期 [7] - AI图像生成技术可通过用户上传照片生成多元风格头像 满足00后群体美学需求 [5] AI数字人应用 - AI合成主播依托语义理解 唇形预测 图像处理技术实现全方位仿真还原 已应用于《贵阳新闻联播》等场景 [13] - 数字人生成技术从数博会展示延伸至抖音短视频 新闻直播 直播带货等领域 推动虚拟形象与内容创作融合 [15] AI社交辅助功能 - 网易云信AI助聊基于真实社交场景训练 可生成精准适配的开场白解决方案 用户可通过投喂个人标签定制内容 [23] - AI助聊功能实时监测聊天节奏 在对话平淡时主动建议生活化话题打破僵局 例如分享趣事避免尬聊 [25] - 该技术瞄准00后社交焦虑 将兴趣标签转化为个性化开场白 成为社交应用的底层支持功能 [19] 企业参展动态 - 网易数智在2024年数博会携五大业务板块参展 包括网易易盾 网易云信 网易云商等一站式企业服务 [21] - 腾讯云在2024年数博会展示三款PaaS产品 涵盖知识服务与音视频创作工具链 [7]
10 人 1600 万美金 ARR,华人团队 OpenArt 用了这 11 个 AI 技术栈
投资实习所· 2025-06-29 11:53
定位策略 - 早期面临定位挑战,AI图像生成市场竞争激烈,Midjourney以艺术化输出见长,DALL-E以技术实力著称 [1] - 核心功能与竞品相似,差异化在于用户体验和使用场景的精准把握 [1] - 确定三大核心用户群体:内容创作者、奇幻爱好者、中小企业 [2] 增长策略 - 传统SEO增长趋缓,转向程序化SEO(pSEO)策略 [2] - 针对长尾关键词创建特定主题的AI生成器页面,结构包括H1标题、示例按钮、示例画廊、使用指南 [3] - 与daydream合作,8个月内创建600多个pSEO页面,月访问量达100万次,跻身"AI艺术生成器"搜索前10 [4] 战略转型 - 从AI图像生成转向视觉故事讲述,定位为"品类定义公司" [5] - 赞助MIT AI电影黑客马拉松,验证方向可行性,团队两天创作出接近皮克斯水准的短片 [5] - 采用"Uber模式",简化复杂流程为输入→输出体验,区别于Sora/Pika/Runway的"手动挡工具" [6][7] 技术突破 - 解决角色一致性问题,通过多模态集成组合多个开源工具 [8] - 技术栈包括Stability AI、Flux、ElevenLabs、Kling、Hailuo等 [10] 产品开发与运营 - 编程工具使用Cursor或Windsurf,支持全局上下文搜索,提升效率 [13] - 测试工具Checkly和Stably减少手动QA工作量,提升稳定性 [14][15] - 客户支持工具Serif自动生成70%以上回复,减少人工干预 [16] 用户研究与内容管理 - 用户反馈工具Claude实时分析需求与情绪 [17] - 用户研究工具Dovetail快速梳理访谈内容,提取关键需求 [18] - 内容审核工具Cinder每日处理数百万张图片,保障内容安全 [19] 市场营销 - 程序化SEO工作流每月产出数百个高质量页面,带来数百万自然流量 [20] - SEM广告管理仅需1人兼职,OpenArt生成素材,DeepSeek撰写文案 [21] - 网红挖掘工具Beacons AI匹配契合度90%+的网红,GMass批量触达 [22][23] - 网红管理工具Serif和MightyScout优化沟通与追踪 [24] - YouTube分析工具VidIQ助力订阅量从0增至7万 [25] 未来愿景 - 长期目标是成为AI原生社交媒体平台,探索互动式内容格式 [9] - 定位为故事可视化解决方案,保存用户角色、故事和模板,增强用户粘性 [9]
迪士尼(DIS.N)、宽带网络供应商康斯卡特起诉AI图像生成器Midjourney。
快讯· 2025-06-11 14:50
迪士尼与康斯卡特起诉Midjourney - 迪士尼联合宽带网络供应商康斯卡特对AI图像生成器Midjourney提起诉讼 [1] - 诉讼涉及AI生成内容可能侵犯知识产权 [1] - 案件凸显传统媒体与新兴AI技术之间的法律冲突 [1]