机器之心

搜索文档
被网友逼着改名的谷歌Nano Banana,正在抢99%时尚博主的饭碗
机器之心· 2025-09-05 07:12
产品命名与用户反馈 - 谷歌将AI模型名称从Gemini 2.5 Flash Image改回用户更喜爱的Nano Banana 体现公司对用户意见的重视[1][2] - 网友建议AI模型采用水果蔬菜命名方式 认为这比传统拗口命名更有趣且易于记忆[4] AI在时尚行业的应用场景 - Nano Banana可生成明星OOTD(今日穿搭)俯拍平铺图 精准复刻服装配饰鞋子等细节 如不对称剪裁和下摆流苏设计[6][9][21] - 传统时尚博主需要从零散图片中识别单品来源并标注品牌价格 工作耗时且竞争激烈[13][15][16] - AI工具将时尚内容制作流程从耗费心力的工程简化为快速生成 极大提升效率[17][25] 技术实现与优化方案 - 通过多角度参考图和详细提示词可提高生成准确性 要求包括颜色纹理廓形精确复刻及整洁排列[24][26] - 分步操作策略:先使用Gemini 2.5识别品牌(如正确识别阿玛尼礼服和宝格丽珠宝)再生成带品牌标注的OOTD图[36][38] - 当前一次性生成带准确品牌标注的清单图成功率较低 存在单品货不对版或品牌标注错误的问题[30][35] 多功能扩展应用 - 一键换衣功能可实现明星试穿高定礼服 解决合身度与气质匹配问题 生成效果贴合度极高[43][44][45][47] - 支持设计线稿上色 通过上传线稿图和色卡可准确填充颜色 保留服装细节[49][54][56] - 将设计草图转换为时装秀成品 极大压缩传统时尚创意呈现所需的冗长流程与人力投入[57] 行业影响与未来展望 - AI生成技术让设计师更快试验灵感 造型师提前预览效果 普通人轻松尝试不同风格[58] - 工具在服装设计时尚内容创作和个人穿搭灵感发掘等领域展现巨大应用潜力[49][58]
Nano Banana爆火之后,一个神秘的「胡萝卜」代码模型又上线了
机器之心· 2025-09-05 04:31
大模型命名趋势 - OpenAI率先使用水果名称"Strawberry"命名模型引发热议[2] - 命名潮流扩展至动物和蔬菜 如Recraft的"red_panda"和谷歌的"Nano Banana"[4] - 新出现的"Carrot"模型延续了这种非正式命名趋势[5] Anycoder平台新模型 - 在Anycoder平台发现名为"Carrot"的新模型 具备超强代码能力[5][7] - 该平台同时集成了DeepSeek V3、Gemini 2.5 Pro、Grok-4、GPT-5等多个明星模型[8] - 模型演示地址为https://huggingface.co/spaces/akhaliq/anycoder[10] Carrot模型能力展示 - 能制作兔子躲避胡萝卜的游戏 实现胡萝卜作为子弹的编程效果[10] - 可生成体素宝塔花园和P5.js超粒子动画等复杂图形程序[12][14] - 知名博主AK使用该模型制作了"gemma-3-270m"聊天机器人 运行效果良好[16] 模型来源猜测 - 网友猜测可能来自谷歌 因谷歌刚发布Nano Banana图像模型[18] - 排除Kimi可能性 因Kimi刚刚发布K2 0905版本[19] - 也有猜测可能来自阿里的Qwen3系列[21]
沉寂一个月,openPangu性能飙升8%!华为1B开源模型来了
机器之心· 2025-09-05 04:31
端侧AI模型技术突破 - 华为发布专为昇腾端侧硬件打造的高性能语言模型openPangu Embedded-1B 通过软硬件协同设计显著降低推理延迟并提升资源利用率 采用多阶段训练策略增强任务表现[1] - 模型仅10亿参数但实现性能与效率高度协同 树立"小模型大能力"新标杆 成功将强大AI能力带入端侧设备[2] 性能表现与基准测试 - 模型在多个权威基准上创下10亿参数级别全新SOTA纪录 整体平均分达63.90 持平更大规模Qwen3-1.7B模型(63.69分)[3] - 数学推理能力突出 GSM8K数学基准达82.76% MATH数学题集达81.83% 大幅领先同类模型[3] - 相比上月开源版本V1 V1.1版本平均分实现8%以上大幅跃升 显示开源盘古系列加速迭代升级[5] 软硬件协同优化 - 针对昇腾Atlas硬件特性定制网络超参数 隐藏层规模与前馈网络维度匹配高效吞吐配置 确保计算单元充分利用[9] - 在Atlas 200I A2硬件上首字输出延迟仅约1.8秒 后续每词生成约0.156秒 速度优势显著[12] 创新训练方法 - 采用两阶段课程学习式微调 第一阶段专注理性推理能力 第二阶段训练快速作答 激活深层推理能力[15][23] - 引入离线On-Policy知识蒸馏方法 学生模型自主作答后教师模型针对性指导 提升准确率和泛化能力[18][24] - 采用多源奖励强化学习机制 数学代码任务使用规则奖励 复杂任务采用轻量级LLM评估 结合格式规范奖励策略[22][25] - 开发昇腾NPU集群高效并行方案 减少约30%设备空闲 通过主机-设备权重共享优化大规模强化学习运行效率[21] 技术发展前景 - 提出自适应快慢融合方案 模型可根据问题难度自动选择快速作答或深入推理 在保持精度的同时提高易答问题效率[29] - openPangu-Embedded-7B模型已应用该策略并在7B量级取得领先 升级版本即将开源[30]
多模态大模型持续学习系列研究,综述+Benchmark+方法+Codebase一网打尽!
机器之心· 2025-09-05 04:31
生成式AI与多模态大模型持续学习研究 - 中国科学院自动化研究所联合中国科学院香港院AI中心系统研究生成式AI和多模态大模型的持续学习 提出综述、方法、Benchmark和Codebase以支持研究者和实践者 [2] 生成式AI持续学习综述 - 论文《Continual Learning for Generative AI: From LLMs to MLLMs and Beyond》系统综述生成式AI持续学习方法 涵盖大语言模型(LLMs)、多模态大语言模型(MLLMs)、视觉语言动作模型(VLA)和扩散模型 [4][5] - 研究围绕训练目标、应用场景及技术方法 方法包括架构扩展、正则化和回放策略 评估指标包括整体性能、遗忘程度和泛化能力 [8] 多模态大模型持续学习Benchmark与方法 - 提出UCIT评测基准 通过zero-shot筛选机制构建无信息泄露风险数据集 解决预训练数据重叠导致的评估失真问题 [13] - 提出HiDe-LLaVA方法 采用分层处理机制:顶层动态专家选择实现任务自适应 其余层参数融合保留跨任务共享知识 有效缓解灾难性遗忘 [13][14] - 提出联邦连续指令微调(FCIT)基准 包含同质和异质两种现实场景 通过4种实验设置和12个数据集评估非独立同分布数据和灾难性遗忘表现 [18][20] - 提出DISCO框架 结合动态知识梳理(DKO)和子空间选择激活(SSA)策略 在FCIT基准上取得最好表现 [20][21] 多模态持续学习方法创新 - 提出ModalPrompt框架 利用图像-文本双重监督构建任务特定原型提示 实现无回放数据下的知识保留 推理速度提升1.42倍 [25][27] - 提出多模态大模型持续学习基准MLLM-CL 涵盖领域持续学习(DCL)和能力持续学习(ACL)两种设置 针对IID和非IID场景评估 [30][32] - 提出MR-LoRA方法 通过领域或能力特定的LoRA模块实现参数隔离 避免任务间干扰 在DCL和ACL任务上显著优于传统方法 [32][33] - 提出LLaVA-c改进模型 通过谱感知巩固(SAC)克服新旧知识冲突 通过无监督查询正则化(UIR)防止基础模型退化 持续学习效果首次超越多任务联合训练 [35][37] 开源代码仓库与标准化平台 - 推出MCITlib开源代码仓库 集成8种主流算法 精选UCIT和DCL两个高质量基准 避免信息泄露 提供统一公平的实验环境 [39][41][42] - 代码仓库将持续更新 扩展更多模型、任务和评测维度 为多模态大模型持续学习研究提供支持 [42] 研究团队与成果 - 核心作者包括郭海洋、朱飞、曾繁虎、刘文卓、赵宏博 通讯作者为张煦尧研究员和刘成林研究员 团队长期从事人工智能研究 成果发表于CVPR、ICCV、NeurIPS等顶级会议与期刊 [2] - 多项研究已被ACL 2025、ICCV 2025、EMNLP 2025接收 相关代码及数据已全部开源 [13][21][28]
刚刚,李飞飞主讲的斯坦福经典CV课「2025 CS231n」免费可看了
机器之心· 2025-09-04 09:33
课程概述 - 斯坦福大学2025年春季《CS231n:深度学习与计算机视觉》课程正式上线,专注于深度学习架构细节及视觉识别任务[1] - 课程重点围绕图像分类、定位和检测等端到端模型学习,特别是图像分类领域[2] - 课程为期10周,学生将实现并训练神经网络,深入理解计算机视觉前沿研究[3] - 结业时学生可在真实世界视觉问题上训练和应用数百万参数的神经网络[4] - 通过实践作业和课程项目,学生掌握深度学习工具集及深度神经网络训练与微调的工程技巧[5] 讲师团队 - 李飞飞担任主讲人之一,为斯坦福教授、World Labs CEO,领导创建ImageNet项目并推动深度学习在计算机视觉领域的革命性突破,近期研究方向为空间智能与世界模型[6] - Ehsan Adeli为斯坦福大学精神病学与行为科学系及计算机科学系助理教授,研究方向包括计算机视觉、计算神经科学、医学影像分析等[6] - Justin Johnson为密歇根大学助理教授及FAIR研究科学家,研究兴趣包括视觉推理、图像生成和3D推理[6] - Zane Durante为斯坦福大学三年级博士生,导师为李飞飞和Ehsan Adeli,研究方向包括多模态视觉理解及人工智能在医疗健康中的应用[7] 课程资源 - 课程全部18个视频已在Youtube免费开放,第一和最后一堂课由李飞飞讲授[12] - Youtube播放列表包含18个视频,总观看次数达984次,其中第一讲观看次数为7410次,第二讲为1057次,第三讲为706次,第四讲为442次[12] - 视频地址为https://www.youtube.com/playlist?list=PLoROMvodv4rOmsNzYBMe0gJY2XS8AQg16[12] 课程内容目录 - 课程内容涵盖线性分类器图像分类、正则化与优化、神经网络与反向传播、卷积神经网络图像分类[16] - 包括卷积神经网络训练与架构、循环神经网络、注意力机制与Transformers、目标识别与图像分割[16] - 涉及视频理解、大规模分布式训练、自监督学习、生成式模型、3D视觉、视觉与语言、机器人学习及以人为中心的人工智能[16]
又多了一个哄孩子AI神器,一张破涂鸦竟能秒变迪士尼动画
机器之心· 2025-09-04 09:33
AI视频生成技术应用 - 博主使用Midjourney将30年前的涂鸦画制作成"妈妈拿彩虹木勺大战巨龙"动画 完美还原童年想象力 [2][4] - 即梦AI工具可根据提示词框架"we crash zoom into an immersive scene [subject + action] intense cinematic action"生成沉浸式场景视频 [5] - 即梦能够将涂鸦中的三个小人活灵活现呈现 动作自然流畅无画面崩坏或卡顿现象 [7] 多模态AI生成能力 - 即梦提供AI配乐功能 可自动生成三首符合画面风格的曲子 [8] - 谷歌Veo3实现音视频同步生成 整体效果毫无违和感 具有卡通电影片头质感 [13] - 即梦能够精确捕捉角色动作轨迹 如小女孩手臂摆动和步伐配合恰到好处 无同手同脚或多胳膊少腿错误 [14] 工具功能对比 - Veo3在音频清晰度和同步性上表现更成熟 能较好处理多层次音效和画面同步 [17] - 即梦和可灵在复杂动态场景中也能实现音效与动作同步 但音效清晰度和丰富度仍有提升空间 [17] - 各工具均能在较短时间内完成视频和音频内容生成 [17] Meta动画生成工具 - Animated Drawings可将涂鸦变为动画 要求图片主角肢体不与身体重叠 画质清晰无阴影 [18][22] - 工具自动识别角色并用方框标注 提供手动微调功能 支持32种动画模板包括走跑跳等动作 [24][26][28] 行业招聘信息 - 上海人工智能实验室开启2026届全球校招 目标2025年1月-2026年10月毕业生 [35][37] - 提供算法研发产品运营等六类岗位 算法类聚焦大模型多模态等方向 研发类聚焦分布式训练框架等 [41] - 招聘流程包括2025年8月20日启动网申 6场集中笔试 3-4轮极速面试 [44][45]
PosterGen:告别学术海报制作烦恼,从PDF一键生成「演示级」可编辑PPTX学术海报
机器之心· 2025-09-04 09:33
核心观点 - 推出PosterGen多智能体框架 将论文PDF直接转化为设计精良且完全可编辑的PPTX格式学术海报 解决研究者制作海报耗时费力的问题[2] - 通过模拟专业设计师工作流的多智能体协作架构 系统性分解创意设计任务 建立端到端工作流[9] - 遵循四大核心设计原则 在视觉美学和版式规范上达到与人类设计相媲美的自动化生成效果[9][27][28] 技术架构 - 采用四智能体协同工作架构:内容解析与策划(Parser and Curator Agents)、空间布局生成(Layout Agent)、视觉风格化(Stylist Agents)、海报渲染输出(Renderer)[30] - Parser Agent从PDF提取文字与视觉元素 Curator Agent按ABT叙事结构重构故事板[31] - Layout Agent采用三栏式网格布局 通过类CSS盒模型实现精细化间距控制[32][34] - Stylist Agents包含色彩智能体和字体智能体 分别负责专业调色板生成和视觉层级构建[37][39] - Renderer模块调用python-pptx库生成可编辑PPTX和高分辨率PNG输出[42] 核心设计原则 - 叙事结构:采用ABT(And, But, Therefore)科学写作结构构建逻辑线索[27] - 空间布局:使用三栏式网格布局确保自然阅读流 通过留白分离内容模块[27] - 色彩方案:采用克制的主题单色调配色 严格遵守WCAG 4.5:1对比度标准[28] - 版式层级:选用无衬线字体 通过字号和格式构建视觉与语义双重层级[28] 技术创新 - 提出优化文本高度估算算法 通过二分搜索确定最小文本框高度 避免内容溢出[35] - 色彩智能体自动提取机构Logo主题色 结合色彩理论生成专业调色板[37] - 字体智能体构建视觉层级和语义层级 通过粗体/斜体/强调色突出关键信息[39] 性能表现 - 在GPT-4o评估中:内容指标平均得分4.33 设计指标平均得分4.44[45] - 在Claude Sonnet 4评估中:内容指标平均得分3.70 设计指标平均得分3.70[45] - 相比SOTA方法PosterAgent:在设计与美学指标上取得显著提升 尤其在主题一致性/风格层次/字体可读性维度实现压倒性领先[52] - 相比GPT-4o直接生成:有效避免内容幻觉和文本乱码问题 解决元素重叠和阅读流不自然缺陷[52] 应用价值 - 端到端工作流使研究者从海报设计工作中解放 专注于学术交流核心价值[9] - 生成结果达到演示级别水准 可直接用于学术会议现场[42] - 展示多智能体系统在逻辑与创意融合任务上的巨大潜力[51]
刚刚,OpenAI发布白皮书:如何在AI时代保持领先
机器之心· 2025-09-04 07:04
AI发展速度与商业影响 - AI发展速度超越摩尔定律,前沿大规模AI模型发布数量自2022年以来增加5.6倍 [4] - 运行GPT-3.5等级模型的成本在18个月内降低280倍 [4] - AI采用速度比桌面互联网快4倍,早期采用AI的企业收入增长速度比同行快1.5倍 [1][5] OpenAI企业AI应用核心原则 - 提出五项指导原则:协调(Align)、激活(Activate)、扩大(Amplify)、加速(Accelerate)和治理(Govern) [6][7] - 原则涵盖战略对齐、团队激活、成果放大、决策加速和负责任治理 [7][35] 企业AI战略实施要点 - 领导者需明确传达AI计划目标,Moderna公司CEO要求员工每天使用ChatGPT 20次 [9][10] - 建立与KPI挂钩的明确采用指标,如交易速度、客户服务成本或研发周期 [10] - 高管应公开示范AI使用,OpenAI首席财务官定期讨论ChatGPT使用案例 [12] AI人才培养与组织激活 - 近半数员工缺乏AI培训,培训是企业采用AI技术的首要因素 [14] - 圣安东尼奥马刺队通过将培训融入日常工作,使组织AI熟练度从14%提升至85% [15] - 建立"AI冠军"网络分享用例,一线员工可发现工作流程改进机会 [17] 实验与创新机制 - 需创建安全实验空间,Notion通过黑客马拉松催生核心功能Notion AI [19] - 每月分配时间进行结构化试错可带来丰厚回报 [19] - 建立集中式知识中心避免项目冗余,加速规模扩张 [21] 决策流程优化 - 需要轻量级项目审批流程,雅诗兰黛集中式GPT实验室收集超1000个员工构想 [23][24] - 创建由高管推动的AI委员会解除项目阻碍,BBVA银行中央AI网络是成功案例 [26][27] - 追踪团队AI使用情况并对高使用率团队进行投资,如Promega公司做法 [29] 治理与风险平衡 - 需要轻量级且不断发展的安全保障措施 [32] - 建议季度审计和通俗易懂的指导,在速度与安全之间取得平衡 [32] - 合规框架需与工具同步发展,以应对全球监管要求 [33]
J.P. Morgan机器学习卓越中心高管亲述,华尔街AI实战心法
机器之心· 2025-09-04 07:04
人工智能在金融行业的应用现状 - 人工智能和机器学习正成为金融行业的重要推动力 应用场景从量化交易扩展到风险管理[1] - 算法模型从学术研究走向华尔街实际应用时暴露出一系列现实挑战[1] 金融AI实践中的核心问题 - 金融机构更关注支持"What-if"分析的决策工具 而非单纯预测模型 例如利率变动影响分析[5] - 金融数据中存在相关性不等于因果关系的统计误区 需避免对撞机问题等建模陷阱[5] - 金融数据结构复杂 包括收益率曲线(函数时间序列) 支付网络(动态图)和多频率宏观数据[5] - 传统LSTM模型在处理复杂金融数据结构时存在先天不足[5] 技术实施与人才挑战 - Jupyter Notebook在快速迭代环境中可能成为工程管理障碍[5] - TensorFlow与PyTorch的兼容性问题增加了可复用组件建设的难度[5] - 行业急需兼顾金融 机器学习与系统工程的复合型人才[5] JPMorgan的AI实践与招聘 - MLCOE团队构建可复用AI组件库 分享五年实践经验与教训[2][11] - 全球招聘涵盖博士 博士后和金融科技求职者 工作地点可选香港 伦敦或纽约[11] - TSRL团队正在开展前沿项目 招聘链接已公开[12] - 王泽基教授将系统解析AI/ML在金融机构的全流程应用 包括模型工程 数据处理 特征构建 决策分析 因果推断和风险管理[10] 嘉宾背景 - 王泽基现任JPMorgan机器学习卓越中心MD兼全球TSRL负责人 香港科技大学数学系实践教授[12] - 曾任平安资管量化投资负责人 法国兴业银行亚洲金融机构与主权业务主管[12] - 在香港中文大学 香港中文大学(深圳)担任金融科技教授 并在高盛 瑞银 巴克莱资本担任过高管职务[12]
Claude Code凭什么牛?大模型团队天天用自家产品,发现bug直接就改了
机器之心· 2025-09-04 07:04
融资与市场表现 - Anthropic完成130亿美元融资 公司估值达到1830亿美元 融资规模仅次于OpenAI 2025年3月的400亿美元融资[1] - Claude Code发布4个月用户达11.5万 从竞品Cursor处抢走大量用户[3] 产品优势与设计理念 - 产品设计强调极简易用和高度可扩展性[3][18] - 采用真实体感大于基准测试的评估标准 通过日常实际使用评估模型性能[3][11][13] - 建立极致用户反馈响应机制 对反馈进行快速修复并立即回复用户[15][16] 技术演进与行业变革 - 编程工作流核心转变为智能体主导 从手动复制粘贴代码转向"不插手"的自动化执行模式[6] - 模型能力显著提升 Sonnet 3.7/4和Opus 4.1版本推动智能体编程进步[8] - 工具与模型共同进化 Claude Code集成系统提示/上下文管理/工具调用等关键技术组件[9] - 模型自主运行时间大幅延长 从Sonnet 3.5的1分钟持续运行能力实现突破性提升[10] 产品发展路线图 - 扩展性成为核心发展方向 已构建复杂设置系统/权限管理/Hooks系统/MCP集成等扩展点[18][21] - 未来6-12个月将实现手动与自动深度融合 包括交互式编程和目标导向编程模式[20][22][28] - 智能体将具备宏观规划能力 通过系列小改动实现月度目标[22] 开发者策略建议 - 新手应先使用智能体理解代码库 再逐步过渡到代码编写[24] - 按任务复杂度分级处理:简单任务直接创建PR 中等任务先制定计划 困难任务以人为主导[26][29] - 技术栈复杂度降低 开发重点从"如何实现"转向"实现什么"[23] - 保持核心编程技能基础上 重点提升创造力和产品构思能力[23]