Workflow
量子位
icon
搜索文档
Vibe之下,AI之上:海淀创新生态的“社区”引力法则
量子位· 2025-09-24 03:32
衡宇 鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 主会场就在街区入口,沿街的咖啡店、AGI Bar里不时就有talking沙龙,街道两边连成线的摊位则是AI创造者大展身手的地方。无论是从高校 赶来参赛的学生,刚刚融到Pre-A轮的创始人,还是在大厂内外游走的AI架构师,大家都在这里找到自己的位置、自己的社区、自己的语境。 从办公区变身实验室、从社交场变身发布会、从展示馆变身未来剧场,所有关于AI的精彩想象,都 All in 海淀 。 如果要选一个"AI最热事件",那一定是2025 AI创造者嘉年华——就在海淀,就在中关村创业大街。 不同于以往陈列在展厅里的AI技术秀场,这是一次"前所未有的、开放的、打破人与人边界的活动"。 五天四夜里,40多个分会场同步开讲,100余家共创单位携手发力,上百位特邀嘉宾分享洞见,辐射影响更是高达数万人。 主会场、分会场、市集、黑客松、人才角这五大板块的活动, 像值得探索的拼图碎片一样掉落在中关村创业大街各个角落。 在"Let's in Vibe"的口号之下,现场的热度可以用几个关键词来总结:年轻化、社区化、跨界融合。 烫,实在是烫! 如果要给2025年九月的北京选一个 ...
Nano Banana不及格,开源模型一分难求!上海AI Lab新基准直击文生图模型痛点
量子位· 2025-09-24 03:32
多学科文生图基准GenExam的发布 - 上海人工智能实验室、上海交大、清华大学、香港中文大学联合发布首个多学科文生图考试基准GenExam 旨在用"考试思维"重新定义文生图模型的能力边界 [2][4][8] - 基准覆盖10个一级学科 包括数学、物理、化学、生物、计算机、地理、经济、音乐、历史、工程 共1000道严选题目 平均题目长度达74.8个单词 [4][8][11] - 与传统文生图基准不同 GenExam更注重"对不对"而非"美不美" 要求模型融合理解、推理和生成三大能力 [8][11][13] 评测体系设计 - 采用双维度评测体系:语义正确性(是否符合题意)和视觉合理性(卷面质量) 其中视觉合理性包含拼写、逻辑一致性、可读性三个子项 [14][15] - 设置严格和宽松双评分标准:严格标准要求语义全对且视觉三项满分才算正确 宽松标准采用加权平均(语义70% 拼写10% 逻辑10% 可读性10%) [15] - 使用GPT-5作为自动阅卷老师 通过视觉问答方式逐项检查评分点 平均每道题设有6.9个评分点 [11][14][15] 模型性能表现 - 顶级闭源模型表现不佳:GPT-4o严格评分下正确率仅12.1% 其他闭源模型如Seedream 4.0、Imagen-4-Ultra、Gemini-2.5-Flash-Image严格得分均不足10% [5][16][19] - 开源模型全军覆没:所有开源模型严格得分接近0% 表现最好的Qwen-Image严格得分仅0.3% 统一多模态模型(如BAGEL、Show-o2)表现不如专用文生图模型 [16][19] - 宽松评分下差距明显:闭源模型得分在50-60分区间 开源模型得分在10-30分区间 在语义正确性、拼写、逻辑一致性、可读性四个方面均存在显著差异 [16][17] 典型错误类型 - 知识缺失:如音乐题中画错半音圈的调号顺序 [24] - 推理不足:如几何题中算错函数交点坐标 [24] - 视觉疏漏:如拼写错误、标签错位(如将"-1,0"标在y轴上) [24] 行业意义与未来方向 - GenExam将图像生成转化为考试任务 为文生图模型设立新目标:从"画得好看"走向"画得正确" [23] - 当前模型在专业场景存在核心短板 未来需在知识整合、逻辑推理、精准生成上持续突破 才能从通用图像生成工具升级为专业领域助手 [22][23] - 当模型能通过GenExam考试时 才真正迈入"专家级AGI"水平 目前这场考试才刚刚开始 [23][24]
Wan2.5+Midjourney V7,阿里夸克这个新AI鲨疯了!价格还砍一大刀
量子位· 2025-09-24 03:32
产品发布与定位 - 夸克发布"造点"AI平台 集成Wan2 5视频生成模型和Midjourney V7图像生成模型 实现双强模型联合[1][2][8] - 平台定位为国内首个支持音视频同步生成的AI平台 具备自动配乐 口型同步及音画对齐能力[8][21] - 移动端通过夸克APP提供对话式图片编辑功能 支持换发型 换背景等指令操作[36][38][44] 核心技术功能 - 图像生成采用Midjourney V7模型 支持多图参考 风格代码 精细化参数控制及120+特征词库[12][14] - 视频生成采用通义万相Wan2 5模型 支持音效自动匹配 声音驱动及复杂运镜要求[8][20][26] - 提供智能润色 美学控制滑块(风格化/怪异化/多元化) 亚洲人像优化及中文文字生成能力[11][12][14] 应用场景演示 - 商业级应用:支持微距广告拍摄(如口红质感特写) 赛博朋克城市大片及一镜到底竞速场景[18][22][23] - 文化元素应用:成功生成动态古风市井图 处理多层次吆喝声与细节动作 支持兵马俑 灯笼等中国元素[29][30][33] - 趣味生成:实现巨大猫猫喵叫 ASMR音效 兵马俑吃月饼等创意场景[35] 定价与推广策略 - Midjourney V7会员定价48元/月(生成400张) 较海外版10美元/月(200张)降价50%[49] - 视频生成功能开放7天免费体验(9月24日-30日) 通过降价策略降低创作成本[1][51]
OpenAI一口气建5个算力中心!英伟达喂饱孙正义和甲骨文
量子位· 2025-09-24 01:21
OpenAI表示, 新的数据中心将使"星际之门"计划提前完成 。 克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 英伟达刚刚计划给OpenAI一千万美元新投资,OpenAI就宣布了钱的用法:将和甲骨文及软银合作建数据中心,而且一口气就是五个。 这批新建的数据中心,将作为奥特曼"星际之门"计划的一部分,并将该项目的规划容量增加到近7GW,大致相当于七座大型核反应堆。 OpenAI采购甲骨文的云服务→甲骨文买英伟达GPU→英伟达投OpenAI,随着新计划的宣布,这个三角关系,又又又加强了。 另外奥特曼还在个人博客里透露,OpenAI在算力建设方面,未来几个月还会有新的计划和合作伙伴,以及一些"新的想法"。 但这个合作里不知道你发现没有,曾经铁大哥微软,已经没啥事儿了。 微软跌倒,甲骨文吃饱。 与甲骨文共建数据中心 OpenAI官宣的五个新数据中心,将由OpenAI与甲骨文和软银合作开发。 其中三个是与甲骨文合作建设 ,分别位于德克萨斯州沙克尔福德县、新墨西哥州多尼亚安娜县以及中西部一个尚未披露的地点。 另外两个则是由OpenAI和软银旗下开发太阳能和电池项目的子公司SB Energy负责运营,分别位于俄亥 ...
8B硬刚72B!MiniCPM-V 4.5技术报告正式出炉
量子位· 2025-09-23 11:01
MiniCPM团队投稿 发自 凹非寺 量子位 | 公众号 QbitAI 行业首个具备"高刷"视频理解能力的多模态模型 MiniCPM-V 4.5 的技术报告正式发布! 报告提出 统一的3D-Resampler架构实现高密度视频压缩 、 面向文档的统一OCR和知识学习范式 、 可控混合快速/深度思考的多模态强化 学习 三大技术。 基于这些关键技术,MiniCPM-V 4.5在视频理解、图像理解、OCR、文档解析等多项任务上达到同级SOTA水平,不仅以8B的参数规模超越 GPT-4o-latest和Qwen2.5-VL-72B,更在推理速度上具有显著优势。 模型一经开源,就广受社区好评,并直接登上HuggingFace Trending TOP2。 截至目前,MiniCPM-V 4.5在HuggingFace、ModelScope两大平台合计下载量超 22 万 。 接下来,就和我们一起看看报告里讲了什么。 研究背景 随着多模态大模型的迅速发展,其在模型架构、数据工程和训练方法上的高昂成本和效率瓶颈,正成为其广泛应用和技术迭代的核心障碍。 而在移动设备和边缘计算场景中,如何在保持出色性能的同时实现高效推理, 给多模 ...
GUI智能体训练迎来新范式!半在线强化学习让7B模型媲美GPT-4o
量子位· 2025-09-23 11:01
核心观点 - 浙江大学与通义实验室Mobile-Agent团队提出UI-S1框架 采用半在线强化学习训练范式 显著提升GUI智能体在动态多轮任务中的表现 在AndroidWorld任务中达到34.0%成功率 接近GPT-4o的34.5% [1][2][25] - 该方法融合离线训练稳定性与在线学习长程优化能力 通过模拟在线交互过程 在不依赖真实环境交互的前提下提升模型连贯性与推理能力 [2][4][9] - 创新性体现为三大核心技术:半在线机制模拟在线交互 补丁机制修复采样偏差 长程奖励建模捕获轨迹级优势 [10][12][20] 技术架构创新 - 半在线机制在离线数据中保留模型自身原始输出(动作选择与思维链) 使模型感知历史行为并调整后续决策 增强策略一致性与多轮连贯性 [14][15][16] - 补丁机制提供三种可配置策略:Thought-Free Patch仅修正动作 On-Policy Thought Patch引导模型生成正确推理 Off-Policy Thought Patch调用外部模型重写思维链 [17][18] - 长程奖励建模引入折扣因子γ(最优值为0.5) 结合未来步骤潜在价值形成综合奖励 弥补传统离线RL无法捕获未来收益的缺陷 [20][21][43] 性能表现 - 在AndroidWorld任务中UI-S1-7B达到34.0%成功率 较基础模型提升+19.1个百分点 接近GPT-4o(34.5%)且优于UI-TARS-7B(33.0%) [25][27] - 单轮任务保持优势 GUI Odyssey任务较基础模型提升+7.1个百分点 证明未牺牲局部精度 [27][28] - 动态评测指标SOP与真实在线性能高度对齐 支持更高任务多样性和更快评估速度 [23] 机制有效性验证 - 提高补丁阈值显著提升性能:当阈值从0增至8时 AndroidWorld得分从21.0提升至34.5 [31] - On-Policy Thought Patch性能最优但计算开销大 Thought-Free Patch性价比最高且接近最优性能 [32][33] - 较高补丁阈值维持策略熵 避免过早收敛 促进探索多样性 [19][35][36] 数据与扩展性 - 性能增长符合指数型数据规模律 补丁阈值从0增至无穷时指数系数k从-1.13提升至-0.73 表明单位数据边际收益改善 [38][39][40] - 联合使用SFT与半在线RL效果最优 AndroidWorld任务成功率34.0% 分别高于单独使用Semi-online RL(30.4%)和SFT(21.7%) [27][44]
中国AI高速路,华为给出开源开放方案
量子位· 2025-09-23 11:01
超节点技术架构创新 - 华为发布创新的超节点架构,覆盖数据中心到工作站的全场景产品线 [3] - Atlas 950 SuperPoD采用正交架构实现零线缆电互联和液冷接头浮动盲插设计,光模块液冷可靠性提升一倍 [4] - 创新的UB-Mesh递归直连拓扑网络支持8192卡无收敛全互联,以64卡为步长按需扩展 [4] - Atlas 850是业界首个企业级风冷AI超节点服务器,支持多柜灵活部署形成1024卡集群,无需改造现有风冷机房 [8] - Atlas 350标卡采用昇腾950PR芯片使向量算力提升2倍,推荐推理场景性能提升2.5倍 [10] - TaiShan 950 SuperPoD具备百纳秒级超低时延和Tb级超大带宽,提升数据库及大数据场景业务性能 [13] 性能对比优势 - Atlas 950超节点相比英伟达NVL144规模达56.8倍、总算力达6.7倍、内存容量达15倍(1152TB)、互联带宽达62倍(16.3PB/s) [5] - 对标英伟达2027年计划上市的NVL576仍保持领先优势 [6] - Atlas 950 SuperCluster规模达xAI Colossus的2.5倍,算力达1.3倍,成为全球最强算力集群 [48] 开源开放生态战略 - 全面开放超节点技术硬件包括NPU模组、风冷/液冷刀片、AI标卡等基础硬件 [18] - 开放灵衢协议和超节点参考架构,允许产业界基于技术规范自研产品 [17] - 操作系统灵衢组件全部开源并合入openEuler等社区,支持用户自行迭代维护 [20] - 昇腾CANN全面开源开放,Mind系列组件同步开源并支持PyTorch等开源社区 [20] - 通过开源降低适配成本,推动产业协同发展和行业场景化解决方案建设 [22][23] 灵衢协议技术特性 - 灵衢(UnifiedBus)是面向超节点的互联协议,实现资源池化、线性扩展和长稳可靠 [33] - 通过大带宽低时延互联网络统一通信协议,消除协议转换开销并实现全局资源池化 [31] - 解决传统集群规模扩大时效率下降和可靠性难题,使集群像单机一样协同工作 [32] - 协议全面开源支持自由开发系统调度软件,促进生态繁荣 [34][36] 产业应用与生态建设 - 超节点已服务于互联网、金融、运营商、电力、制造等行业 [29] - 构建开放的综合交通枢纽式生态,打破封闭式协议隔阂 [40][42] - 支持不同规模用户搭建AI高速路,实现硬件软件算法共建共赢 [51] - 形成AI时代自主可控的技术基座和标准话语权 [52] - 通过最大市场优势形成创新飞轮效应,类似新能源汽车发展路径 [53]
Qwen开源版Banana来了!原生支持ControlNet
量子位· 2025-09-23 08:13
新图像编辑模型Qwen-Image-Edit-2509 - 支持多图融合功能 包括人物+人物、人物+商品、人物+场景等多种玩法[2] - 增强单图一致性 涵盖人物、商品、文字等要素的一致性处理[2] - 原生支持ControlNet 可通过关键点图改变人物姿势并实现换装需求[4] 多图输入应用场景 - 人物+人物生成结婚照 支持中式及西式婚礼场景定制[7][12] - 人物+场景实现环球旅行 自动适配场景细节如神态、光影等[14][16] - 人物+物体快速生成奢侈品展示 如豪车与包包的高精度合成[17] 高级图像编辑能力 - 支持关键点姿势编辑与同步换装 适用于证件照、形象照及生活照[20][22][25] - 多姿势编辑功能 涵盖俏皮动作、比心、举黑板等场景[29] - 长文字渲染与老照片修复 包括照片上色及破损修复[33][36][40] 文字与物体处理增强 - 文字一致性支持字体类型、颜色及材质编辑[50] - 定点文字修改功能 可精确修正圈出的错字[55] - 多物体处理能力 成功处理含14只猫的复杂图片[47][49] 深度控制与草图生成 - 深度图控制保持物体与场景一致性 生成泥泞道路、丛林等复杂场景[60] - 关键点生成支持全类型人物 涵盖不同性别、时代及着装[60] - 草图控制生成功 实现时空穿梭感的高氛围图像生成[64] 全模态模型Qwen3-omni - 跨模态领先性能 在36项音频及音视频基准测试中获32项开源SOTA及22项总体SOTA[69] - 文本性能表现突出 WritingBench得分83.0 超越GPT-4o的75.5及Gemini-2.5-Pro的80.5[70] - 音频处理能力卓越 Fleurs-zh错误率仅2.19% 低于Qwen2.5-Omni-7B的2.54%及Gemini-2.5-Pro的2.71%[70] 实时与长音频处理 - 端到端音频对话延迟低至211ms 视频对话延迟低至507ms[72] - 支持长达30分钟音频理解 具备长上下文处理能力[73] 个性化与工具集成 - 支持system prompt定制 可修改回复风格及人设如广东幼儿园老师或四川女汉子[74][75] - 支持function call工具调用 实现与外部服务高效集成[76] - 开源通用音频Captioner模型 具备低幻觉及详细描述能力[77] 多模态应用扩展 - 实时翻译与网页内容总结 支持多语言输出[71] - 音乐风格分析与数学推理 兼容器语音助手功能[78]
DeepSeek V3.1更新「最终版」!下一次是V4/R2了???
量子位· 2025-09-23 03:14
模型更新与性能改进 - DeepSeek-V3.1-Terminus版本发布 主要针对用户反馈问题修复 包括缓解中英文混杂和偶发异常字符问题[2][3] - 新版本优化Code Agent与Search Agent表现 提升AI Agent能力[7][8] - 模型评测显示Terminus版本在多数基准测试中表现提升 包括MMLU-Pro从84.8提升至85.0 GPQA-Diamond从80.1提升至80.7 Humanity's Last Exam从15.9大幅提升至21.7[9] - Agent能力显著增强 BrowseComp从30.0提升至38.5 SimpleQA从93.4提升至96.8 SWE Verified从66.0提升至68.4 SWE-bench Multilingual从54.5提升至57.8[9] 版本命名与未来规划 - Terminus版本名称暗示可能是V3系列最终版本 下一步可能推出V4或R2架构[5][7][11] - 公司被曝预计2024年底推出新模型 重点发展更强大AI Agent能力[8][14] - 部分基准测试出现性能波动 如Codeforces评分从2091下降至2046 引发用户讨论[9][10] 模型获取与行业动态 - 新模型已在Hugging Face和ModelScope平台开放下载[15] - 行业正在开展2025人工智能年度榜单评选 设立企业 产品 人物三大维度五类奖项[15]
全是套路!英伟达千亿美元投OpenAI,奥特曼拿钱买卡还让甲骨文赚差价
量子位· 2025-09-23 01:10
英伟达与OpenAI战略合作 - 英伟达计划向OpenAI投资最高1000亿美元 分阶段投入 首笔100亿美元将在首个1GW数据中心部署完成时支付 预计2026年下半年基于Nvidia Vera Rubin平台落地[1][3][13] - OpenAI承诺构建至少10GW的AI数据中心 全部采用英伟达系统 相当于部署400-500万个GPU[1][11] - 建成1GW数据中心的成本约为500-600亿美元[2][12] 三方供应链与资金循环 - OpenAI向甲骨文支付3000亿美元云服务订单 推动甲骨文单日股价暴涨36% 市值增长2510亿美元[16] - 甲骨文需向英伟达采购GPU以支持云服务 形成资金流动闭环:英伟达投资OpenAI→OpenAI支付甲骨文→甲骨文采购英伟达芯片[6][17][18] - 三方各获核心利益:OpenAI保障算力基础 英伟达锁定客户并巩固供应链地位 甲骨文提升云计算市场份额[18][23][24] 合作背景与战略意义 - OpenAI的ChatGPT周活用户达7亿 需大规模算力支持模型迭代与运维[22] - 英伟达通过投资强化与AI龙头企业的绑定 同时近期还对英特尔、Nscale等公司投资 并斥资超9亿美元收购AI Infra初创公司[30][31] - 双方强调计算基础设施为未来经济基石 合作将推动AI领域下一次飞跃[26][27][29]