量子位

搜索文档
可能是目前效果最好的开源生图模型,混元生图3.0来了
量子位· 2025-09-30 12:22
允中 发自 凹非寺 量子位 | 公众号 QbitAI 腾讯混元最新发布并开源原生多模态生图模型—— 混元 图像 3.0(HunyuanImage 3.0) ! 模型 参数规模高达 80B ,是 目前参数量最大 的 开源生图模 型。 同时,HunyuanImage 3.0 将 理 解 与生成一 体化 融合 ,也是 首个开源工业级原生多模态生图模型 , 效 果 对标业界头部闭源模型, 堪 称目前开源领域最强图像生成模型。 效果上,HunyuanImage 3.0支持多分辨率图像生成,具有强大的指令遵 从、世界知识推理、文字渲染能力,出图具有极致的美学与艺术 感。 话不多 说,具体 来体验一下HunyuanImage 3.0的生成效果。 得益于原生多模态架构的架构优势,HunyuanImage 3.0继承了Hunyuan-A13B的世界 知识, 具有 原 生 世 界知识 推 理能力 。 因此,让它生成一张解方程的步骤图,promp t" 解方程组5x+2y=26,2x-y=5,给出详细过程 ",它也能把题目解出来并完成 生成: "用一幅图介绍堆排序算法流程,用小黄脸的表情包,来可视化,表情越开心,代表数值越大,并提 ...
ChatGPT架构师,刚发布了最新研究成果
量子位· 2025-09-30 12:22
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 距第二篇研究仅过去三天,Thingking Machines发布了第三篇研究博客。 核心作者是OpenAI联创之一 John Schulman 。 Thingking Machines创始人、OpenAI前CTO Mira Murati继续转发站台。 第三篇研究是关于 LoRA参数的高效微调方法 ,题目为《LoRA Without Regret》,探究了LoRA匹配全量微调(FullFT)效率的条件,还 给出了大幅降低调参难度的简化方案。 当前主流大模型动辄万亿参数,预训练数据达数十万亿token,但下游任务往往只需要小数据集、聚焦特定领域。 用FullFT更新所有参数,资源浪费严重。 而LoRA作为参数高效微调(PEFT)的核心方法,通过低秩矩阵A和B(总参数远少于原权重)捕捉微调信息,却始终面临一个争议: 它真的 能追上FullFT的性能吗? John Schulman和Thingking Machines团队给出了肯定答案:只要抓准关键细节,LoRA不仅能和FullFT拥有相同的样本效率,还能达到一 样的最终性能。 下面具体来看。 LoRA最优学习率 ...
首次实现第一视角视频与人体动作同步生成!新框架攻克视角-动作对齐两大技术壁垒
量子位· 2025-09-30 12:22
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI AI生成第三视角视频已经驾轻就熟,但第一视角生成却仍然"不熟"。 为此,新加坡国立大学、南洋理工大学、香港科技大学与上海人工智能实验室联合发布 EgoTwin , 首次实现了第一视角视频与人体动作的 联合生成 。 一举攻克了 视角-动作对齐 与 因果耦合 两大瓶颈,为可穿戴计算、AR及具身智能打开落地新入口。 EgoTwin 是一个基于扩散模型的框架,能够以视角一致且因果连贯的方式联合生成第一人称视角视频和人体动作。 1. 视角对齐难题 生成视频中的相机轨迹,必须与人体动作推导的头部轨迹精准匹配。但现有方法多依赖预设相机参数生成视频,而第一视角的相机轨迹并 非外部给定,而是由穿戴者头部动作内生决定,需要二者同步生成以保证对齐。 生成的视频可以通过从人体动作推导出的相机位姿,借助 3D 高斯点渲染(3D Gaussian Splatting)提升到三维场景中。 下面具体来看。 第一视角视频与人体动作同步生成 核心挑战:第一视角生成的"两难困境" 第一视角视频的本质是 人体动作驱动的视觉记录 ——头部运动决定相机的位置与朝向,全身动作则影响身体姿态与周围场景变 ...
打车像点单?实测滴滴AI助手,打车也能“私人订制”了
量子位· 2025-09-30 12:22
以后想打什么车,我来定,可以要求空气清新,可以选择是油车还是电车……打完车后还能根据特定条件,查询最近去了哪些地方,一共花了 多少钱,像是同时有了一个打车助手和记账管家。我很难不把小滴作为我国庆出游的AI好搭子。 相关MCP服务也同步上线,只要你愿意,分分钟就能将这样的出行体验接入你的应用,一起用AI改变出行。 实测小滴:打什么车我来定,出行更爽更个性 如果你打开滴滴App,没有找到AI叫车的入口,可以先把App更新到最新版本,然后在目的地输入栏中搜索AI叫车。 接着输入口令 "AI出行助手来啦" ,就能抢先体验小滴了。 一凡 杰西卡 发自 凹非寺 量子位 | 公众号 QbitAI 我的国庆出游,要被AI重塑了 。 这是我最近实测小滴后发出的由衷感慨。小滴是滴滴最新上线的智能体,它完全改变了打车逻辑,不再是人被动地匹配车,而是人主动去挑 车。 悄悄提醒,口令名额有限,如果发现口令已领取完毕,也可以在地址栏搜索 "AI叫车" ,输入 "预约" ,也能报名参加,大概等到第二天就可 以使用了。 成功开通AI叫车后,我们可以看到App首页 最左侧中间位置出现了"AI叫车" ,点击就能进入小滴页面。 | 何 | 大心 ...
真够卷的!DeepSeek更完智谱更:GLM-4.6,代码国内最强
量子位· 2025-09-30 08:26
金磊 发自 凹非寺 量子位 | 公众号 QbitAI 好好好,都赶着国庆节之前开卷是吧。 前脚DeepSeek更新到了V3.2,现在 智谱 又更新了—— 正式推出 GLM-4.6 ,代码能力直接推到了 国内最强 。 根据智谱的测试结果,他们在Claude Code环境下进行了74个真实场景编程任务测试:GLM-4.6实测超过Claude Sonnet 4,超越其他国 产模型。 类似的结果还出现在了其它测评中。 例如在通用能力评测上,GLM-4.6在AIME 25、GPQA、LCB v6、HLE、SWE-Bench Verified、BrowseComp、Terminal-Bench、τ^2- Bench、GPQA,这八大榜单中大部分都已经对齐了Claude Sonnet 4,国内第一。 分数高还只是一方面,智谱的GLM-4.6甚至还把 "平均token消耗" 给打了下来——比GLM-4.5节省30%以上,为同类模型最低。 而且智谱这次还大大方方地把全部测试题目与Agent轨迹亮了出来,方便大家复现验证: https://huggingface.co/datasets/zai-org/CC-Bench-traj ...
ChatGPT可以下单买买买了
量子位· 2025-09-30 04:36
一水 发自 凹非寺 量子位 | 公众号 QbitAI 终于,ChatGPT开始在电商赛道闭环了。 同样一个需求:你能帮我为朋友找到一份很棒的乔迁礼物吗?可能是手工制作的陶瓷餐具,白色和棕色的,价格在100美元以下。 以前可能只是给出相关建议或推荐 (可望不可即) ,现在却能一步到位下单支付 (直接在ChatGPT买买买) 。 没错,这就是OpenAI刚刚推出的 购物功能 ,用户可以在使用ChatGPT时直接下单 Etsy 和 Shopify 这两个平台的商品。 OpenAI总裁Greg Brockman在确认这一消息的同时,还透露将会有更多商家参与其中。 网友们则纷纷表示,这或许会颠覆整个电商行业,尤其是谷歌亚马逊或将遭受巨大冲击。 所以,这到底是一个怎样的计划?OpenAI意在何为? ChatGPT终于打通聊天和购物 还是先来看看功能本身有哪些细节值得注意。 首先需要提醒,目前这个功能 仅面向在Etsy下单的美国ChatGPT Pro、Plus和Free登录用户推出 。 打开方式对用户来说其实没有多大变化,只是打通了聊天和支付。 当用户描述完自己想要的东西,ChatGPT会在文字回复之后推荐最相关的产品。在 ...
宇树机器人被曝漏洞,机器人之间可相互感染,官方火速回应
量子位· 2025-09-30 04:36
衡宇 发自 凹非寺 量子位 | 公众号 QbitAI 宇树旗下多款机器人,被曝存在严重的无线安全漏洞 ! 消息由IEEE Spectrum报道指出。 具体情况是这样的—— 多款不同型号的宇树机器人BLE (蓝牙低功耗) Wi-Fi 配置界面存在严重漏洞,攻击者可借此实现最高权限控制。 也就是说,黑客仅凭BLE接口就能绕过验证,直接获取root权限, 被攻陷的机器人之间还会自动扩散感染,形成机器人僵尸网络式攻击 。 IEEE Spectrum在其报道中指出:"据我们所知,这是商用人形平台首次被公开利用的重大漏洞。" 消息曝光后,迅速在各大平台引发广泛讨论。 一名AI创业者网友在宇树官推下留言评论: 在早期人形机器人开发阶段,需要特别注意的一点就是安全性。 请务必将其作为首要任务! 一旦在消费者心中形成安全漏洞的印象,无论你的产品多么优秀,都将一蹶不振。 宇树很快回复了该网友,称其提醒得对,且公司" 已成立产品安全团队 ,为客户提供更优质、更安全的产品"。 四足/双足机型均受影响,发现者此前已与宇树团队多次沟通 下面我们展开了解一下,这个漏洞为什么会引发那么大的关注。 实际应用中,很多机器人为了方便用户配置Wi- ...
Claude Sonnet 4.5被炸出来了,依旧最强编程,连续30小时自主运行写代码
量子位· 2025-09-30 00:57
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 最强编程模型让位了。 但没有换人,依然是Claude。 新发布的 Claude Sonnet 4.5 ,在SWE-bench上的成绩比Sonnet 4提升了1.8个百分点,而且提质不加价。 而且有第三方表示,Claude Sonnet 4.5 能一口气工作30个小时,完全自主地编写代码 。 在这30个小时里,Claude Sonnet 4.5写了11000多行代码,构建出了类似Slack的聊天应用。 此前Opus 4曾因为连续工作7小时就备受关注,现在这个数字直接变成了4倍多。 计算机操作方面,Claude Sonnet 4.5在OSWorld测试中取得了60.2分的SOTA成绩,比Sonnet 4提升了近一半。 总之,Claude Sonnet 4.5在多项领域都实现了对自己的超越,成为该领域内的最佳模型。 先有昨晚的DeepSeek-V3.2,紧接着又是Claude Sonnet 4.5,赶在节前密集上新的模型,看来是真的不让人放假了。(手动狗头) 多项指标超越自我 来看Anthropic晒出的Claude Sonnet 4.5成绩单。 除了已经介绍 ...
DeepSeek突然拥抱国产GPU语言!TileLang对标CUDA替代Triton,华为昇腾Day0官宣支持适配
量子位· 2025-09-30 00:57
TileLang技术特性 - 专门用于开发GPU内核的领域专用语言,性能对标英伟达CUDA[6] - 采用Python式语法,在TVM之上构建底层编译器基础架构[18] - 核心设计理念是将调度空间与数据流解耦,封装为可自定义的注解和原语[19] - 提供三个层次编程接口:硬件无关高层接口、优化过的预定义操作库、线程原语级别控制[20][21][22][23] - 以"Tile"为编程模型核心概念,通过显式Tile抽象控制数据在内存间的流动[19] TileLang性能表现 - 只需不到100行代码就能写出比Flash Attention 2原版快30%的注意力实现[5] - 在华为昇腾上实现FlashAttention算子开发,代码量从500+行减少至80行,性能与官方版本持平[8] - 在H100上的MLA解码速度与FlashMLA相当[31] - 通过缓存中间数据,比全局内存快得多[28] DeepSeek与TileLang合作 - DeepSeek v3.2开源TileLang版本算子,关注度超过新稀疏注意力机制DSA[2] - DeepSeek团队使用TileLang快速开发原型,后用更底层方法进一步优化性能[26] - TileLang团队成员曾向DeepSeek团队推荐该语言,并以DeepSeek发布的FlashMLA内核作为评测基准[29][31] - DeepSeek v3.2验证了TileLang可用于训练模型[34] 产业生态支持 - 华为昇腾在第一时间公告对TileLang的支持[7] - 沐曦集成电路与TileLang团队讨论GPU适配问题[9] - TileLang由北大团队主导开发,核心人物包括王磊、董宇骐和杨智[15] - GitHub项目获得1.9k星标,172次fork[18]
DeepSeek新模型上线!引入DSA新稀疏注意力,还又狙了CUDA一枪
量子位· 2025-09-29 10:44
模型发布与技术升级 - DeepSeek最新模型DeepSeek-V3.2-Exp官宣上线,引入新的注意力机制DeepSeek Sparse Attention [1][6] - 新模型基于上周更新的DeepSeek-V3.1-Terminus打造,V3.1-Terminus是V3.1基础上的强化版本,在稳定性、工具调用能力等方面有改进 [6][9] - 开源了更高效的TileLang版本GPU算子,主要算子包括TileLang和CUDA两种版本 [2][13][15] 性能表现与效率提升 - 在各领域公开测评集上,DeepSeek-V3.2-Exp与V3.1-Terminus表现基本持平,部分指标有提升:MMLU-Pro均为85.0,Codeforces-Div1从2046提升至2121,AIME 2025从88.4提升至89.3 [10][11] - 新注意力机制DSA首次实现细粒度注意力机制,能在几乎不影响模型输出效果的前提下,大幅提升长文本和推理效率 [7] - 使用DSA的模型在处理128K长上下文时,推理成本显著低于DeepSeek-V3.1-Terminus,尤其在解码阶段 [11] 产品部署与市场策略 - 官方App、网页端、小程序均已同步更新DeepSeek-V3.2-Exp模型 [3] - API价格实施5折起的大减价,新价格即刻生效 [3][17] - 公司建议社区在进行研究性实验时使用基于TileLang的版本以方便调试和快速迭代 [16] 行业竞争动态 - 除了DeepSeek-V3.2之外,智谱的GLM-4.6也在准备中,GLM-4.5已被标记为"上一代旗舰模型" [19][20]