Workflow
量子位
icon
搜索文档
火线解析智谱AI招股书:年营收3亿增速130%,“中国版OpenAI”率先冲刺全球大模型第一股
量子位· 2025-12-19 14:08
被视为"中国版OpenAI"的 智谱AI ,刚刚招股书对外公告,冲刺IPO。 智谱AI以秘密递表的形式,刚刚在港交所 通过聆讯 ,即将敲钟。 成立6年间,智谱AI融资8轮,累计筹资超83亿元,背后明星资本云集,最新估值已达243.8亿元。 智谱AI是怎样一家公司? 杰西卡 发自 凹非寺 量子位 | 公众号 QbitAI 智谱(Z.AI) ,其实大家可能已经很熟了,中国最早开启LLM研发的公司,被视为"中国版OpenAI",聚焦AGI的研发,以期"让机器像人一样 思考"。 "全球大模型第一股" ,在港交所发起冲刺了。 这支由清华顶尖团队孵化的科技公司,今年4月拿到IPO辅导备案的入场券,随后关于智谱IPO的风声未曾停歇,却没想到今年年底进度骤然 拉满—— 公司的技术核心,围绕其自主开发的 "GLM"系列模型 展开,现在已经构建了从基础模型到应用产品的完整体系。 在 2024年中 ,智谱AI与OpenAI同期发布了AGI的 L1-L5 路径图: 目前,智谱已开发出三个阶段的大模型及智能体,如中国首个千亿规模大模型GLM-130B(预训练阶段)、中国首个开源大型聊天模型 ChatGLM(对齐及推理阶段)等等。 预训 ...
1年融资17亿的具身智能明星,首秀绣了个logo
量子位· 2025-12-19 14:08
一凡 发自 凹非寺 量子位 | 公众号 QbitAI 2025年最受资本热捧的具身智能初创公司,在2025年年终完成了"首秀"。 它石智航,成立不到1年拿了17亿元融资后,刚刚交卷,举行了首次技术发布会。 而它石的首秀,也是通过"绣"展现的—— 首秀绣的是正是它石智航的LOGO,它石介绍说这是世界首台会刺绣的机器人。 不只会干针线活,也能下车间: 以及今年各路机器人的基操——跳舞: 这背后的丝滑动作,都是由基于真实数据训练的世界模型输出。在不同场景下执行不同任务,覆盖家庭和车间也意味着,这不仅仅是一 场技术发布会,也是商业化潜力的展现。 它石智航"首绣" 它石智航刚刚展示了两款产品: 工业机器人A系列(下图左二)和通用机器人T系列(下图右一),从下肢就能看出他们的差别。 △ A系列和T系列中间的是它石智航创始人、CEO陈亦伦 它石认为这体现了复杂操作任务的多种能力,亚毫米级精度、双手协同、连续触觉和力觉反馈调节和长时序任务的执行等。 所以为什么展示机器人的刺绣能力?这背后有两个原因: 秀技术和救手艺 。 而背后支撑这一切的,是它石智航对 下一代具身智能Scaling Law 的理解。 首先,是秀技术实力。 它 ...
4.98万就能买机器人通用基座?!一机三态,多场景验证,标配VLA大脑
量子位· 2025-12-19 12:16
文章核心观点 - 逐际动力推出的多形态具身机器人TRON 2,通过“一机三态”的通用基座设计,集成了高性能、快速部署和成本可控等特性,旨在解决行业在VLA操作科研、多场景验证及快速部署方面的关键痛点,代表了具身机器人向通用化、实用化发展的重要一步 [10][31][33][44] TRON 2产品核心特性与性能 - **多形态自由切换**:TRON 2采用一个通用基座,可在双臂、双足、双轮足三种核心构型之间自由切换,并支持人形、四足等多种形态的实验性重构,实现“一机多能” [10][11] - **上肢高性能设计**:采用7-DoF类人构型单臂关节,模仿人类手臂灵活度,使动作更自然可控 [18];末端采用仿人球形手腕结构,具备高自由度旋转能力,以提升在狭小空间内的精准对位能力 [20];臂展达到70cm,具备大范围包络,可胜任远距、高位、宽场景操作任务 [23] - **强大的移动与负载能力**:同时支持双轮和双足两种移动模式,具备全地形移动、避障、环境感知及上下楼梯行走能力 [26][27];拥有30kg有效负载和长达4小时的续航能力 [29] - **集成主流AI模型**:系统层面适配了主流大模型Pi 0.5及ACT,并围绕家庭场景进行了任务细化,可完成超过10类家庭高频任务 [25] 产品定位:科研验证与快速部署平台 - **解决科研部署痛点**:产品设计旨在简化部署流程,提供二次开发资料与标准化接口,用户30分钟可完成基础启动,2小时内能走完从开发环境配置到首次任务执行的全流程 [36] - **提供完整开发工具链**:配备VLA开发工具包,内置完整示例教程及可一键启动的预设功能模块,可直接对接Pi 0.5、ACT等主流大模型 [36];将数据采集、训练验证与部署测试打通成一套闭环系统,内置原生平台,提高科研效率与稳定性 [38] - **充当多场景验证基座**:TRON 2定位为具身机器人进入场景落地的验证平台,其“一机多态”的通用基座允许不同构型和算法在同一套硬件上反复进行低成本、高可靠性的真实验证,以明确具体场景的落地路径 [40][41][42][43] 公司技术路线与行业意义 - **长期主义的技术路线**:逐际动力自2022年成立起,便聚焦于机器人底层的运动控制与通用本体平台,而非整机形态 [45];其方法论是以“强小脑”确保动作稳定,用“补大脑”对接演进算法,并通过开放生态将身体能力交给开发者 [45] - **清晰的迭代节奏与资本认可**:产品线从TRON 1的“三合一”足端多模态构型,到全尺寸人形机器人LimX Oli,再到TRON 2,始终围绕用户真实使用中的关键卡点进行原始创新 [45];公司获得了阿里巴巴、蔚来资本、联想创投等产业资本投资,并于今年7月获得京东的战略领投 [45] - **推动行业通用化发展**:TRON 2的设计体现了对通用能力和高性价比长期演进的追求,其下层提供稳定通用的身体能力,上层可持续接入以VLA为代表的大脑能力,使硬件能随任务和模型演进不断扩展,具备跨技术栈、跨场景使用的条件 [47][48];公司在具身智能时代正展现出全球第一梯队的水平 [49]
不靠死记布局也能按图生成,多实例生成的布局控制终于“可控且不串脸”了丨浙大团队
量子位· 2025-12-19 07:20
浙江大学ReLER团队 投稿 量子位 | 公众号 QbitAI 尽管扩散模型在单图像生成上已经日渐成熟,但 当任务升级为高度定制化的多实例图像生成 (Multi-Instance Image Generation, MIG) 时 ,挑战随之显现: 如何在实现空间布局控制的同时,保持多主体身份与参考图像高度一致? 现有方法在面对需要宏观的布局控制和微观的身份注入的复杂任务时 常常陷入两难 。 能显式控制布局的方法,往往无法利用参考图像来对实例进行定制。 而能以参考图像为指导的方法,则难以实现对布局的精确控制,且在实例数量增加时面临着严重的身份信息丢失问题。 为解决这一制约自定义图像生成的技术瓶颈, 浙江大学ReLER团队发布基于DiT的新框架ContextGen 。 该框架通过分层解耦上下文,解决布局控制与身份保真度的难题,并在多项关键指标上取得了SOTA突破。 机制创新:布局与身份的协同控制 ContextGen的核心在于提出了双重上下文注意力机制,将复杂的全局控制和局部注入任务,并在DiT的不同层级进行部署。 Contextual Layout Anchoring (CLA):宏观布局锚定 CLA机制将包含 ...
量子位编辑作者招聘
量子位· 2025-12-19 07:20
编辑部 发自 凹非寺 量子位 | 公众号 QbitAI AI热潮还在汹涌,但如果你还不知道如何参与……那为什么不来 量子位 呢? 我们是一家以 追踪AI新进展 为核心的内容平台,经过8年积累,目前拥有顶流影响力,广泛且备受认可的产业资源,以及时代风口的最佳观 测和学习生态位。 目前,我们有 三大方向 岗位招聘,希望你是 (或者能成为) 这三个方向的内容专家: 岗位均为全职,工作地点:北京中关村。 岗位面向: 加入我们,你可以获得: 以下是岗位详情: 所有岗位不同能力层级职位均在开放,欢迎结合个人履历和经验申请。 AI产业方向 岗位职责: AI产业方向 :关注基建层创新,包含芯片、AI Infra、云计算; AI财经方向 :关注AI领域创投和财报,跟踪产业链资本动向; AI产品方向 :关注AI在应用和硬件终端方向的进展。 任职要求: AI财经商业方向 岗位职责: 任职要求: AI产品方向 岗位职责: 社招:覆盖编辑、主笔、主编各个层级,按能力匹配岗位; 校招:应届毕业生,接受实习且可转正。 站在AI浪潮之巅 :第一时间接触和了解AI领域最新技术和产品,构建完整的AI认知体系。 玩转AI新工具 :将各种AI新技术 ...
当年带你上网冲浪的头号老玩家,这回是真AI上头了
量子位· 2025-12-19 07:20
文章核心观点 - QQ浏览器已全面升级为AI浏览器,依托腾讯自研大模型底层能力,实现了从工具到智能助手的转型,其AI相关数据表现已进入行业前列[1][2][3] - 浏览器的演进逻辑是将复杂能力简化,将掌控权还给用户,当前AI转型的核心是结合AI的“聪明”与浏览器的“全面”,以更简单智能的方式满足用户需求[7][8][11] - 浏览器行业正经历从“阅读网页”到“完成任务”的方向性变化,QQ浏览器的转型恰好契合了用户希望结果更快、步骤更少的关键习惯转变[56][57] 产品战略与市场表现 - QQ浏览器按下转型键,将产品路线彻底切向AI,全面升级为AI浏览器[2] - 公司在“AI Agent”和“AI 搜索”赛道的数据表现已率先跑进行业前排,整体表现相当亮眼[3][6] - 转型背后是腾讯长期布局的主线,公司作为在C端深耕十几年、同时在模型和云底座上有完整体系的玩家,清楚用户真实场景中的痛点[57] - 外部数据机构XSignal的行业侧数据验证了用户对浏览器的核心需求是“好用”,即易上手、不打扰、聪明能干且能接住不同场景的需求[57] AI能力与产品功能升级 - **界面与入口设计**:传统首页信息流布局让位于集传统搜索与AI对话于一体的极简入口[12];腾讯元宝常驻搜索框,也可从侧边栏一键唤起,同时支持在AI搜索、搜狗、百度、谷歌、Bing多种引擎间切换[14][15] - **AI+小窗**:在右上角集成10多种AI能力和部分Agent能力的轻量入口,能根据当前浏览场景自动递送最可能用到的功能(如阅读场景自动弹出“网页总结”)[17][18][20][21] - **核心AI功能**: - 网页总结:通过悬浮窗快速总结网页内容,原文与重点分屏显示[23] - 思维导图:将全文拆解为层级清晰的知识树框架,能自动拆解到三级,提升阅读效率[25][27] - 网页翻译:可将网页英文一键全文翻译为中文[29] - AI翻译:支持对单词或句子进行逐词逐句翻译[31] - 其他功能:包括阅读模式、AI资源嗅探、标签智能分组等[33] QBot Agent中心与场景化应用 - QQ浏览器推出了QBot Agent中心,集成了八个擅长不同场景的Agent,以解决传统浏览器“只能看不能干”的痛点[34] - **AI视频助理**:支持16种语言的多语种字幕生成、内容总结、沉浸式播放、字幕视频合成导出;提供实时滚动字幕,支持中英文对照排版,并可细调语种、字号、复制字幕等;视频总结功能可将长视频拆解为带图示的章节重点[35][36][37][38];该功能也可在AI+小窗中直接调起[39] - **AI订阅助理**:专门解决信息筛选、聚合、追踪问题,能在极短时间内(如不到1分钟)扫描全网相关信息,过滤去重后打包成图文并茂的订阅报告(包含核心概览、信息汇总、表格、来源链接),并支持按设置的关键词、时间和有效期主动推送最新资讯[41][42][43] - **AI下载助理**:可全网搜索并下载免费靠谱的网络资源(如1分钟左右完成搜索并下载大学英语四级考试真题PDF),同时提供在线阅读版本[45][46] - **AI更新助理**:可监控指定网页的动态更新,框选关注位置并设置提醒频率后,AI会将最新动态及改动位置同步到消息通知[47][48] - **其他垂类Agent**:还包括AI财经助理、AI学术助理、AI高考通、较真AI查真假等[50];未来将继续融合更多腾讯内部原生Agent[50] 移动端AI能力拓展 - QQ浏览器的AI能力已拓展至移动端[51] - 文档能力覆盖更完整,支持八种格式互转,以及编辑、扫描、翻译等功能[52] - 针对学生场景,推出了行业首个高考Agent“高考通”,已为超过5000万用户提供高考服务;移动端上线的“学习阵地”以AI学习助手为核心,支持拍照解题、生成错题本、定制学习计划[53] - 移动端搜索联合元宝推出AI Overview,支持智能问答,并内置一套有趣的AI小工具(如星座运势、BMI计算器)[54] - 生态上,与腾讯自选股、腾讯新闻、腾讯地图、腾讯医典完成内容打通[55]
首个文本到3D生成RL范式诞生,攻克几何与物理合理性
量子位· 2025-12-19 07:20
3DGenR1团队 投稿 量子位 | 公众号 QbitAI 在大语言模型和文生图领域,强化学习 (RL) 已成为提升模型思维链与生成质量的关键方法。 但当我们将目光转向更为复杂的文本到3D生成时,这套方法还会还管用吗? 近期,一项由 西北工业大学、北京大学、香港中文大学、上海人工智能实验室、香港科技大学合作 开展 的研究系统性探索了这一重要问 题。 论文链接: https://arxiv.org/pdf/2512.10949 代码链接: https://github.com/Ivan-Tang-3D/3DGen-R1 强化学习是否能够用于Text-to-3D生成,以加强3D自回归模型的逐步推理与生成过程? 在LLM推理和2D文生图中,RL已经证明可以显著提升CoT推理能力和生成质量。但 3D物体更长、更稠密、更具几何约束 。 因此相关方向研究常面临这几个问题: Progressive Investigation:四个层次拆解Text-to-3D+RL 1. Reward设计层 1. 奖励如何同时刻画语义对齐、几何一致性和视觉质量? 2. 现有RL算法是否适合自回归式3D生成? 3. 缺乏专门考察"3D推理能力 ...
DeepMind掌门人万字详解通往AGI之路
量子位· 2025-12-19 07:20
在最新一期播客中,DeepMind掌门人哈萨比斯清晰地勾勒了他心目中通往AGI的一条现实路径: 一半靠规模扩展,另一半靠真正的科学突破。 henry 发自 凹非寺 量子位 | 公众号 QbitAI 想要实现AGI,技术创新和规模扩展得五五开,缺一不可。 从世界模型、模拟和智能体,一路聊到材料、超导体,甚至可控核聚变。这期播客里,哈萨比斯几乎是站在谷歌的当下,眺望AGI的全局图 景。 以下是哈萨比斯的核心观点速览: AGI实现需要创新与规模化的双重努力 :约50%的努力集中在模型扩展,50%集中在技术创新,二者结合是通向AGI的关键路径。 根节点问题推动科学突破 :AlphaFold的成功验证了AI解决基础科学难题的潜力,当前研究正拓展至材料科学(如室温超导体、更优电 池)、核聚变及量子计算等领域。 AI在数学等领域的表现存在"锯齿状智能"现象 :尽管能在国际数学奥林匹克竞赛中获奖,但在简单逻辑题上仍可能出错,反映出系统在 一致性与可靠推理方面的不足,需提升其自我反思与验证能力。 当前模型依赖人类知识,未来需实现自主学习 :现有大模型基于互联网知识进行压缩与泛化,类似于AlphaGo;下一步目标是实现类似 Al ...
LeCun创业首轮估值247亿!Alexandre当CEO
量子位· 2025-12-19 01:01
这家名为 Advanced Machine Intelligence Labs (AMI Labs)的新公司,计划于明年一月正式亮相,目标估值 30亿欧元 (约247亿人 民币)。 克雷西 发自 凹非寺 量子位 | 公众号 QbitAI LeCun在Meta的Last Day还没来,新公司又被曝出更多细节。 前脚LeCun本人在播客当中宣布了新公司名称,现在融资和估值目标就被《金融时报》曝光了。 AMI Labs的研究方向,就是LeCun一直主推的"世界模型",而且将走开源路线,老东家Meta也将与其保持合作。 另外,曝料也透露了AMI Labs的 CEO人选并非LeCun本人 ,而是他的一位老部下。 LeCun不当CEO 新公司AMI Labs定于2026年1月在巴黎正式启动,在Meta逐渐转向封闭生态的背景下,LeCun选择了他在学术界一贯坚持的开源路线。 而且在技术层面,AMI Labs选择了比主流的LLM更具挑战性的道路—— 死磕"世界模型" 。 因为在LeCun看来,基于自回归机制的LLM存在根本性的逻辑缺陷,它们只是在统计概率上预测下一个字符,并不真正理解物理世界的运行规 律。 为此,新公司将通过 ...
认知偏差、落地断层、体验割裂是目前AI产品的三大痛点|百度王颖@MEET2026
量子位· 2025-12-19 01:01
编辑部 整理自 MEET2026 量子位 | 公众号 QbitAI 当AI从"能说会道"的聊天伙伴,演进为"能想会做"的行动助手,一个关键问题却日益凸显: 为什么AI能力越强,用户完成复杂任务反而越"累"?认知偏差、落地断层与体验割裂,正成为横亘在AI普惠面前的三大鸿沟。 对此, 百度集团副总裁,文库事业部、网盘事业部负责人 王 颖 在量子位MEET2026智能未来大会上,分享了 AI时 代 下的"超级个 人 智 能体" 。AI超越问答与生成,转向深度融合个人记忆、理解复杂意图、自主调度多能力协同执行的综合性智能伙伴。 她系统阐释了百度如何通过核心调度中枢GenFlow及全新智能体生态,将百度文库与百度网盘重塑为 " 最懂你、 能搜索、会干活"的超级个 人助手 ,并披露了其全球化进展。 MEET2026智能未来大会是由量子位主办的行业峰会,近30位产业代表与会讨论。线下参会观众近1500人,线上直播观众350万+,获得了主 流媒体的广泛关注与报道。 核心观点梳理 …… 以下为王颖演讲全文: 为完整呈现王颖的思考,在不改变原意的基础上,量子位对演讲内容进行了整理编辑,希望能给你带来更多启发。 认知偏差、落地断层 ...