Workflow
量子位
icon
搜索文档
豆包大模型开始上车了!上汽荣威率先进入AI智舱新拐点
量子位· 2025-09-17 12:09
文章核心观点 - AI大模型正在重塑汽车行业 推动AI智舱发展 实现从被动指令到主动服务的转变 [1][5][12] - 豆包深度思考大模型首搭上汽荣威M7 DMH 重新定义人车交互模式 提供智能便捷的座舱体验 [3][13][20] - 车企与互联网大厂合作成为行业新趋势 上汽荣威凭借数据优势 硬件接口和创新精神成为豆包大模型首发合作伙伴 [24][27][30] AI智舱定义与需求 - 真正AI智舱需具备主动感知用户需求能力 识别模糊对话意图 执行复杂操作并保持长期记忆 [8][10][11] - 当前座舱系统存在三大局限:只能被动接受指令 无法解析复杂操作 缺乏长期记忆功能 [8] - 用户期待"千人千面"的智能服务 希望车辆成为移动出行空间而非单纯交通工具 [5] 豆包大模型技术特性 - 具备深度思考和推理能力 单刷高考新一卷数学144分 海淀模拟理科706分文科712分 [25] - 自适应思考模式可自动识别任务复杂度 自主切换思考时间 无需手动选择模式 [25] - 拥有记忆贯穿能力 能记住用户需求 车辆状态和地理位置信息 提供个性化服务 [16] 荣威M7 DMH具体应用 - 汽车大师功能精准解答新手车主问题 缩短产品熟悉周期 [15] - 多场景服务能力:用车顾问 百科导师 觅食搭子 哄娃助手等角色切换 [16][17][22] - 多任务协同处理:讲故事同时自动调节声量 温度和车窗状态 [18][19] - 支持本地与云端双存储路径 确保服务连续性和数据安全性 [16] 合作基础与行业影响 - 上汽荣威拥有近二十年数据积累 数十款车型 年销量数十万辆 提供丰富训练场景 [27] - SOA平台具备超320项车控能力 行业最多 为原子化服务组合提供基础 [27][29] - 打造业内首个云端NLP以大模型为主的对话链路 加速行业向AI智舱时代迈进 [23] - 代表汽车座舱转折点 从冰冷机械指令式交互转变为富有人感的对话式交互 [12][20]
小红书首次公开AI技术体系,为最大规模校招拼了
量子位· 2025-09-17 11:06
小红书2026校招规模与人才战略 - 公司启动有史以来最大规模校招 开放八大职类包括算法、研发、产品、数据、商业、运营、设计、职能 [1] - 技术岗位需求同比暴涨2.5倍 反映公司对技术人才的高度重视 [1] - 校招规模扩大源于两方面:公司处于高速发展期导致新业务和功能对人才需求激增 以及往届校招生快速成长为业务骨干的积极示范效应 [3] - 公司人才战略由社招向校招倾斜 表明其愿意从早期阶段陪伴年轻人才成长 [42][43] AI技术体系架构 - AI技术体系首次公开 分为五大核心板块:AI基础设施、基础模型、内容理解与创作、信息分发、社区守护 [4][7][16] - AI基础设施提供计算平台和数据处理框架支撑AI模型高效运行 [16] - 基础模型包含微调开源模型和自有基座模型 用于内容理解、推荐排序和个性化推送 [16] - 内容理解与创作板块运用AI处理图文生成和多模态内容 提升创作效率 [16] - 信息分发板块通过大模型优化搜索和推荐系统 实现精准内容推送 [16] - 社区守护板块运用AI技术维护社区生态健康与安全 [16] - 整个技术体系支撑着月活超3.5亿的UGC社区运营 [10] 搜索与推荐算法优势 - 搜索系统融合NLP语义理解与多模态技术 能同时处理文本、图片、视频等内容 [23] - 与传统搜索引擎不同 更强调社区互动价值 通过算法挖掘评论区深度互动内容 [15] - 突破关键词输入范式 支持自然语言提问 系统能结合用户历史行为与兴趣偏好提供个性化结果 [15] - 推出"问一问"功能 针对复杂问题通过NLP技术综合多篇笔记生成答案并附引用出处 [15] - 搜索系统不仅是信息检索工具 更是社区互动与知识获取的关键入口 [23] 算法体系多领域协同 - 算法体系涵盖信息处理与数据管理、推荐系统算法、多模态推理等多个关键领域 [24] - 多模态技术应用于翻译场景 使多语言翻译更快更自然且兼顾语境与文化习惯 [26] - 算法协同作用提升内容处理智能化水平 增强用户互动价值与信息获取效率 [25] 企业文化与人才培养 - 公司提供丰富文化活动 包括每季度约700场社团日、周五Pet日、REDacademy大师课等 [29][31] - 实施"薯光计划"为校招生提供两年期培养计划 帮助快速融入公司文化并与同事共同成长 [44][46] - 针对不同序列设立专属培养项目:产品类有RPT和RPG 技术类有RTC Alpha和Beta项目 [47] - 组织架构极度扁平化 专业线不设职级 赋予新人充分自主权以促进实践成长 [49] - 人才培养目标超越职业技能提升 更注重激发创造力与全方位成长 契合公司"Inspire Lives"理念 [50] 行业人才发展观点 - 企业选拔人才时更看重潜力而非经验 项目实践中的学习态度与投入度比学校标签更重要 [34][35] - 大模型领域商业落地空间大于前沿探索 对多数从业者而言抓住商业应用机会更为现实 [38] - 建议求职者结合兴趣方向塑造独特价值 同时关注外部发展实现脚踏实地与创新突破的平衡 [39]
腾讯披露元宝已是TOP3应用
量子位· 2025-09-17 11:06
文章核心观点 - 腾讯通过C端AI产品成功验证并逐步向B端落地 形成"好用AI"战略 同时加速全球化布局 通过基建投资和生态输出扩大国际市场份额 [4][17][19][27] C端产品进展 - 腾讯元宝上线一年多成为国内日活排名前三AI应用 用户日提问量达年初月总量水平 [5] - 腾讯元宝与微信 腾讯会议等10余款核心应用深度集成 成为AI生态连接器 [6] - 腾讯会议AI纪要功能用户量年增长超150% [8] - 混元实验室年推出30多个模型 混元翻译获30项国际第一 混元3D下载量超260万 [10] - 混元3D 3.0模型首创3D-DiT分级雕刻技术 建模精度提升3倍 几何分辨率达1536³ [12] B端应用落地 - 腾讯云CodeBuddy实现全流程AI一体化开发 内部新增代码50%由其生成 [18] - 美的通过腾讯会议日均举办2000场跨国会议 效率提升55% [18] - 华住集团采用AI酒店管家实现7×24小时客房服务 [18] - 阿斯利康利用医疗大模型构建一体化服务平台 [18] - 腾讯云智能开发3.0平台3个月完成近600项需求开发 提升RAG能力与插件生态 [15] 全球化战略 - 腾讯云投资1.5亿美元在沙特新建数据中心 布局11个区域办公室与9大技术支持中心 [24] - EdgeOne Pages适配多地区网络环境 兼容海外开发工具 上线3个月用户破10万 [25] - 输出经国内亿级用户验证的音视频技术 小程序平台及AI数字人解决方案 [21] 技术理念 - 强调"以人为本"的AI发展路径 注重提升工作效率 优化交互体验及提供情绪价值 [14] - 通过智能化提升产业效率 通过全球化扩大收入规模 形成双引擎驱动 [27]
稚晖君机器人炸场:全球首秀“真男人必会的韦伯斯特空翻”
量子位· 2025-09-17 11:06
机器人技术突破 - 灵犀X2成为全球首个完成韦伯斯特空翻的机器人 该空翻属于中高级水平动作 对腿部爆发力和协调性要求极高[1][2] - 机器人身高1.3米 全身25-31个自由度(完成空翻时去除头部 减少2个自由度)[13][14] - 采用强化学习训练Mimic策略 通过2D视频转换BVH动捕数据 再通过仿真环境训练RL policy 最终实现高精度执行 控制频率达1kHz[23][24] 运动性能表现 - 具备人类基本运动水平 可应对各种地形跑步 实现自主避障 并能快速调节全身稳定性抵抗外力冲击[16][17] - 完成空翻需要超过30个自由度协同控制 实现精确角动量分配和毫秒级姿态调整 验证了硬件高可靠性[23][25] - 基于统一Locomotion base-model训练 未来将推出zero-shot WBC(全身控制)模型[26] 产品系列布局 - 灵犀X2-W为轮式双臂作业机器人 可"盲走"上台阶并手持12斤物品 双腿六自由度 轮式模式能通过单边桥等复杂地形[28][30][31] - 灵犀X2-N支持轮式与足式双形态自由切换 适配不同地形场景需求[34] - 系列产品采用轮毂电机驱动 集成动态平衡系统和柔性材料 具备抗冲击设计[32][33] 商业化进展 - 灵犀X2预计2025年下半年规模化出货 2026年底出货量达数千台[36] - 公司定位机器人系统为1+3全栈能力:本体+运动智能/交互智能/作业智能[26] - 交互智能方面首创灵动交互概念 通过情感计算引擎和多模态Agent实现生成式动作表达 作业智能已具备实际部署水平[26]
AI在实时视频里秒“剪”出你想要的部分!输入文字/图/视频片段,它都能秒懂|ICCV2025
量子位· 2025-09-17 11:06
OVG-HQ团队 投稿 量子位 | 公众号 QbitAI 还在实时视频里找特定事件找半天?最新技术直接开挂了。 试想一下,安防监控中,几个人影短暂掠过,利用新技术可以秒级调出这段"可疑聚众"的精准片段。 △ 图片为AI生成 在VR训练场,你戴上VR眼镜练习投篮,提前在手机App输入"定位和这个视频示范 (库里完美三分片段) 相似的动作"。训练开始,每一次 出手,眼镜在后台默默分析第一视角视频流。当你做出动作、发力、弧线都神似库里的三分时,眼镜立刻就能在虚拟界面高亮标记这个片段。 △ 图片为AI生成 不卖关子,这就是来自深圳北理莫斯科大学、阿德莱德大学的研究团队提出的新任务。 名叫 混合模态在线视频定位 (Online Video Grounding with Hybrid-modal Queries, OVG-HQ) 。 用大白话说,这项技术能让系统一边直播/录像,一边根据你提供的多种"线索",包括文字、参考图、示范视频片段或组合等,瞬间在实时视频 流中找出并精准裁剪出你关心的完整事件。 论文已收录于ICCV2025。 "离线"是硬伤 :主流技术必须等视频录完才能干活,事后分析如同马后炮,无法满足安防"秒级响 ...
390亿美元,全球具身智能第一估值来了!英伟达持续加注中
量子位· 2025-09-17 11:06
西风 发自 凹非寺 量子位 | 公众号 QbitAI 与OpenAI分道扬镳后,Figure不仅技术进展一波接着一波,融资方面也有新进展了。 最新消息,C轮融资已拿到 超10亿美元承 诺资本,投后估 值高达390亿美元 ,一举创下当前公开信息中具身智能赛道的最高估值纪录。 本轮融资由Parkway Venture Capital领投,英伟达继续加注,Brookfield Asset Management、麦格理资本、英特尔资本、Align Ventures、Tamarack Global、LG Technology Ventures、Salesforce、T-Mobile Ventures、高通风投等也都有参与。 宣布好消息的同时,Figure不忘发布"招贤令",AI-Helix、BotQ制造、电气、设施、运营等13个方向开启招聘。 | | figure.ai | | | | | | --- | --- | --- | --- | --- | --- | | | Careers Figure | | | | | | | 招贤纳士 数字 | | | | | | | We're bringing the huma ...
@CEO,你的下一个私人助理何必是人类
量子位· 2025-09-17 03:43
鱼羊 闻乐 发自 凹非寺 量子位 | 公众号 QbitAI CEO私人助理的活儿,也被Agent盯上了。 每天能独立更新出全公司的 日报版"今日头条" ,还是完全 本地部署 、 开箱即用 的那种: 本体甚至能被CEO拎着走。 没错,整个机箱就A4大小,跟iPhone 15 Pro Max对比起来是这样的: 不卖关子,这么个新鲜角色,名叫智跃Agent一体机。很有意思的一点是,这是市面上首个专门面向CEO打造的软硬一体私有化Agent,目标 用户非常明确。 不愧是"Agent应用元年",连AI新硬件都开始彰显"个性"了。 到底怎么一回事,量子位编辑部的同事们也是率先过了一把CEO瘾,咱们一边实测,一边看看2025年的AI新硬件,都进化成什么样的形态了 —— 开箱即用的"信息管理助手" 传统的一体机大家已经比较熟悉了,大体上是算力+模型供给的模式,基本上买到手里还是得给它配个专门的开发团队。 与之相比,智跃Agent一体机实际上属于一个 全新的概念,定位并不相同 。 在硬件层面,它采用小巧的12L机箱设计,搭载 单卡4090 ,可以说是超小型化的Agent方案。 所有数据处理、存储环节均可以在本地完成,无需依赖外 ...
腾讯混元开源AI绘画新框架:24维度对齐人类意图,让AI读懂复杂指令
量子位· 2025-09-17 01:42
核心观点 - 腾讯混元团队开源PromptEnhancer框架 通过思维链提示重写技术显著提升AI绘画的文本-图像对齐精度 在复杂场景中准确率最高提升17%以上 同时开源高质量人类偏好基准测试数据集以支持研究 [2][4][5][7] 技术架构 - 框架包含CoT-based重写器与AlignEvaluator奖励模型两大模块 通过两阶段训练实现提示优化 无需修改预训练T2I模型权重 [12][14] - CoT-based重写器模拟人类设计思维 将简洁指令拆解为核心元素-潜在歧义-细节补充三步骤 通过48.5万组数据监督微调初始化 [15][19] - AlignEvaluator构建6大类别24维度的评价体系 覆盖语言理解、视觉属性、复杂关系等关键维度 精准定位生成图像错误 [21][22][23] 性能表现 - 在HunyuanImage 2.1模型测试中整体准确率提升5.1% 20个维度实现正提升 [29] - 复杂场景突破显著:相似关系准确率提升17.3% 反事实推理提升17.2% 数量计数提升15.0% [29] - 风格与细节优化明显:面部表情和跨对象属性绑定维度准确率提升超10% 油画等风格还原度大幅提高 [29] 跨模型适配 - 在HunyuanImage 2.1、Flux dev、Qwen-Img等主流T2I模型上均实现图文对齐、真实感及美感提升 验证即插即用特性 [31][44] - 通过提示重写通用逻辑提升不同架构生成模型的复杂指令理解能力 无需针对特定模型定制修改 [44] 基准数据集 - 开源6000条Prompt的高质量基准测试集 覆盖属性绑定、复杂关系、否定指令等核心痛点场景 [45][46] - 指令长度集中于80-120字符区间 峰值约100字符 体现中等复杂度指令为核心 长尾区间覆盖极复杂指令 [49] - 维度共现分析揭示创作规律:风格与实体接触交互共现676次 属性表情与角色全身动作共现332次 [53] 行业影响 - 技术突破AI绘画理解人类意图的精准度 从娱乐工具向工业设计、广告创作等专业领域渗透 [54][55] - 通过优化指令而非修改模型的思路降低优化成本 实现所想即所得的创作体验 [55][56] - 生态补全通过开源高质量数据集推动提示优化技术的可解释性与可复现性研究 [7][45]
李飞飞发布世界模型新成果:一个提示,生成无限3D世界
量子位· 2025-09-17 01:42
核心观点 - 李飞飞创业公司World Labs推出新一代世界模型 能够基于单一图像或提示构建可无限探索的3D虚拟世界 具备更大规模、更多样风格和更清晰几何结构 [1][3][5] 技术特性 - 支持持久存在、可导航且可自定义操控的3D世界生成 允许用户自由视点漫游 [3][13] - 生成场景具备丰富几何复杂性 可探索输入视角之外的隐藏空间 [14] - 模型保持高度一致性和风格连贯性 支持多场景无缝拼接形成更大虚拟世界 [3][24][25] - 支持多样化视觉风格生成 从扁平化卡通到写实风格均可转化 [15][17] 应用与兼容性 - 生成世界可导出为高斯点云 通过开源Spark渲染库集成至Three.js 兼容台式机、笔记本、移动设备和VR头显 [8] - 模型生成内容永久持续 无时间限制且完全免费访问 [28][29] 产品进展 - 已推出beta预览版本 通过Marble平台开放体验和构建功能 [9][30]
小白也能玩转AI视频!即梦Agent模式实测:一句话搞定插画、海报、Vlog
量子位· 2025-09-16 09:04
产品功能升级 - 即梦AI最新上线Agent模式 只需一次输入即可完成从生图到生视频的复杂指令 无需多步骤拆分[3] - 支持智能多帧功能 自动生成多张连续图像并连接首尾两帧组成完整视频[9] - 具备图像风格迁移能力 可基于参考图生成类似创意风格的作品[14][18] - 支持不同风格图片融合 例如水彩与水墨结合生成统一协调的画面[30][32][33] - 提供提示词反推功能 可根据图片自动生成对应的详细提示词[34][37][38] - 支持批量生成 单次指令可生成40张图片或8个视频[39] 技术能力表现 - 基于字节自研Seedream 4.0模型 在Artificial Analysis文生图和图像编辑双榜排名第一 超越谷歌Nano Banana[49][50] - 支持4K分辨率生成 此功能为Nano Banana所不具备[52] - 逻辑理解能力和推理速度显著提升 将文生图、图编辑、组图生成功能集于一体[51] - 自动适配输出格式 能根据指令智能生成3:4比例的竖图适合移动端展示[13] 应用案例展示 - 生成中国标志性景点插画视频 仅用3分钟完成6张外滩、泰山等景点的几何化风格插画[11][12][13] - 为蜜雪冰城生成广告图 将塑料杯改为玻璃材质并提升品牌档次感[15][18][20] - 生成吉卜力风格旅游照 主角与各地景点深度互动 包括在上海东方明珠前喝奶茶的场景[41][43] - 创作中秋节系列海报 基于单张参考图生成四张不同色调和元素变化的"中秋佳节"海报[22][24][26] 用户体验优化 - 提供AI助手功能 可指导用户如何编写有效提示词[8] - 大幅降低使用门槛 使复杂生图操作变得简单易用[53] - 生成效果自然流畅 转场过渡平滑 镜头手法丰富多样[47]