Workflow
量子位
icon
搜索文档
量子位编辑作者招聘
量子位· 2025-12-02 04:59
公司概况与市场地位 - 公司是一家以追踪AI新进展为核心的内容平台,拥有8年行业积累[1] - 公司在微信公众号平台拥有超过240万订阅用户,全网用户超过700万,日均阅读量超过200万[12] - 公司在第三方数据平台(如新榜、清博)是AI及前沿科技行业的TOP1新媒体[12] 招聘岗位总览 - 公司开放三大方向的全职岗位招聘,工作地点位于北京中关村[2] - 招聘岗位面向社招和校招,社招覆盖编辑、主笔、主编各个层级,校招面向应届毕业生并接受实习转正[6] - 所有岗位的不同能力层级职位均在开放,应聘者可根据个人履历和经验申请[4] AI产业方向岗位详情 - 岗位职责是关注基建层创新,包括芯片、AI Infra、云计算等领域的新进展及核心玩家动态[6] - 需要跟进前沿论文、开源社区及技术大会(如Hot Chips, NeurIPS, MLSys)的报告,并进行大众化解读[6] - 需要参与核心采访,对话产业专家、技术大牛,并撰写AI云落地案例[7] - 任职要求包括对芯片、GPU、NPU、服务器、模型训练架构、云计算有基本理解[11] - 需要熟悉AI行业的供应链与生态(如训练-推理、算力-成本、云-芯片关系),并能将复杂技术内容结构化表达[11] - 有技术背景、理工或CS/EE方向者优先[11] AI财经商业方向岗位详情 - 岗位职责是关注AI领域创投和财报,跟踪产业链资本动向[6] - 具体工作聚焦于创投、AI创业公司、上市公司、商业模式及产业链资本动向[11] - 需要产出创投融资、招股书财报解析、公司战略分析等稿件,并访谈对话投资人、创业者及产业分析人士[11] - 任职要求是对数据敏感,对财报、股权结构、战略规划感兴趣[11] - 需要逻辑结构强,对商业叙事敏感,并热爱对话采访,具备社交型人格[11] AI产品方向岗位详情 - 岗位职责是关注AI在应用和硬件终端方向的进展[6] - 具体工作包括关注AI在终端的落地,如软件应用产品、硬件方向落地[11] - 需要撰写AI应用产品深度评测,跟踪多终端新品发布(如手机、PC、XR、车机等),并对话访谈AI应用创业者、产品专家及终端技术专家[11] - 任职要求是对智能硬件、AI终端趋势敏锐,是重度AI产品体验人士[11] - 需要熟悉各大终端厂商业态及体验方法论,并具备强逻辑、体验表达和结构化能力[11] 加入公司的潜在收益 - 员工可以站在AI浪潮之巅,第一时间接触和了解AI领域最新技术和产品,构建完整的AI认知体系[6] - 员工可以玩转AI新工具,将各种AI新技术、新工具应用于工作,提升工作效率和创造力[6] - 员工有机会打造个人影响力,通过撰写独家原创内容建立个人知名度,成为AI领域的意见领袖[6] - 员工可以拓展行业人脉,与AI领域大咖零距离接触,参与重要科技活动和发布会,拓展行业视野[6] - 应届新人会获得专业指导,由主编级编辑出任mentor提供一对一指导,以更快进步获得成长[6] - 员工将加入一个扁平、简单、开放、多劳多得能者上位的活力团队,与志同道合的年轻人一起工作[6] - 员工将获得行业TOP薪资待遇,福利包括五险一金、餐补、项目绩效、商务绩效、加班补助等[6] 各层级岗位能力要求 - 主编岗位需要具备选题和带队能力及经验[6] - 主笔岗位需要具备原创深度稿件能力[6] - 编辑岗位需要热爱表达,喜欢挖掘信息,能够用大白话让所有人看懂AI新进展[6] 应聘方式 - 应聘者需将个人简历发送至指定邮箱zhaopin@qbitai.com[11] - 邮件主题需注明“量子位XX方向应聘 - [你的姓名]”[11] - 需随简历附上科技行业代表作品,或能展现个人写作水平和风格的作品[11]
速报!MEET2026嘉宾阵容再更新,观众报名从速
量子位· 2025-12-02 04:59
大会概况 - 会议名称为量子位MEET2026智能未来大会,将于2025年12月10日在北京金茂万丽酒店举行 [1][119] - 大会主题为“共生无界,智启未来”,关注以AI为代表的智能科技如何穿透产业、学科与场景的边界 [2] - 大会将聚焦强化学习、多模态、芯片算力、AI+行业、AI出海等前沿技术与产业落地进展 [3] - 大会内容涵盖学术前沿与商业落地的最新碰撞,以及来自基础设施、模型、产品产业的领先技术成果 [4] - 大会将权威发布人工智能年度榜单与年度AI趋势报告 [5][116] - 作为年度影响力科技商业峰会,每年大会吸引上千名科技从业者参与,百万观众线上围观,近百家合作媒体联合曝光 [121][122] 人工智能年度榜单 - 量子位发起的“人工智能年度榜单”已成为AI行业最具影响力榜单之一 [117] - 2025年榜单将从公司、产品、人物三大维度评选五类奖项 [117] 年度AI趋势报告 - “年度AI趋势报告”将提名正在释放巨大潜力的十大AI趋势 [118] - 报告将结合技术成熟度、落地现状、潜在价值等因素对各趋势进行深入分析,并提名代表机构与最佳案例 [118] 参会嘉宾阵容 - 张亚勤:清华大学智能产业研究院院长,中国工程院院士,曾任百度公司总裁,数字视频和人工智能领域世界级科学家 [11][12] - 孙茂松:清华大学人工智能研究院常务副院长,欧洲人文和自然科学院外籍院士 [15] - 王仲远:北京智源人工智能研究院院长,曾任职于快手、美团、Facebook、微软亚洲研究院,发表论文100余篇 [19] - 王颖:百度集团副总裁,负责文库事业部、网盘事业部 [23][24] - 韩旭:文远知行WeRide创始人兼CEO,带领公司于2024年登陆纳斯达克,2025年登陆香港交易所 [27][28] - Daniel Povey:小米集团首席语音科学家,IEEE Fellow,著名开源语音识别工具Kaldi的提出者和主要维护者 [33] - 方汉:昆仑万维董事长兼CEO,拥有31年互联网从业经验,中文Linux奠基人之一 [36][37] - 尤洋:潞晨科技创始人兼董事长,新加坡国立大学校长青年教授,曾获福布斯30岁以下精英榜(亚洲)等荣誉 [42][43] - 杨帆:商汤科技联合创始人、执行董事、大装置事业群总裁,主导推动商汤多个核心业务规模化商业落地 [45] - 万卫星:高通公司AI产品技术中国区负责人,负责高通智能终端侧人工智能引擎软硬件的规划及生态系统建设 [48][49] - 陈晓建:亚马逊云科技大中华区产品部总经理,拥有超过20年企业级业务经验 [53][54] - Dennis Yue:Google Cloud大中华区企业与中国初创业务负责人,在云计算和IT服务领域拥有超过30年领导经验 [58] - 朱宁:上海交通大学上海高级金融学院金融学教授,全球知名的中国经济金融专家,曾任职于雷曼兄弟与野村证券 [62][63] - 赵俊博:浙江大学百人计划研究员、博士生导师,蚂蚁集团资深技术专家,首创数据库大模型TableGPT [67] - 喻友平:中关村科金总裁,曾任百度智能云副总裁,提出“平台+应用+服务”大模型落地三级引擎战略 [71][72] - 刘凡平:RockAI CEO,主导并实现国内首个非Transformer架构大模型,首倡以“群体智能”理念推动通用人工智能 [75][76] - 乔梁:太初元碁联合创始人兼首席运营官,获评2024年度“算力中国·青年先锋人物” [80][81] - 王潜:自变量机器人创始人兼CEO,致力于研发由端到端大模型驱动的通用机器人 [84][85] - 姚欣:PPIO联合创始人兼CEO,P2P-Streaming协议发明人,曾创办覆盖全球4.5亿用户的网络电视平台PPTV [88][89] - 毛健:云徙科技COO/副总裁,拥有20多年管理咨询和技术落地经验,主导企业运营超级智能体产品研发 [93][94] - 屠静:卓世科技创始人兼CEO,曾任百度地图、百度糯米、百度APP核心高管 [99][100] - 杜知恒:小宿科技联合创始人兼CEO,曾任家办CIO、红杉中国对冲基金创始成员,并曾在高瓴资本、百度任职 [104][105] - 赵天成:联汇科技CEO兼首席科学家,其研发的Om多模态大模型是国内首个通过工信部信通院评测认证的预训练大模型 [108][109] - 徐达峰:蚂蚁集团平台体验技术部负责人,资深前端技术专家,致力于通过AI驱动前端研发范式革新 [113][114]
世界模型和具身大脑最新突破:90%生成数据,VLA性能暴涨300%|开源
量子位· 2025-12-02 04:59
文章核心观点 - 国产世界模型公司极佳视界发布并开源具身世界模型GigaWorld-0,首次实现VLA模型训练数据中90%由世界模型生成 [3] - 使用GigaWorld-0生成数据训练的VLA模型,在新纹理、新视角、新物体位置三大泛化维度上性能提升近300% [1][3] - 该突破标志着具身智能正式迈入数据高效、高泛化、低成本的新阶段,破解了高质量真实机器人交互数据稀缺的行业瓶颈 [3] GigaWorld-0模型架构与技术突破 - 模型由GigaWorld-0-Video和GigaWorld-0-3D两大协同组件构成,分别负责生成视觉逼真的操作数据和确保几何结构与物理动力学的准确性 [5] - GigaWorld-0-Video采用基于稀疏注意力的Diffusion Transformer作为生成主干,显著降低内存占用与推理延迟 [7][9][10] - 在DiT前馈网络模块中集成混合专家架构,每个视频Token动态路由至多个专家网络,实现细粒度的内容控制 [11][12][13] - GigaWorld-0-3D融合生成式重建技术与可微分物理引擎,提升稀疏观测条件下的场景建模能力并精准复现机械臂交互的动力学行为 [14][16][18] 高效训练框架与性能 - GigaWorld-0是业内首个采用FP8精度端到端训练的世界模型,通过将FP8与稀疏注意力结合,显著降低显存占用与训练成本 [19] - 自研的GigaTrain高效训练框架支持多种先进训练技术,在8×H20等常规硬件上可高效完成微调,并已全面开源 [20] - 在PBench基准测试中,尽管GigaWorld-0仅激活20亿参数,为对比模型中最小,却在整体评分上取得最高性能(Domain Overall Score: 82.07),领先于参数量更大的模型 [23][24][25] 公司背景与行业影响 - 极佳视界是国内首家以世界模型为切入点的物理AI公司,专注于世界模型平台与具身基础模型的双轮闭环 [27] - 公司核心团队拥有顶尖的研究能力和大规模的产业落地经验,技术已应用于自动驾驶、具身智能等多个方向 [27][28] - 公司在11月刚刚完成亿元级A1轮融资,由华为哈勃、华控基金联合投资,这是两个月内连续完成的第三轮融资 [29]
前端没死,AI APP正在返祖
量子位· 2025-12-02 02:01
文章核心观点 - AI技术并未颠覆前端与终端开发,而是将技术复杂度从物理硬件转移到模型、接口、网络和算力构成的数字层面[6][7] - 前端程序员的根本任务始终是对抗系统熵增(复杂性),AI时代需要解决历史技术债问题[8][9] - 终端设备在AI时代价值反而提升,未来将是"云侧训练+端侧推理"的混合模式[48][50] - AI应用看似简单实则是技术轮回,交互和架构正在经历返祖现象[17][33] 技术复杂度迁移 - 从诺基亚3310到iPhone 17 Pro,电路板复杂度显著增加,但复杂度形式从物理堆叠转向数字堆叠[5][6] - 技术浪潮是规模放大、节奏加快的轮回过程,而非彻底革命[11] AI应用界面特征 - 当前AI应用界面极度简化,类似20年前WAP网页和支付宝1.0时代的朴素界面[13][14][15] - 这种简化不是美学选择,而是"GUI+CUI"深度融合范式尚未成熟的表现[16][25] 交互方式轮回 - 计算机发展从DOS命令行界面走向图形用户界面,AI试图将用户拉回自然语言对话的CUI时代[19][20][21] - 单纯CUI在处理复杂任务时效率低下,未来将是GUI负责高频确定性操作、CUI负责长尾复杂意图理解的共生模式[22][23][24] - Rabbit R1和AI Pin等纯AI硬件因缺乏视觉反馈导致沟通成本上升而市场表现不佳[22] 架构设计轮回 - 移动互联网初期为业务灵活性设计的宽接口(如extend_info字段)在AI时代成为技术债[26][27] - 大模型无法理解缺乏语义的黑盒接口,需要重新定义接口以增强可理解性[28][29][30][31] - AI迫使前端工程师弥补为灵活性牺牲的语义完整性[32] 终端设备价值 - 终端不可替代源于网络和算力两大物理限制[35][36][37] - 网络维度:通信技术进步解放交互模态,但物理网络盲区始终存在[39][40] - 算力维度:终端设备服务器化趋势明显,iPhone 17 Pro拥有4.29GHz多核CPU和12GB内存,堪比小型服务器[42][44][45] - 端侧算力暴涨使手机成为边缘计算强力节点,能避免云端并发请求过载[46][47] 技术发展规律 - 新技术从原型到产品爆发需要长期渗透,多点触控技术从1970年代原型到iPhone应用间隔37年[52][55][56][57] - Transformer架构2017年提出,但神经网络理论基础1980年已成熟,需要互联网时代海量数据支撑[58][59] - 应用是新技术的量尺,体验是C端应用的灵魂,前端工程师对体验的敏感度是AI无法替代的护城河[61][63][68] 程序员价值定位 - AI无法替代工程能力:优化首屏加载、处理内存泄漏、高并发稳定性、碎片化环境UI一致性等[67] - 大模型提供概率性预测,但用户需要确定性服务,需要工程师把控技术应用的细节和场景适应性[65][66]
库克不忍了!挥刀优化苹果AI大总管
量子位· 2025-12-02 00:58
苹果AI与机器人团队高层人事变动 - 苹果宣布其机器学习和AI战略高级副总裁John Giannandrea(约翰·詹南德里亚)将卸任,并于2026年春季彻底离开公司[1][4][12] - 苹果同时宣布任命从微软挖来的Amar Subramanya(阿马尔·苏布拉马尼亚)出任AI副总裁,向软件负责人Craig Federighi汇报[3][14] - 苹果机器人技术负责人、清华校友Yilun Chen已离职并跳槽至特斯拉[3][21][25] - 苹果机器人首席AI研究员Jian Zhang已于今年9月离职并加入Meta的机器人工作室[30][32] 苹果AI业务表现与团队状况 - 在John Giannandrea领导下,苹果的AI团队被认为落后于同行将近两年[8] - 苹果于今年3月推迟了新版Siri的发布,并承认开发进度比预想要慢[9] - 苹果自研AI系统进展有限,开始寻求谷歌、阿里千问等外部供应商[20] - 苹果AI模型团队遭遇人才流失,约有十几名成员已经离开,其中包括该团队负责人庞若鸣(于7月加入Meta)[18][19] - 苹果暂时不会另聘John Giannandrea的继任者,而是选择拆分AI团队,成员将分别向软件负责人、首席运营官和服务负责人汇报[13][14] 苹果面临的整体挑战与未来展望 - 彭博社报道称,苹果内部认为其人工智能落后行业领导者两年多,并对AI的兴起感到措手不及[39] - 在商业方面,库克被评价为成功的CEO,苹果市值于2022年1月突破3万亿美元[38] - 外界普遍认为苹果当前急需一位真正懂技术、懂产品的CEO,库克最早可能在明年让位,潜在接班人是硬件工程高级副总裁John Ternus[36][40][41]
Runway Gen-4.5刷屏发布,把重量、尘土和光影都做对了,网友:颠覆
量子位· 2025-12-02 00:58
文章核心观点 - Runway最新发布的Gen-4.5模型在文本转视频领域实现了重大突破,被评价为“视频生成AGI时刻”和“颠覆者”[1][14] - 该模型在Artificial Analysis文本转视频基准测试中以1247的Elo评分获得SOTA,超越了所有现有模型[3] - 模型在物理还原度、视觉精准度、复杂指令理解和画质方面均有显著提升,且计划以与当前订阅套餐相近的价格全面开放[15][16][24] 模型性能与技术突破 - **基准测试表现卓越**:在Artificial Analysis文本转视频基准测试中获得1247 Elo评分,达到SOTA水平[3] - **复杂指令理解与执行**:擅长理解并执行复杂的序列式指令,可在单个提示词中精准指定镜头运镜、场景构图、时间节点和氛围变化[21][22] - **画质与物理特性突破**:在保留Gen-4速度与效率优势的同时,实现了画质的突破性提升[24] - 生成的视频中物体移动具备符合现实的重量感与动量特征,物体表面呈现与现实世界一致的物理特性[25] - **高真实感与细节**:运镜与视角切换丝滑,能很好地生成文字[6] - 能处理如“人照镜子”的复杂场景且几乎看不出破绽[8] - 能生成如“汽车疾驰尘土飞扬”并带有真实颠簸感的动态效果[10] - 能呈现如“刷墙视频”中颜料干后颜色变浅的细微细节[12] 模型功能与可控性 - **广泛的控制模式适配**:除了文本生成视频,公司计划为Gen-4.5适配所有已有的控制模式,如图片转视频、关键帧生成、视频转视频等[39] - **强大的风格化能力**:能够驾驭各种艺术风格,包括3D绘画风格[35][37] - **创作自由度**:既能遵循物理定律生成逼真内容(如街头滑滑板效果逼真、背景模糊处理有质感),也能根据创作构想突破物理定律[28][30][32] - 例如,可以生成“小羊拉北极熊”这类超现实场景[33] 模型迭代与行业影响 - **快速迭代与质变**:从Gen 1到Gen-4.5历经两年迭代,实现了质感的全面蜕变[14] - **提升内容真实性**:其前所未有的物理和视觉准确性,使得真实内容与AI生成内容更难以区分[15] - **坦诚模型局限性**:官方指出模型在因果推理与物体恒存性(理解“物体即使看不见也依然存在”的认知能力)方面仍存在不足[40] - 团队已在进行相关优化以改进这些局限性[41]
DeepSeek-V3.2系列开源,性能直接对标Gemini-3.0-Pro
量子位· 2025-12-01 12:13
模型发布概览 - 在ChatGPT发布三周年之际,DeepSeek同时发布了两款新模型:DeepSeek-V3.2和DeepSeek-V3.2-Speciale [1] - DeepSeek-V3.2聚焦平衡实用,适用于日常问答、通用Agent任务和真实应用场景下的工具调用 [1] - DeepSeek-V3.2-Speciale主打极致推理,推理基准性能媲美Gemini-3.0-Pro [3] 模型核心能力与定位 - DeepSeek-V3.2的推理能力达GPT-5水平,略低于Gemini-3.0-Pro [2] - DeepSeek-V3.2-Speciale在高度复杂数学推理、编程竞赛、学术研究类任务上能力出众 [13] - DeepSeek-V3.2-Speciale在指令跟随、数学证明、逻辑验证方面能力出众,但未针对日常对话与写作做专项优化,且仅供研究使用,不支持工具调用 [13][14][15] - 在高度复杂任务上,Speciale模型大幅优于标准版本,但消耗的Tokens也显著更多,成本更高 [16] 关键性能指标与竞赛表现 - DeepSeek-V3.2-Speciale斩获IMO 2025、CMO 2025、ICPC World Finals 2025、IOI 2025金牌 [4] - 在ICPC竞赛中达到人类选手第二、IOI竞赛中达到人类选手第十名水平 [5] - 在AIME 2025(美国数学邀请赛)中,DeepSeek-V3.2-Speciale得分为96.0,高于GPT-5 High的94.6和Gemini-3.0 Pro的95.0 [17] - 在HMMT Feb 2025(哈佛MIT数学竞赛)中,DeepSeek-V3.2-Speciale得分为99.2,显著高于GPT-5 High的88.3和Gemini-3.0 Pro的97.5 [17] - 在CodeForces(世界级编程竞赛)中,DeepSeek-V3.2-Speciale评分为2701,接近Gemini-3.0 Pro的2708,并高于GPT-5 High的2537 [17] 架构创新:DSA稀疏注意力机制 - DeepSeek-V3.2最大的架构创新是引入了DSA(DeepSeek Sparse Attention)机制 [21] - 传统注意力机制在处理长序列时计算复杂度是O(L²),而DSA将计算复杂度降低到O(L·k),其中k远小于L [22][23] - DSA包含两个组件:闪电索引器(lightning indexer)和细粒度token选择(fine-grained token selection)机制 [27] - 闪电索引器负责快速计算查询token和历史token之间的相关性分数,然后只选择top-k个最相关的token进行注意力计算 [28] - 团队采用了两阶段训练策略:第一阶段是Dense Warm-up,保持密集注意力,只训练lightning indexer,用了1000步,处理了21亿个tokens;第二阶段引入稀疏机制,每个查询token选择2048个键值对,训练了15000步,总共处理了9437亿个tokens [30][31][32][33] - 在128k长度的序列上,当序列长度达到128K时,预填充阶段每百万token的成本从0.7美元降到了0.2美元左右,解码阶段从2.4美元降到了0.8美元,推理成本比V3.1-Terminus降低了好几倍 [35] 强化学习与后训练 - 强化学习训练的计算预算已经超过了预训练成本的10%,这在开源模型中相当罕见 [37][38] - 团队开发了稳定、可扩展的RL协议,使训练后阶段的计算预算超过了预训练成本的10% [40] - 团队在GRPO算法基础上做了多项改进,包括无偏KL估计、离线序列掩码策略,并特别针对MoE模型设计了Keep Routing操作 [41][42][44][46] - 在具体训练上,团队采用了专家蒸馏的策略,先为数学、编程、通用逻辑推理、通用Agent任务、Agent编程和Agent搜索这6个领域训练专门的模型,然后用这些专家模型生成特定领域的数据来训练最终模型 [47][48] Agent能力突破 - DeepSeek-V3.2模型在Agent评测中达到了当前开源模型的最高水平 [8] - 团队找到了让模型同时具备推理和工具使用能力的方法 [50] - 团队设计了新的思考上下文管理机制:只有在引入新的用户消息时才丢弃历史推理内容,如果只是添加工具相关消息,推理内容会被保留 [54] - 团队开发了一个自动环境合成pipeline,生成了1827个任务导向的环境和85000个复杂提示 [58] - 在代码Agent方面,团队从GitHub挖掘了数百万个issue-PR对,成功搭建了数万个可执行的软件问题解决环境 [63] - 评测结果显示,DeepSeek-V3.2在SWE-Verified上达到73.1%的解决率,在Terminal Bench 2.0上准确率46.4%,都大幅超越了现有开源模型 [64] - 在MCP-Universe和Tool-Decathlon等工具使用基准测试上,DeepSeek-V3.2也展现出了接近闭源模型的性能 [65] 综合基准测试表现 - 在工具使用基准T2-Bench上,DeepSeek-V3.2得分为80.3,低于Claude-4.5-Sonnet的84.7和Gemini-3.0 Pro的85.4,但高于GPT-5 High的80.2 [12] - 在MCP-Universe基准上,DeepSeek-V3.2成功率为45.9%,低于Gemini-3.0 Pro的50.7%,但高于Claude-4.5-Sonnet的46.5%和GPT-5 High的47.9% [12] - 在Tool-Decathlon基准上,DeepSeek-V3.2得分为35.2,高于GPT-5 High的29.0和Gemini-3.0 Pro的36.4 [12] - 在MMLU-Pro(EM)基准上,DeepSeek-V3.2得分为85.0,低于Gemini-3.0 Pro的90.1,但高于Claude-4.5-Sonnet的88.2和GPT-5 High的87.5 [66] - 在GPQA Diamond(理工科博士生测试)基准上,DeepSeek-V3.2得分为82.4,低于Gemini-3.0 Pro的91.9和GPT-5 High的85.7 [66] - 在LiveCodeBench(世界级编程竞赛)基准上,DeepSeek-V3.2得分为83.3,低于Gemini-3.0 Pro的90.7和GPT-5 High的84.5 [66] 模型局限性 - 由于总训练FLOPs较少,DeepSeek-V3.2的世界知识广度仍落后于领先的闭源模型 [68] - Token效率是个挑战,通常情况下,本次上新的两个模型需要生成更长的轨迹,才能达到Gemini-3.0-Pro的输出质量 [69]
字节“豆包手机”刚开卖,吉利系进展也曝光了:首月速成200人团队,挖遍华为小米荣耀
量子位· 2025-12-01 12:13
字节跳动与中兴合作的AI手机 - 字节跳动与中兴合作推出首款AI手机,售价3499元,核心卖点是集成了字节自研大模型Agent服务,即豆包手机助手技术预览版 [1] - 字节跳动明确表示没有造手机计划,其战略意图在于软件侧底层的AIOS(AI操作系统)赛道 [2][3] 新入局者:智跃千里公司概况 - 一家名为“智跃千里”的新公司于2024年8月成立,定位为聚焦下一代AI终端生态和交互方式的科技公司 [5][15] - 公司成立当月即拥有近200名员工,招聘速度极快,员工来自华为、小米、荣耀、魅族等厂商 [23] - 公司在北京、上海、深圳均设有办公室 [22] 智跃千里的资本与团队背景 - 公司与吉利系关系紧密,法定代表人及持股50%的投资人郝建国,其投资关联方涉及星纪魅族集团前CEO苏静 [6][7][8][9] - 公司另一关键关联人物沈子瑜,是吉利集团智能化转型核心人物,曾担任星纪魅族集团CEO,现聚焦极星品牌与亿咖通科技 [11][12] - “智跃千里”的命名与吉利系另一家“AI for Car”公司相呼应,而该公司自身定位为“AI for Phone、AI for Terminal” [13][14] 智跃千里的业务战略与布局 - 公司战略与字节跳动不同,采取软硬一体路线,既研发AI大模型、AI Agent、AIOS,也设计制造硬件产品 [16] - 公司计划研发的硬件产品包括但不限于手机和XR眼镜 [17] - 公司正在推进完整的端到端产品开发流程,从人机交互设计到整机开发、电池结构、显示材料等硬件环节均自主布局,意图主导全链路 [19][20] AI终端行业趋势与竞争格局 - 行业趋势正从“端侧AI”向更深层次的“AI终端”融合演进,其边界涵盖大模型、操作系统、软硬结合形态及新交互服务闭环 [25][26][27] - 消费级AI终端(如AI手机、AI PC、AI平板)已成为连接模型能力与生活场景的关键入口,并可能延伸至智能汽车座舱,成为车内人机协作中枢 [28][29] - 行业竞争加剧,华为、小米等巨头早已推行“人、车、家全生态”的软硬件一体战略,字节跳动和吉利(通过智跃千里等)的入局将使AI终端赛道更加热闹 [30][31][32]
字节视频模型超越Gemini 3 Pro!理解能力爆表,小时级素材也能直出剪辑方案
量子位· 2025-12-01 09:26
字节跳动发布新一代视频理解模型Vidi2 - 核心观点:字节跳动发布的新视频理解模型Vidi2,在多项关键能力上超越了GPT-5和Gemini 3 Pro,特别是在长视频的时空定位与理解方面实现了显著突破,并展示了从理解到视频剪辑生成的端到端应用潜力 [1][12] 模型核心能力与性能表现 - **高级视频理解与定位**:Vidi2能够精准定位视频中的特定内容,不仅能准确卡准时间段,还能在画面上实时圈出目标物体,解决了长视频中寻找关键细节的难题 [10][11] - **性能优势显著**:在衡量时空对齐精度的关键指标vIoU-Int.上,Vidi2达到60.3%,几乎是GPT-5(33.6%)的两倍,远超Gemini 3 Pro Preview(16.6%)[12] - **卓越的长视频处理能力**:模型在处理超长视频时表现出极高的稳定性,当视频时长超过一小时,Vidi2依然能保持38.7%的检索精度 [13] 创新性的视频剪辑生成功能 - **自动化视频剪辑**:Vidi2能够根据数小时的原始素材和一个创意提示,自动生成一份详细的JSON剪辑指令清单,涵盖剪辑位置、台词、字幕、配乐等内容,用户可据此直接渲染导出有剧情、有配乐、有特效的完整视频 [2][6][7] - **构思剧本能力**:模型能像剪辑师一样处理素材,根据创意方向自行构思剧本,并生成精确到秒的镜头截取、播放速度、字幕样式等详细方案 [6] 核心技术架构与突破 - **端到端时空定位**:Vidi2的核心技术突破在于实现了端到端的时空定位能力,能够在统一输出中精准锁定目标事件的时间片段并同步生成空间边界框轨迹,解决了复杂对象的持续追踪难题 [16][17] - **自适应Token压缩策略**:针对视频时长从十秒到三十分钟不等的跨度,模型采用重新设计的自适应Token压缩策略,根据视频总时长动态调节信息密度,以平衡处理效率与特征保留 [18] - **分解注意力机制**:模型以120亿参数的底座为基础,采用了分解注意力机制,将传统Transformer的全注意力运算拆解为视觉内部对角注意力、文本自注意力及跨模态注意力三个独立部分,将多模态Token的计算复杂度从平方级降低为线性级,使其能以有限显存处理长达一小时的视频流 [19][20] 数据合成与训练策略 - **独特的数据合成路径**:为解决时空定位数据稀缺的难题,研发团队利用现有图像级空间定位数据,通过滑动窗口算法在静态图像上模拟摄像机运动轨迹,自动生成随时间连续变化的边界框序列,将静态空间定位扩展为动态时间对齐 [23] - **混合数据训练**:训练流程引入了大量高精度人工标注的真实世界视频数据,以修正合成数据可能带来的分布偏差并提升定位精度 [24] - **时间感知多模态对齐策略**:在最终训练阶段,采用了分阶段、双向强化的训练机制,先通过双向预测任务训练模型对时间边界的敏感度,后融入大量通用视频问答数据以强化跨模态语义关联 [25][26] 行业竞争与数据优势 - **数据是核心竞争力**:分析指出,谷歌Gemini和Veo 3的成功得益于其拥有的YouTube视频数据,而字节跳动手握大量短视频,同样拥有自己的数据优势 [26][27] - **行业趋势**:更多的数据意味着更强大的模型,AI竞争的下一场关键将在于谁能拥有更多更好的数据 [29]
AI永生赛道来了位15岁量子物理博士
量子位· 2025-12-01 09:26
文章核心观点 - 一位名为Laurent Simons的15岁比利时少年,在量子物理学领域取得博士学位,并计划转向AI医疗领域,旨在开发“超级人类”并利用先进科学对抗生物衰老 [1][33][34] 天才少年的学术历程 - 4岁开始读小学,仅用2年完成小学学业 [5] - 在中学阶段,其学习速度远超同龄人,几天便能掌握其他学生需要十周才能学完的内容 [9][10] - 8岁高中毕业,随后进入埃因霍温理工大学攻读电气工程学位,目标是10岁前毕业 [14][15] - 因毕业时间安排分歧,11岁时从安特卫普大学以最高分(85%)完成物理学学士课程 [20][21] - 12岁时以最优成绩取得硕士学位,期间在马克斯·普朗克量子光学研究所研究利用激光检测微小癌细胞 [22][23][24] - 15岁时完成量子物理学博士学位,论文主题为“超流体和超固体中的玻色极化子” [26][27] 个人生活与家庭背景 - 日常生活中,其作息与普通青少年相似,会赖床至上午11点,并喜欢追剧和玩《我的世界》、《堡垒之夜》等电子游戏 [37][38][39][41] - 出生于2009年,父母均为牙医,童年大部分时间与祖父母同住 [44][45] - 智商高达145,位于全球人口的前0.1% [51] - 父母对其采取“放养”态度,希望他能做自己喜欢的事,但也频繁为其安排媒体采访,使其曝光于聚光灯下 [43][52][53][54] 未来规划与行业影响 - 计划攻读第二个博士学位,方向为医学AI,目标是开发“超级人类”并对抗生物衰老,动机源于祖父母因心脏病去世 [33][34][35] - 其学术转向(从量子物理到AI医疗)和非凡成就引发了科技巨头的关注,但相关邀约均被其父母谢绝 [32]