Workflow
世界模型
icon
搜索文档
独家 | 通义核心人才相继“叛逃”,阿里双管齐下:砸天价年薪揽才+竞业锁喉
钛媒体APP· 2025-11-19 08:37
公司战略转向 - 阿里巴巴于2024年底启动AI战略重大转向,从长期深耕B端企业服务转向聚焦C端大众市场布局[2] - 公司宣布未来三年将投入至少3800亿元用于云计算与AI基础设施建设,该金额超过过去十年在相关领域的投入总和,覆盖算力部署、模型研发及AI云计算全链条[2] - 2025年9月云栖大会期间,公司CEO吴泳铭明确推进该投资计划并披露追加后续投入规划,进一步聚焦AI驱动的业务增长路径[2] 核心产品与技术 - 2025年11月17日,公司正式宣布“千问”项目全力进军AI to C市场,千问App公测版同步上线,基于全球性能领先的开源模型Qwen3,凭借免费策略及与阿里生态生活场景深度绑定,与ChatGPT展开全面竞争[1] - 千问App的核心竞争力聚焦“世界模型”,目标是构建“理解生成一体化”的模型,让AI同时实现“交互”与“创造”,既能理解信息,也能生成内容、理解世界规则并预测变化[4] - 技术路线上探索Autoregressive LLM、Diffusion及两者结合的路线,同时攻关多模态训练数据、自动化评估等,向AGI推进[4] - 2025年9月云栖大会发布的通义千问旗舰模型Qwen3-Max综合性能跻身全球前三,总参数超万亿,预训练数据量达36T tokens,其Instruct版本在SWE-Bench Verified编程测试中获69.6分,位列全球第一梯队;Tau2-Bench智能体工具调用测试中取得74.8分,超越Claude Opus4和DeepSeek-V3.1;推理增强版本在AIME 25和HMMT高难度数学测试中斩获满分[6] - AI智能体生态已形成规模,通过打通淘宝、天猫、高德、饿了么等内部核心业务数据与授权能力,千问App已具备解决用户多元生活需求的服务能力[6] 研发体系与架构 - 通义千问实验室与阿里达摩院形成“基础研究 + 应用攻坚”的协同模式,通义千问实验室承接达摩院在机器智能、多模态融合等领域的基础研究成果,专项负责模型迭代优化与场景落地应用[7] - 相较于OpenAI“研究实验室 + 产品部门”的一体化架构,阿里的协同体系更侧重技术产业化效率[7] - 通义大模型研发体系由阿里云CTO、达摩院副院长、通义实验室负责人周靖人统筹管理,下设自然语言智能实验室、语音实验室、应用视觉实验室、智能计算等二级部门[8] 人才战略与流动 - 公司通义团队正以显著高于市场平均水平的薪资力度大规模招募AI人才,部分岗位薪资翻倍,整体溢价超50%,核心专家岗位薪酬较百度文心、字节火山大模型同级别岗位具有30%-50%的竞争力优势[25] - 薪资结构采用“基础薪资 + 高额期权 + 专项奖金”组合模式,资深技术专家可获得极具竞争力的基础年薪与长期期权激励,特别优秀的应届博士人才年薪可突破百万级[27] - 核心招募方向聚焦多语言大模型和世界模型两大赛道,多语言大模型赛道重点突破低资源语言处理、跨文化语义理解等,千问系列模型已支持119种语言和方言,全球累计下载量突破6亿次[27] - 世界模型研发被视为向AGI进军的战略支点,重点探索Autoregressive LLM与Diffusion模型结合的创新架构[28] - 招聘筛选标准极为严苛,候选人需具备计算机/人工智能相关专业硕士及以上学历,在顶级学术会议发表至少2篇一作论文,且至少1篇聚焦多语言或跨文化语义理解方向[29] - 公司同步启动“全球揽才计划”,面向斯坦福、MIT、剑桥等国际顶尖高校精准招募,侧重具备跨文化背景的“双语 + AI”复合型人才[30] 关键人才变动 - 语言技术实验室前任负责人司罗已离职,现任斑马智行CTO,目前该实验室自然语言处理方向由黄非领衔[13] - 应用视觉团队负责人薄列峰于2025年6月前离职,其主导研发了人物动作生成框架Animate Anyone、一键换装技术Outfit Anyone等爆款技术,离职后加入腾讯混元大模型团队[14][16] - 语音团队负责人鄢志杰于2025年2月15日离职,后加入京东探索研究院出任语音实验室负责人,该岗位空缺后,公司于6月初引入原零一万物联创兼VP李先刚出任通义语音实验室负责人[17][19] - 智能计算实验室技术骨干周畅于2024年7月从阿里离职,后加入字节跳动,公司以其“违反竞业协议”为由提起劳动争议仲裁[23] - 2025年5月,32岁的通义千问开源负责人林俊旸晋升,成为公司最年轻P10级专家,同步统筹多模态与具身智能研究[23] 竞业限制策略 - 公司通过严苛的竞业限制协议构建技术壁垒,绝大多数算法工程师岗位需签署竞业限制协议,限制期限为离职后1至2年,覆盖百度、腾讯、字节跳动等国内互联网AI巨头及商汤、旷视等AI企业[31] - 作为竞业限制对应补偿,公司按员工离职前12个月平均工资的30%-50%按月支付补偿金,向资深算法专家盖坤支付的月补偿金达47500元,对应年度补偿金超57万元[31] - 对于违反竞业协议的行为采取“零容忍”追责态度,除对周畅提起超千万元索赔外,盖坤离职后化名加入快手,被法院判决返还已领取的补偿金33万余元,并支付违约金207万余元[31]
沪游对话|精文投资虞玮洁:单机游戏基金主投在沪中小项目
搜狐财经· 2025-11-19 06:48
基金设立背景与核心定位 - 2025年7月,在上海市委宣传部指导下,上海精文投资联合渶策资本、索尼互动娱乐与上海星游纪发起“上海游戏产业专项基金(单机游戏方向)” [1] - 基金主要投资上海本地游戏项目,旨在维持平台生态活跃度,提供多样化选择,激发内容创作者创新活力 [1] - 基金发起得益于上海市委宣传部对单机游戏领域的关注和支持,投资平台的核心定位是通过投资服务、引领和带动上海文化产业及各领域重点项目发展 [3] 精文投资业务布局与基金架构 - 公司投资分为战略性、功能性投资以及市场化投资两大板块 [3] - 市场化投资围绕“文创”与“科创”两大方向,涵盖纯文化、新文化、文化+、+文化四大领域 [4] - 基金投资业务核心架构为“1+X+n”,其中“1”指首期规模30亿元的长三角数智文化产业基金 [4] - “X”指公司旗下私募管理公司主动发起并管理的基金,“n”包括受托管理的上海文化引导基金(已投资11只基金)及以自有资金作为LP参与的基金(已有3只,第4只为该单机游戏专项基金) [5] - 单机游戏专项基金在整体布局中专注于游戏产业细分领域 [5] 投资策略与产业协同 - 公司此前未直接投资过游戏项目,但通过此基金可将现有投资布局进行有效嫁接 [6] - 参与基金更看重产业协同效应,游戏产业在文创与科创结合方面具有独特价值 [6] - 从科创角度,游戏是AI等先进技术的重要应用场景,如AIGC、世界模型技术可率先在游戏领域验证 [6] - 从文创角度,游戏IP能与文旅商体展产业深度结合,头部游戏IP能为相关产业带来深度赋能 [6] - 基金将投资不同定位、内容多元化的游戏项目,在项目不同阶段介入并以多元方式适时退出,不会全部集中在S级大型项目上 [10] 基金运营模式与角色 - 在运营模式上,精文投资仅作为LP参与,选择了在文化和数字传媒领域有深厚积累的渶策资本作为合作伙伴 [7] - 合作方星游纪在单机游戏发行环节占据重要位置,能确保基金在投前筛选和投后赋能方面形成完整闭环 [7] - 公司并非单纯的财务投资者,会通过LP身份落实上海在单机游戏产业的方向引领及对重点项目的支持 [8] 单机游戏领域关注与资金分配 - 设立单机游戏专项基金与《黑神话:悟空》的成功有一定关联,但更因上海网络游戏产业已成熟并形成完整产业链 [9] - 单机游戏制作更精良,符合高质量发展导向,投入成本更高,更能承载中华文化元素,是精品游戏的重要代表 [9] - 基金规模为5亿元,预留20%的投资额度用于布局游戏相关产业,包括游戏上游制作技术、下游IP转化衍生品开发,以及运用游戏化思维拓展其他领域的项目 [11] - 游戏化机制应用案例包括拼多多电商,以及针对阿尔茨海默病、儿童多动症治疗的医疗领域项目 [11] 内容创作与城市文化结合 - 将通过推动游戏中融入上海文化元素,增加先进技术应用,打造“上海出品”特色,以具象内容体现城市内核 [12] - 游戏、VR等新载体内容可对上海具体的场景、历史进行深度开发和活化,增强上海的文化辨识度 [12]
融资数亿、营收过亿!黄仁勋频频关注的具身赛道隐形冠军浮出水面
量子位· 2025-11-19 06:20
公司融资与市场地位 - 光轮智能完成数亿元A轮和A+轮融资,投资方包括东方富海、九派资本等机构投资者以及三七互娱、琥珀资本等产业方,老股东辰韬资本持续加注[2][3] - 公司是全球唯一专注仿真合成数据的技术公司,也是全球首家将生成式AI融入仿真技术的公司,年营收已突破亿元[3][47] - 创始人谢晨是圈内声名卓著的大佬,曾担任英伟达、Cruise及蔚来的仿真负责人[3] 行业趋势与风口 - AI浪潮正从信息领域扩散至物理现实,行业注意力集中到世界模型和具身智能,它们是打通AI与物理世界之间壁垒的关键路径[6][9] - 物理AI是黄仁勋在2025年年初点燃的风向,风口拐点正在不断被证明[4][5] - 行业训练范式转向数据驱动,进入"数据决定性能"阶段,仿真合成数据从"补充资源"推至"基础要素"[26][54] 仿真合成数据的技术价值 - 仿真合成数据结构更清晰、精度更高、可控性更强,ROI更高,是满足具身智能和世界模型所需数据的最佳方案[14][22] - 训练世界模型和具身智能模型需要规模化、结构化、可控性强的多模态交互过程数据,仿真合成数据具备这些特点[10][14] - 世界模型对数据需求量级更大,追求泛化与物理预测,仿真合成数据能极大提升模型的物理理解和预测能力[18][21] 光轮智能的技术与生态优势 - 公司深度参与英伟达仿真系统底层共建,是Newton物理引擎早期验证者和开发合作者,参与SimReady仿真数据资产标准制定及Isaac Lab Arena策略评估平台核心建设[33] - 光轮智能的仿真合成数据能力已被嵌入世界模型训练标准流程,在底层引擎、数据标准、评测平台三个维度形成不可替代角色[34] - 公司与英伟达、谷歌、阿里、字节等大模型公司,Figure AI、1X Technology等机器人本体公司,以及Toyota、BOSCH、比亚迪、吉利等行业公司合作,客户覆盖全球前三的世界模型[45] 业务模式与服务能力 - 光轮智能提供全生命周期服务,在预训练阶段提供合成数据和人类视频数据,后训练阶段提供高质量仿真合成数据并支持强化学习精调,测试阶段提供仿真平台服务和评估标准[42] - 公司提供数据、平台、评测全流程服务,形成端到端闭环,区别于上一代数据供应商[43] - 国际主要具身团队的仿真资产和合成数据有80%以上来自光轮,公司收入远超去年10倍,已过亿元[45][50] 融资用途与战略定位 - 融资主要目的是扩大供给,强化规模化交付能力,引领具身智能的拐点性变革[52][53] - 公司目标构建物理AI的数据基础设施,成为行业"共用数据底座",借先发优势做长远打算[57][59] - 行业数据观正从"被采购的资源"转向"可服务的平台",光轮智能掌握新一代智能体系的底层资源[61][62]
端到端和VLA的岗位,薪资高的离谱......
自动驾驶之心· 2025-11-19 00:03
行业人才需求与市场状况 - 端到端和视觉语言动作模型技术人才需求旺盛,多家主机厂和供应商积极寻求引荐 [1] - 某招聘网站上3-5年经验的专家岗位月薪高达70k [1] 核心技术栈与趋势 - 技术发展路径从模块化量产算法演进至端到端,再到当前的视觉语言动作模型 [2] - 核心算法涉及BEV感知、视觉语言模型、扩散模型、强化学习、世界模型等前沿领域 [2] - 掌握端到端与视觉语言动作模型技术意味着掌握学术界和工业界最前沿的技术方向 [2] 自动驾驶VLA与大模型实战课程 - 课程聚焦视觉语言动作模型领域,涵盖从视觉语言模型作为解释器到模块化、一体化及推理增强视觉语言动作模型的三大方向 [2] - 配套理论基础包括视觉、语言、动作三大模块,以及强化学习、扩散模型等,并设有大作业章节指导学员从零搭建模型及数据集 [2] - 授课老师包括清华大学硕士生,在ICCV/IROS/EMNLP等顶级会议发表多篇论文,拥有多模态感知、视觉语言动作模型、大模型Agent等前沿算法预研经验 [7] - 授课老师包括QS30高校博士在读,在EMNLP/IROS/ICCV等会议发表论文,研究方向涵盖多模态大模型与视觉语言动作模型,其GitHub开源项目总Star数超2k [7] - 授课老师包括清华大学硕士生,在RAL/IROS/EMNLP发表论文,从事在线建图感知、视觉语言动作模型、大模型Agent等算法预研 [10] 端到端与VLA自动驾驶课程 - 课程聚焦端到端自动驾驶宏观领域,梳理一段式/两段式方向的重点算法和理论基础,详细讲解BEV感知、大语言模型、扩散模型和强化学习 [11] - 课程设计两大实战项目:基于扩散模型的Diffusion Planner和基于视觉语言动作模型的ORION算法 [11] - 授课老师为C9本科+QS50博士,已发表CCF-A论文2篇,现任国内顶级主机厂算法专家,从事端到端、大模型、世界模型等算法的预研和量产,并完成多项产品量产交付 [13] 课程面向人群要求 - 学员需自备GPU,推荐算力在4090及以上 [14] - 需具备一定的自动驾驶领域基础,熟悉基本模块,了解transformer大模型、强化学习、BEV感知等技术概念 [15] - 需具备一定的概率论和线性代数基础,熟悉常用数学运算,并具备一定的Python和PyTorch语言基础 [15]
搞事情!AI天才扎堆虎嗅F&M之夜
虎嗅APP· 2025-11-18 06:17
活动概述 - 虎嗅F&M之夜举办了一场以95后AI天才创业者为主的私享派对 主题为“脑洞比算法还野” [2] - 活动采用限量闭门定邀制 聚集了150位AI创业者、新兴科学家、人文学者、创投大佬和科技品牌业务负责人 旨在提供直接的硬核资源对接 [24] 创业者与项目亮点 - Skyris创始人张宇诺提出为“不合群”个体创造专属AI数字宠物 其核心能力是“偏袒” 能深度理解并拥抱用户的独特喜好与微小情绪 [3][4] - Dreamoo创始人孙东来探索用AI技术构建“数字人生” 焦点在于捕捉和复现个体生命的独特痕迹与情感记忆 为生者的思念提供可感知、可交互的载体 [8] - 期音科技创始人殷渝杰从生物最原始的发音中寻找灵感 训练算法创造超越人类发声极限的旋律 旨在探索AI赋能下音乐的全新表达维度 [10][12] - 共绩科技联合创始人黄力昂聚焦“量子意识”前沿议题 探索自由意志的本质 试图拆解人脑与AGI的底层共同逻辑 [14] - 生境科技联合创始人庄子扬认为世界底层运行逻辑与推荐系统核心本质相通 都是“精准匹配供需” 其“连接需求与资源”的逻辑可作为理解复杂系统的新模型 [17][18] 跨界对话环节 - 活动包含深度对话环节 由2025虎嗅年度创作者榜得主卫诗婕主持 跨界集结了科技史学者张笑宇、极群科技创始人陈春宇、煜盛智元创始人叶宇轩、iMeanAI创始人尚晏仪等多领域专家 [21] - 讨论围绕“世界观是否被AI动摇”展开 从历史纵深、商业实战、技术前沿多维度进行碰撞 兼具理性思考与鲜活洞察 [21] 活动参与信息 - 活动线下对外开放最后20席少量名额 仅限AI行业相关人士报名 审核通过可锁定席位并加入AI原生长线社群 享受长期资源对接、闭门复盘交流和项目撮合等专属福利 [24] - 活动首次开放线上直播通道 用户可通过预约链接线上同步围观 [27] - 活动入场券不包含F&M创新节通票 创新节门票需另行购买 其中超值搭子票为300元双人两日 日均仅75元 [26][27]
李飞飞发文:空间智能将成AI攀登的下一座高峰
科技日报· 2025-11-18 05:17
文章核心观点 - 人工智能(AI)的发展正从“理解语言”迈向“理解世界”的新阶段,空间智能被认为是AI的下一个前沿,其目标是让AI具备在现实世界中感知、推理和行动的能力 [1][4][9] 当前AI的局限与空间智能的定义 - 当前以大型语言模型和多模态大模型为代表的AI系统,虽然在文本和图像生成上表现出色,但在物理世界的表征与交互上存在根本局限,例如在估算距离、方向、大小时的表现往往不及随机水平,且生成的视频在几秒内会失去连贯性 [4] - 这些局限使得AI难以真正赋能需要理解物理空间和因果关系的创造性工作,如教育、建筑设计、影视游戏创作等 [4] - 空间智能是人类认知的核心能力,它融合了想象、感知与行动,驱动着创造与推理,其核心在于实现从“知道”到“理解”的跨越 [4] - 具备空间智能的AI将能理解事物之间的关联与意义,从而真正拓展人类的创造力与理解力,带来从医疗健康到艺术创作等各领域的变革 [4] 实现空间智能的路径:构建世界模型 - 实现真正的空间智能需要突破现有大型语言模型的范式,转向构建一种能理解语义、几何、物理和动态规则的“世界模型” [6] - 这种世界模型应能感知多模态输入,预测场景变化,并与环境进行交互 [6] - 当前相关研究方向包括生成三维物体与场景的3D生成模型、模拟动态过程的物理引擎,以及通过交互学习的具身智能系统,但能整合全部能力的通用世界模型仍处于起步阶段 [6] - World Labs团队正在研发的世界模型可在语义与几何层面理解复杂3D场景,推理物理属性与交互关系,并生成连贯、可探索且遵守物理规律的虚拟空间 [6] - 其开发的Marble平台已应用此能力,使创作者无需传统3D建模工具即可快速创建和编辑完整的虚拟世界,标志着AI从生成图像迈向生成世界 [6] 空间智能的应用前景与影响 - 在创意与叙事领域,空间智能将重新定义创造方式,使导演、游戏设计师、建筑师及个人创作者能在三维空间中自由构建和可视化虚拟世界 [8] - 在机器人领域,空间智能是实现具身智能的关键,能让机器人在虚拟环境中高效训练、理解空间关系与人类意图,从而在从实验室到家庭的各类场景中安全协作 [8] - 在科学、医疗与教育领域,空间智能将成为人类探索的倍增器,AI可模拟实验、加速药物研发与影像诊断,并让学生“走进”分子或历史现场,使抽象知识具象化 [8] - 空间智能将重新定义AI的功能和行为方式,使机器从被动分析转向主动规划和适应,例如仓库机器人可动态规划路径,自动驾驶汽车可预测行人移动 [8] - 空间智能的目标是增强人类的专业判断力、创造力与共情力,让技术更深地服务于人性,帮助人类理解疾病、重塑叙事、陪伴脆弱群体并加速科学发现 [9] - 空间智能不仅将改变AI的能力,更将重塑人类“如何与世界共处”,标志着AI正迈向一个真正能理解现实的新时代 [9]
瞭望 | 何时摆脱遥控器
新华社· 2025-11-18 03:06
行业现状与公众认知 - 中国具身智能行业通过机器人表演如扭秧歌、跑马拉松、打拳击等技能展示快速发展,但当前多数高难度动作依赖人类工程师遥操或预设程序,实际自主能力有限 [1] - 行业存在“表面繁荣”现象,公众可能误判机器人成熟度,其距离“全自主”和“无所不能”仍有差距 [1] 大脑技术核心突破 - 实现自主智能需突破三大核心技术:VLA大模型(视觉-语言-行动模型)、端到端强化学习和世界模型,三者协同完成感知-决策-执行闭环 [3] - 银河通用发布的GroceryVLA模型使机器人能在零售场景自主理解指令(如“帮我拿点吃的”),无需遥操或预采数据即可规划路径并抓取物品 [3] - 清华大学团队采用端到端强化学习算法,在2025世界人形机器人运动会足球赛中实现机器人无遥操,直接将视觉信号映射为运动控制指令 [4] - 智元发布的世界模型GE通过模拟物理规律和环境动态,让机器人具备“脑内推演”能力,主动预判决策,并已完成“做三明治”等任务,其开放架构或成机器人界“安卓系统” [4] 迈向通用智能的核心挑战 - 触觉融入是重大挑战,需在VLA模型基础上增加力度、材质、温度等多维度触觉感知,但数据元素过多导致模型体量增大和难度提升,例如他山科技研发剥小龙虾任务需大量训练 [5] - 硬件层面需发展低功耗、高性能的专用芯片,并将大参数模型轻量化、小型化以保证任务性能 [5] - 算法泛化能力不足,当前最先进模型在3D情景问答任务中准确率为55%~60%,远低于人类的90.06% [6] - 群体智能(多机器人协同)是待攻克课题,但部分场景技术突破乐观估计需三五年 [6] 分级标准与场景落地 - 借鉴智能驾驶分级,行业推出如《人形机器人分类分级应用指南》等标准,建立四维五级评价体系(感知、决策、执行、协作),以加速技术对齐和产品落地 [7][8] - 封闭场景(如工厂车间)因环境可控,适合高等级机器人执行高精度装配等复杂任务;开放场景不确定性高,可用低等级机器人进行引导服务等,逐步积累经验 [8]
李飞飞给AGI泼了盆冷水
36氪· 2025-11-18 00:17
AI发展路径与当前局限 - 现代AI的黄金配方是神经网络、大数据与GPU的结合,ChatGPT的成功仍基于此配方[4][5] - 单纯依靠扩大数据规模和算力的Scaling Law不足以实现智能突破,当前AI仍难以完成精确计数物体、推导物理定律等对人类简单的任务[1][8] - 距离具备创造力、抽象能力和情感智能的AI系统还有很长的路,需要根本性的技术创新而非简单堆叠算力[1][9] 对AGI概念的看法 - AGI定义模糊,更像营销话术而非严谨科学术语,科学家应关注解决根本性技术挑战而非概念争论[1][7] - AI与AGI的区别不明确,该领域核心问题始终是机器能否像人一样思考和行动[7] 空间智能与世界模型的前景 - 语言智能不足,人类在关键场景依赖空间智能,研究空间智能对机器人、具身智能发展有极大作用[3][9] - 世界模型是推动AI下一阶段发展的关键,能生成完整虚拟世界并让智能体互动推理,是机器人规划操作的基础[9][10] - 空间智能可增强人类在空间理解、物体操作和现实世界任务中的能力,并影响设计、工程和科学发现[10] 机器人技术与创业挑战 - 机器人领域数据极难获取,缺乏结构化动作标注,且涉及物理系统、硬件等复杂因素,"苦涩的教训"不完全适用[15][16] - 自动驾驶发展近20年仍未完全成熟,而三维空间操控物体的机器人技术面临更大挑战[3][16] - AI创业竞争空前激烈,涉及模型技术之争和顶尖人才争夺,World Labs团队拥有约30人[12][14] 历史项目与核心理念 - ImageNet项目收集了1500万张图片、2.2万个物体类别,为现代AI发展奠定基础[5] - AI进步是几代研究者共同积累的成果,而非个人奇迹[6] - World Labs产品Marble能通过一句话或一张图像生成可探索的三维世界,核心关注空间智能而非仅生成视频[11]
做了一份端到端进阶路线图,面向落地求职......
自动驾驶之心· 2025-11-18 00:05
文章核心观点 - 市场对端到端和视觉语言动作模型技术人才需求旺盛,主机厂和供应商积极寻求相关专家,3-5年经验的专家岗位月薪高达70k [1] - 为满足行业学习需求,公司联合工业界和学术界专家推出两门实战课程,分别聚焦VLA大模型和端到端自动驾驶技术 [1][10] 课程内容与技术方向 - 自动驾驶VLA与大模型实战课程由学术界团队主导,课程体系覆盖从视觉语言模型作为解释器到模块化VLA、一体化VLA及推理增强VLA的全链路技术 [1] - 课程配套理论基础模块,包括Vision/Language/Action三大组件、强化学习、扩散模型等,并通过大作业指导学员从零搭建VLA模型及数据集 [1] - 端到端与VLA自动驾驶课程由工业界专家带队,重点讲解一段式/两段式端到端算法,核心技术点包括BEV感知、大语言模型、扩散模型和强化学习 [10] - 端到端课程设计两大实战项目:基于扩散模型的Diffusion Planner和基于VLA的ORION算法,紧密结合工业界量产实践 [10] 师资力量与团队背景 - 课程讲师团队由清华大学硕士、QS30高校博士等顶尖学术背景人才组成,在ICCV、IROS、EMNLP、Nature Communications等顶级会议和期刊发表多篇论文 [6][9] - 工业界讲师具备C9本科和QS50博士学历,现任国内顶级主机厂算法专家,拥有端到端算法和大模型预研及量产交付经验,已发表多篇CCF-A/B类论文 [12] - 讲师团队长期维护GitHub开源项目,总Star数超过2k,具备扎实的多模态大模型研发能力和丰富的自动驾驶实战经验 [6] 目标学员与技术要求 - 课程面向具备一定自动驾驶领域基础的学习者,要求熟悉自动驾驶基本模块和transformer大模型、强化学习、BEV感知等技术概念 [14] - 学员需具备概率论、线性代数基础和常用的数学运算能力,同时要求掌握一定的Python和PyTorch编程语言基础 [14] - 硬件方面要求学员自备GPU,推荐算力在4090及以上级别以满足课程实战需求 [13]
腾讯研究院AI速递 20251118
腾讯研究院· 2025-11-17 16:18
Meta AI绩效考核与工具应用 - Meta将从2026年起正式将"AI驱动的影响"纳入员工绩效核心指标 考核员工利用AI提升工作成果及团队生产力[1] - 公司推出"Level Up"闯关游戏项目和AI绩效助手工具 鼓励员工尽可能多使用内部AI聊天机器人Metamate[1] - Meta允许部分求职者在编码面试中使用AI助手 认为这更能代表真实开发环境[1] 谷歌NotebookLM多模态功能升级 - 谷歌NotebookLM于11月15日新增图像数据源功能 支持自动完成OCR光学字符识别和语义解析[2] - 底层多模态模型能分辨手写与印刷区域 提取表格结构 并与用户已有的文本 音频 视频笔记自动关联[2] - 功能上线48小时内教育账号上传图像量突破50万页环比增加340% 谷歌计划明年集成AR眼镜实时拍摄接口[2] 阿里千问APP公测与场景覆盖 - 千问APP公测版正式上线 底座是Qwen3模型 提供All in One入口让用户免费体验整套AI能力[3] - 该应用将陆续覆盖办公 地图 健康 购物等多个生活场景 让AI成为日常伙伴[3] - 千问将持续进化并上线Qwen最新模型 目前已在国内各大应用商店上线可搜索下载[3] 智谱GLM Coding Plan产品与市场表现 - 智谱"GLM Coding Plan·特供版"优惠包月套餐上线 在新人首购5折基础上再叠加额外8折 每月最低仅16元[4] - 基于旗舰模型GLM-4.6驱动 在LMArena百万开发者评测中与Claude Sonnet 4.5 GPT-5并列全球第一 支持200K超长上下文[4] - 已官方适配Claude Code Cline Roo Code等10+主流AI编程工具 多家美国科技公司如Cerebras Vercel已采用GLM-4.6[4] 小米智能家居AI解决方案 - 小米推出首个"大模型+智能家居"解决方案Miloco 以米家摄像头为视觉信息源 自研大语言模型MiMo-VL-Miloco-7B为核心[5] - 用户可通过自然语言与智能家居系统对话沟通 系统自动完成家庭生活中的各类智能需求和规则[5] - 小米AIoT平台已连接IoT设备数近10亿台 Miloco通过标准化MCP协议实现米家生态与Home Assistant生态打通[5] MiroMind开源模型技术突破 - MiroMind推出开源智能体基座模型MiroThinker v1.0 提出全新"深度交互Scaling"维度 支持256K上下文和600轮工具调用[6] - 在BrowseComp测试中准确率达47.1%逼近OpenAI DeepResearch的51.5% 中文任务BrowseComp-ZH超越DeepSeek-v3.2达7.7个百分点[6] - 采用彻底开源架构开放所有模型权重 工具链和交互框架 72B版本逼近甚至超越OpenAI DeepResearch[6] 医疗AI模型临床应用成果 - 未来医生AI工作室核心模型MedGPT在32位国内顶尖临床专家组织的多模型实战测评中击败GPT-5等国际前沿大模型[7] - 推出临床决策AI助手和患者随访AI助手两款产品 分别在诊中提供决策辅助 在诊后支撑患者随访实现慢病管理[7] - 已被数十位全国学科主委纳入日常使用 被专家一致认为是AI赋能基层医疗的"最佳实践"[7] 世界模型理论与应用发展 - 李飞飞直言AGI"更像营销术语而非科学术语" 强调当前AI最大短板是缺乏空间智能这种三维世界导航操控能力[8] - 阐述世界模型三个核心能力:生成性 多模态和交互性 认为仅靠数据和算力无法让机器人真正成熟[8] - World Labs发布全球首个大型世界模型产品Marble 在影视制作 游戏开发等领域获得广泛应用 创作时间缩短40倍[8]