Workflow
腾讯研究院
icon
搜索文档
腾讯研究院AI速递 20251112
腾讯研究院· 2025-11-11 16:06
生成式AI行业人才与战略布局 - OpenAI成功招募英特尔CTO兼首席AI官Sachin Katti,由其负责为OpenAI打造面向AGI的算力基础设施 [1] - Katti拥有20多年无线通信和AI基础设施领域经验,曾创办多家科技公司并在斯坦福任教,今年4月刚被英特尔提拔为CTO [1] - OpenAI计划未来8年斥资约1.4万亿美元打造AI基础设施,Katti的加入对公司自主算力布局意义重大 [1] 语音识别与多语言模型进展 - Meta AI FAIR团队发布Omnilingual ASR语音识别模型套件,能为超过1600种语言提供自动语音识别能力,78%语言字符错误率低于10% [2] - 该框架采用社区驱动设计,用户仅需提供少量样本即可将模型扩展到新语言,首次实现大规模ASR框架的上下文学习能力 [2] - 同时开源Omnilingual ASR Corpus数据集(覆盖350种服务欠缺语言)和70亿参数的Omnilingual wav2vec 2.0语音表征模型 [2] 空间智能与代码模型开源发布 - 商汤发布并开源SenseNova-SI系列空间智能大模型(2B和8B版本),其中8B模型在四个核心空间智能任务上平均成绩60.99,领先GPT-5和Gemini-2.5-Pro [3] - 该系列模型首次在空间智能领域验证了“尺度效应”,构建了六大核心维度的空间能力分类体系,包括空间测量、空间重构、视角转换等 [3] - 火山引擎推出Doubao-Seed-Code代码模型,调用价格降低,0-32k区间输入仅1.20元/百万Token,是支持视觉理解能力的编程模型,可参照UI设计稿生成代码 [3] 前沿科技与基础设施创新 - 浙江大学和新加坡南洋理工大学首次系统性提出在太空构建碳中和数据中心的完整技术框架,利用近乎无限的太阳能和深空散热条件 [4] - 研究提出两种方案:在遥感卫星上集成AI加速器构建“轨道边缘数据中心”,以及组建计算卫星星座形成“轨道云数据中心” [4] - 创新性提出“全生命周期碳利用效率”评估模型,初步建模显示长期碳效率有望超越中等碳强度地面数据中心 [4] AI能力发展预测与行业应用现状 - Anthropic研究员指出AI长任务能力每7个月翻一番,预测2026年中期模型将能自主工作8小时,年底前至少有一个模型在多个行业匹配人类专家 [5] - 麦肯锡调查显示88%组织至少在一个业务环节使用AI,但仅39%表示AI带来实质性财务回报(EBIT增长) [7] - 62%组织已试验AI Agent类应用,但真正在任何一个部门推AI Agent的公司不到一成,高绩效企业中50%打算推动AI主导的变革性改变(普通企业仅14%) [7] 模型研发理念与下一代AI方向 - 月之暗面核心团队打假Kimi K2训练成本460万美元传言,称训练成本很难量化,已在研究K2的VL版本 [6] - 杨植麟解释K2 Thinking现阶段优先考虑绝对性能而非token效率,KDA混合线性注意力模块可能出现在K3中 [6] - 李飞飞发表长文强调空间智能是人类智能基石,定义世界模型必须具备生成性、多模态性、交互性三种能力 [8] AI社交平台发展与用户参与 - Sora上线40天内实现近200万周活跃用户,其中70%用户参与创作,远超传统互联网90-9-1规则 [9] - 团队将Sora定位为社交创作平台而非单人工具,推荐算法优先推送“有二创价值”内容,强调真实人际关系和共创体验 [9] - 采用积分制灵活变现,平衡平台、创作者和版权方三方利益,通过降低创作门槛实现用户民主化创作 [9]
我们很可能正走向一个“无工作社会”|腾研对话海外名家
腾讯研究院· 2025-11-11 09:33
文章核心观点 - AI革命是继农业革命和工业革命后的第三次重大革命 其影响可能是工业革命的十倍且发生速度快十倍 [6] - 技术扩展人类能力的方向正从身体转向心智 AI革命的核心是提供"按需获取智能" [7] - AI革命不仅是经济变革 更是一场深刻的社会变革 将重塑工作 教育 分配制度 社会关系和全球格局 [8][9] 工作 教育与创造力 - AI将消解大多数专业职业岗位 未来组织可能出现"一个人+一百个AI"的运转模式 5-10年内专业人士需求将大幅减少 [11] - AI社会可能带来"有闲阶层"的崛起 大部分人将面临几乎无限的闲暇时间 需要为"闲暇世界"做好准备 [12][13] - 教育核心任务将从培养劳动力转变为教人激发潜能以享受生活 未来将进入"自主学习"时代 [14] - AI在绘画 作曲 设计等创造性领域展现出惊人能力 大部分创造性活动可被AI取代 挑战人类独特价值 [15] 分配制度与知识产权 - AI将冲击"因工作而获得报酬"的传统分配模式 可能走向"无工作社会" 需要重新思考整个经济体系 [17] - AI可能带来资源富足的"丰裕社会" 但经济利益也可能集中在控制AI系统的少数人手中 加剧贫富差距 [18] - AI时代个人贡献难以认定 知识产权制度可能向"创意共有"演变 个人知识产权保护将变得困难 [19] 社会关系结构 - AI将加速社会活动的"分散化" 远程办公 线上教学等趋势将使集中式组织时代终结 [21] - 医疗健康将被AI变革 智能设备实现日常监测 本地受训人员可处理多数疾病 医院和学校可能变得不必要 [22] - 人类需处理与AI新物种的关系 AI可提供情感价值应对孤独问题 但将迫使我们重新思考"人是什么" [23] 全球格局 - AI天生带有开放与协作基因 可能减轻民族主义隔阂 促进全球普惠发展 任何地方都可免费下载AI工具 [25] - AI革命可能为全球秩序重构提供新契机 中国提供更优越的国际治理模式 结合中西经验可创造更文明和平的世界 [26]
腾讯研究院AI速递 20251111
腾讯研究院· 2025-11-10 16:30
生成式AI模型进展 - OpenRouter平台上线隐名模型Polaris Alpha,其知识库截止2024年10月,最大上下文容量256K,单次最大输出128K,目前可通过API免费调用 [1] - 纽约大学谢赛宁等发布Cambrian-S多模态新范式,提出"空间超感知"概念,在空间认知任务上中小型模型超越Gemini [2] - 阶跃星辰发布全球首个开源LLM级音频编辑大模型Step-Audio-EditX,该模型约3B参数,情感与风格控制准确率优于MiniMax、Doubao等闭源模型 [5] AI编程工具发展 - 美团推出AI IDE编程工具CatPaw,背后核心引擎为自研LongCat大模型,在内部研发人员周活占比超80%,每周新增代码中AI生成占比约50% [3] - 芸思智能推出AI IDE Vinsoo,通过算法突破实现极限有效上下文达千万量级,支持最多8个智能体同步运行开发 [4] - 行业观点认为AI工具无法替代创始人的销售能力,AI SDR仅在已有运转良好销售流程时有效,技术挑战和开源策略是护城河而非障碍 [9] 多模态AI硬件与应用 - 百度小度AI眼镜Pro正式开售,融合多模态AI大模型,支持中英文实时翻译3秒内出字幕等功能 [6] - 银河通用推出灵巧手神经动力学模型DexNDM,首次实现通用灵巧手对多类物体的稳定、多姿态、多轴向旋转操作,能完成拧螺丝等工具使用 [7][8]
游戏展会背后的游戏经济密码
腾讯研究院· 2025-11-10 11:08
文章核心观点 - 游戏主题线下活动的规模与影响力显著提升,已成为驱动新质生产力、促进跨界融合和激发城市经济活力的重要平台 [2][4][42] 游戏展会现状与规模 - 2025年ChinaJoy参观人次突破40万,现场聚集近800家企业,覆盖十余个领域 [2] - 2025年科隆国际游戏展吸引来自128个国家和地区的35.7万名游戏爱好者 [2] - 东京电玩展展位多达4100个,中国参展商数量从2022年的45家增长至近110家,三年内实现大幅提升 [2][12] - 2025年科隆游戏展中国厂商出席数量超50家,同比增长32%,获奖提名远超以往 [12] 展会功能与产业角色演变 - 游戏展会从产品核心秀场演变为前沿科技展示高地、跨界融合平台和多元经济生态窗口 [4][5][7][26][33] - 展会主题历经从娱乐、泛娱乐到科技与数字娱乐的变迁,例如ChinaJoy在2018年后主题频繁出现"科技"一词 [24][25] - 当前阶段展会核心特征表现为科技化、跨界化和参与主体大众化,成为数字经济的生态平台 [25][26] 技术展示与创新驱动 - ChinaJoy新增智慧娱乐机器人展位,提供仿生机械手、智能座舱操作系统、脑机接口等次世代娱乐体验 [5] - NVIDIA在科隆展展示DLSS4多帧生成能力和升级的光线追踪技术 [4] - 游戏展会成为AI、XR、云技术等未来数字科技的展示高地,如NVIDIA神经网络渲染技术、全链路AI游戏创作解决方案VISVISE等借此走向大众 [5] 跨界融合与品牌年轻化 - ChinaJoy参展商覆盖硬件科技、潮玩文创、黄金珠宝等十余个领域,传统品牌如老凤祥、雅迪、比亚迪通过游戏IP联名切入Z世代市场 [2][7] - Bilibili World非垂类展商品牌数量相较去年翻倍,科隆游戏展出现乐高、网飞、迪士尼等全球知名品牌 [7] - 功能类与社交应用如美图秀秀、Soul App积极布局二次元场景,借助游戏内容生态增强用户粘性 [7] 对城市经济的拉动效应 - 2025年ChinaJoy带动周边服务消费约6.61亿元 [39] - 《黑神话:悟空》带动"山西旅游"资讯指数同比增长3178%,临汾小西天景区门票收入同比增长544.9% [39] - 《王者荣耀》"东吴少年游,荣耀聚苏州"线下活动期间,苏州乐园森林世界营收增长19.8%,ACGN相关店面营业额上升9.8% [39] - 沙特利雅得电竞世界杯吸引300万全球游客,创造5千个临时就业岗位 [39] 用户基础与消费潜力 - 2025年全球游戏玩家规模达36亿,占全球网民的61.5% [36] - 2025年全球游戏市场营收预计达到1888亿美元,同比增长约3.4% [36] - 2025年1-6月,国内游戏市场实际销售收入达1680亿元,同比增长14.08%,用户规模接近6.79亿 [36] - 我国电竞用户近4.93亿人,游戏已成为主流娱乐形态 [36]
腾讯优图提出Training-Free GRPO,8美元即可对DeepSeek-V3.2做强化学习
腾讯研究院· 2025-11-10 11:08
文章核心观点 - 腾讯优图实验室提出革命性方法Training-Free GRPO,实现不更新模型参数的强化学习,大幅降低成本并提升模型性能 [7][8][28] - 该方法核心思想是通过积累和迭代“经验知识”指导模型行为,而非修改模型参数,与强化学习之父Richard Sutton倡导的从经验中学习理念一致 [8] - 传统RL训练32B模型成本约1万美元,而Training-Free GRPO优化671B模型仅需8-18美元,实现成本数量级降低 [4][25] 技术原理与流程 - 方法分为四步:多路径探索生成多个解答路径、强化学习奖励进行客观评分、语义优势提炼比较不同解答优劣、经验库优化动态更新知识库 [12][14][15][17][20] - 整个过程冻结模型参数,通过多轮强化学习更新优化经验库,在推理时注入学习到的经验知识 [11] - 语义层面的洞察比单纯数值评分更有指导意义,模型能自我反思总结有效策略 [15][16] 性能提升效果 - 在数学推理任务上,仅用100个训练样本和约8-18美元成本,即在671B的DeepSeek-V3模型上实现AIME榜单性能提升 [4][18] - DeepSeek-V3.1-Terminus使用代码工具时,AIME25指标从67.9%提升至73.3%,提升5.4个百分点 [19] - 网页搜索场景中,DeepSeek-V3.1-Terminus的Pass@1指标从63.2%提升至67.8%,提升4.6个百分点 [22][23] - 训练过程中平均工具调用次数减少,表明方法能教会代理更高效使用工具 [22] 成本优势与应用场景 - 相比传统RL训练1万美元成本,新方法仅需8-18美元,降低三个数量级 [25] - 训练和推理仅需API调用,随用随付,无需准备专用GPU资源 [25] - 特别适合长尾细分场景适配、快速迭代需求以及预算有限的个人开发者、中小企业和研究机构 [26]
腾讯研究院AI速递 20251110
腾讯研究院· 2025-11-09 16:09
生成式AI - Grok 4 Fast上下文窗口提升至200万token,相当于Gemini 2.5 Pro的2倍、GPT-5的5倍,推理模式完成率从77.5%跃升至94.1% [1] - Grok Imagine升级后生成质量达到真假难辨程度,x.ai在OpenRouter上API调用份额达26.4% [1] - 200万token上下文能力可一次性处理相当于150万英文单词或6000页文本 [1] - OpenAI发布GPT-5-Codex-Mini紧凑版,使用量是GPT-5-Codex的约4倍,ChatGPT Plus等用户速率限制提高50% [2] - 代码中发现GPT-5.1系列三个新模型痕迹,包括旗舰模型GPT-5.1、推理模型GPT-5.1 Reasoning和研究级GPT-5.1 Pro [2] - 新模型或于11月底发布,其中一个模型可能已以Polaris Alpha名字在OpenRouter等平台测试 [2] - 谷歌Nano Banana 2预览版支持原生2K可选4K超分,复杂场景生成仅需10秒 [3] - 该模型可在黑板上一键推导微积分,基于纯文本直出Windows桌面+YouTube主页等复杂UI界面 [3] - 二次元生成、人物角色、监控录像等场景表现逼真,能保持高度角色一致性,预计11月中下旬正式发布 [3] - AI原生影视工作室Utopai Studios与SFR成立资本规模达数十亿美元合资公司Utopai East [4] - Utopai采用"规划与渲染解耦"架构,通过统一状态空间耦合,解决传统模型长程一致性崩塌问题 [4] - 该架构能实现跨数十个镜头稳定保持角色身份和场景一致性,将创意迭代周期从数周缩短至几天 [4] - 新版Google Finance整合Gemini多模态AI模型的"深度搜索"功能,可在几分钟内扫描数百份资料生成综合性分析报告 [5] - 首次将预测市场数据整合进主流金融工具,为投资者提供"市场情绪晴雨表" [5] - 新设计的"财报季体验"界面支持实时文字转录、AI生成新闻摘要和历史数据对比 [5] 前沿科技 - AI蛋白质结构生成模型RFdiffusion可根据指定病毒表位从头设计抗体结构,达到接近原子级精度 [6] - 该模型已成功设计出针对流感、艰难梭菌毒素、新冠病毒和RSV病毒的抗体,冷冻电镜验证设计与实际结合方式几乎完全一致 [6] - RFdiffusion几小时可"画"出全新抗体设计图,可精确指定攻击病毒特定部位 [6] - 美国简化阿尔忒弥斯登月计划登月舱方案,取消大量机载设备改用一次性燃料箱,加油发射次数从15-30次削减到不足10次 [8] - 中国航天集团宣布新一代载人运载火箭关键技术已突破即将开展演示验证飞行 [8] - 中国长征十号火箭总长92.5米起飞推力约2678吨,地月转移轨道运载能力不小于27吨 [8] 报告观点 - Yann LeCun、李飞飞、黄仁勋等六位AI巨头因共获伊丽莎白女王工程奖齐聚激辩AI革命真实性 [9] - 黄仁勋认为AI是"生产力"本身而非泡沫,需数千亿美元AI工厂服务数万亿美元新产业 [9] - LeCun指出当前大语言模型范式无法通向人类级智能需根本性突破 [9] - Geoffrey Hinton预测20年内实现人类级AI,李飞飞强调还有广阔空间智能等前沿领域待开拓 [9] - Kimi K2 Thinking在Artificial Analysis智能指数中获得67分,领先所有开源模型,在智能体应用场景排名第二仅次于GPT-5 [10] - 该模型在τ²-Bench Telecom基准测试中取得93%成绩,创开源模型历史新高,在代码指数中超越DeepSeek V3.2成为新晋开源冠军 [10] - 模型总参数量1万亿激活参数320亿,原生以INT4精度发布,但在完成评测时使用了1.4亿token,约为DeepSeek V3.2的2.5倍 [10] - HuggingFace发布超200页技术博客,系统分享训练先进LLM的端到端经验,基于384块H100 GPU训练3B参数模型SmolLM3的实战过程 [11] - 博客涵盖从决策到落地全流程,包括训练罗盘、消融实验设计、模型架构、数据管理、后训练和基础设施等核心内容 [11] - 强调"数据质量影响远超架构选择",训练LLM是"边训练边学"过程,预训练团队初期2-3人足矣 [11]
腾讯研究院AI每周关键词Top50
腾讯研究院· 2025-11-08 02:33
算力领域动态 - 寒武纪发布Cambricon NeuWare [3] - OpenAI与AWS达成合作 [3] - 英伟达推出太空AI服务器 [3] - 谷歌公布太空AI计划 [3] 模型技术进展 - Cursor发布Composer-1模型 [3] - Kimi应用线性注意力技术 [3] - 美团推出LongCat-Flash-Omni模型 [3] - 谷歌发布Gemini 3 Pro预览版 [3] - 月之暗面推出Kimi-k2 thinking模型 [3] - 科大讯飞发布星火X1.5模型 [3] 应用场景拓展 - OpenAI推出Bug智能体并调整使用政策 [3] - Canva发布创意操作系统 [3] - 百度推出魔法漫画应用 [3] - Cartesia发布Sonic-3 [3] - Turbo AI推出AI笔记功能 [3] - Rokid推出AI智能眼镜 [3] - 昆仑万维推出SkyReels [3] - MiniMax发布Music 2.0 [3] - Nuna推出AI智能吊坠 [3] - Anthropic提出代码执行范式 [4] - 兔展智能发布Uniworld V2 [4] - QQ浏览器推出AI+小窗功能 [4] - 谷歌对Earth AI进行升级 [4] - Generalist推出具身基础模型 [4] - 银河通用发布导航基座模型 [4] - 苹果与谷歌就Gemini达成合作 [4] - 腾讯云推出CodeBuddy Skills [4] - 高德与小鹏达成Robotaxi合作 [4] - Sandbar推出Stream Ring [4] - Future House推出AI科学家Kosmos [4] - 行业举办多模型AI交易大赛 [4] - 小鹏推出IRON机器人 [4] 行业观点与趋势 - 马斯克提出智力飞升概念 [4] - 斯坦福大学研究AI在言语治疗师领域的应用 [4] - Brex讨论AI工作流 [4] - OpenAI与微软深化合作 [4] - 多公司进行AI浏览器实测 [4] - 李飞飞提出公共利益观点 [4] - a16z讨论数据护城河与AI投资周期 [4] - Hinton讨论AI取代劳动 [4] - ElevenLabs提出AI创业方法论 [4] - Replit讨论AI程序员发展 [4] - Ilya Sutskever谈及AI法庭作证 [4]
预测式AI为什么一败涂地?
腾讯研究院· 2025-11-07 08:30
预测式AI的核心问题 - 预测式AI基于历史数据做出预测,但相关性不等于因果关系,可能导致灾难性决策,如医疗AI模型错误判断哮喘患者肺炎风险较低[18] - 系统无法预测自身决策对环境的改变,当部署到新场景时,历史数据的准确性无法保证决策质量[19][21] - 预测式AI的营销宣传常夸大效用,但实际开发依赖人类决策和带有偏见的数据,承诺的公平性和效率优势缺乏可靠证据[13][15] 预测式AI的应用缺陷 - 自动化招聘工具易被表面因素操控,如视频面试背景、简历格式或关键词填充,这些修改不影响实际工作能力却改变AI评分[24][25] - 刑事司法系统使用COMPAS等工具预测犯罪风险,但依赖逮捕记录而非犯罪记录,加剧种族偏见,黑人因相同行为比白人更易被标记高风险[42] - 医疗资源分配模型如Optum Impact Pro用医疗费用替代健康需求预测,使已获更好服务的群体持续获得资源,放大种族不平等[40][41] 数据与系统局限性 - 模型训练数据常与目标群体不匹配,如PSA系统基于全美数据但无法适应低犯罪率地区,导致高风险误判和不当监禁[33][34] - 儿童虐待预测工具仅覆盖使用公共服务的低收入家庭数据,无法评估富裕家庭,造成对弱势群体的过度聚焦[35][43] - 依赖现有数据而非专门收集新数据,如医疗领域缺乏随机对照试验验证,使决策可靠性存疑[20] 过度自动化与监管失效 - 荷兰福利欺诈算法错误指控3万名家长,使用国籍作为预测因素,缺乏申诉机制导致严重社会后果[28][29] - 系统声称有人工监督但实际未修正决策,如多伦多海滩水质预测工具64%的错误未纠正,联合健康集团员工被要求服从90%错误的AI决策[30][31] - 自动化偏见广泛存在,75%飞行员在模拟实验中因系统错误警报关闭正常引擎,显示过度依赖自动化风险[31] 行业影响与商业动机 - 预测式AI被医院、雇主、政府等广泛用于资源分配,但商业激励促使公司选择易于量化的替代指标(如医疗费用)而非真实目标[41] - 招聘领域约3/4美国雇主使用自动化筛选工具,过程不透明使候选人策略性修改申请材料,而非提升实际技能[24][26] - 企业对随机性的恐惧驱动预测式AI应用,试图在人才识别等不确定任务中强加模式,而非接受固有随机性可能带来更公平结果[48][51]
腾讯研究院AI速递 20251107
腾讯研究院· 2025-11-06 16:09
生成式AI模型进展 - 谷歌计划11月面向部分用户开放Gemini 3 Pro预览版,正式发布可能在12月,其上下文窗口可达100万tokens,适合处理长文档和复杂数据流水线 [1] - 月之暗面正式发布Kimi-k2 thinking模型,具有通用Agentic能力和推理能力,价格方面输入4元/百万tokens、输出16元/百万tokens [3] - 科大讯飞发布星火深度推理大模型X1.5,采用MoE架构总参数293B,推理激活仅30B,推理速度相比X1提升100% [4] - 初创公司FutureHouse推出新一代AI科学家Kosmos,单次运行可解析1500篇论文并执行42000行分析代码,测试用户评估其一天完成的工作量相当于六个月科研投入 [8] 行业合作与商业模式 - 苹果正接近与谷歌达成协议每年支付约10亿美元,换取Gemini模型为新版Siri提供核心AI能力,Gemini将运行在苹果私有云计算服务器上,用户数据不会接触谷歌系统 [2] - 高德宣布与小鹏汽车达成合作,未来将共同面向全球提供Robotaxi服务,高德通过TrafficVLM模型实现"超视距"能力,可在几公里外感知突发事故 [6] - 腾讯云CodeBuddy成为国内首个支持Skills标准化接口的AI编程工具,开发者可为AI添加多样化技能包,实现PDF智能处理、自动生成PPT等功能 [5] AI应用与产品创新 - 前Meta工程师创立的Sandbar推出智能戒指Stream Ring,售价249美元起,支持语音转录、AI助手交互和音乐控制,已获1300万美元融资 [7] - Replit创始人认为最终英语才是编程语言,用户身份从人类转移到AI Agent本身,AI长时推理能力已从几分钟突破至数小时 [8]
招聘|腾讯研究院法律研究中心实习生
腾讯研究院· 2025-11-06 08:33
岗位职责 - 跟踪梳理解读全球数字经济与人工智能领域的前沿法律伦理问题及立法趋势[3] - 参与支持AI治理和AI安全等研究课题并协助撰写研究文章报告[3] - 处理其他日常事务[3] 任职要求 - 专业背景要求为网络法、数字法、人工智能法、科技伦理或AI治理等方向的研究生在读[4] - 需熟悉互联网与AI领域的法律政策、安全治理议题及行业发展动态[4] - 能够熟练使用国内外生成式AI产品并具备数据分析与PPT制作能力[4] - 要求逻辑思维能力强、理论文字功底好、学习研究创新能力及自驱力突出[4] - 需具备优异的英语水平且可提供雅思或托福等相关证书[4] - 实习时间要求全职至少6个月并可尽快到岗[4] 工作地点与申请方式 - 工作地点位于深圳或北京[5] - 申请需提交简历和代表性研究成果至指定邮箱[5] 实习收获 - 可参与重要的AI安全与治理研究课题[7] - 获得互联网行业最新的学习机会[7] - 接触中外产业界和学术界的研究资源[7]