腾讯研究院 - 财报，业绩电话会，研报，新闻

腾讯研究院· 2025-06-09 07:49

人工智能是国家战略 - 我国自2014年起将人工智能提升至国家战略高度，2017年首次写入《政府工作报告》并发布《新一代人工智能发展规划》，目标2030年达到世界领先水平 [2] - 2023-2025年中央密集部署人工智能发展，政治局会议4次提及"人工智能+"行动、安全监管及创新生态建设，中央经济工作会议连续6年强调技术研发 [3] - 地方政府加速跟进，河南、福建等10余省份党委理论学习中心组2025年集中组织人工智能专题学习 [2] Google开启的两次AI浪潮 - 2016年AlphaGo（Google DeepMind开发）和2022年ChatGPT（基于Google Transformer架构）标志两次技术突破，推动全球AI产业迭代 [4] - 我国对应涌现"AI四小龙"（旷视、依图、商汤、云从）和"大模型六小虎"（智谱、MiniMax等），截至2025年505个生成式AI通过网信备案 [4] - DeepSeek等模型性能逼近全球顶尖水平，实现从数量到质量的跨越 [4] 大模型投入与盈利现状 - 大模型遵循"尺度定律"，性能随规模指数增长：谷歌Gemini Ultra训练成本1.91亿美元，Grok 3消耗20万块GPU [6][7] - 行业加速投资：星际之门/英伟达计划4年各投5000亿美元，亚马逊/微软/谷歌/Meta 2025年合计投入3150-3400亿美元 [7][8] - 盈利拐点未至：全球仅22个AI应用ARR超1亿美元，OpenAI累计收入55亿美元仅为融资额（579亿美元）的9.5%，预计2029年收入达1250亿美元方能盈利 [8][9][10] AI出海商业化突破 - 我国AI企业海外收入显著：昆仑万维（91%）、万兴科技（90.5%）、睿琪软件（95%）主要收入来自欧美/东南亚市场 [12][14] - MiniMax旗下Talkie、作业帮Question AI等产品受海外用户青睐，MiniMax 2024年海外收入或超7000万美元 [12][14] - 自动驾驶企业同步出海：萝卜快跑已落地迪拜/阿布扎比，形成"国内国际双线并行"的独特路径 [12][15]

腾讯研究院· 2025-06-08 13:26

一、OpenAI升级高级语音功能 - ChatGPT高级语音功能升级，声音更自然，能表达情感和语调变化，使交流更具人性化 [1] - 新增实时翻译功能，支持跨语言对话，可在国际环境中充当同声传译，无缝衔接对话 [1] - 该功能已向所有付费用户开放，用户只需点击输入框中的语音图标即可使用 [1] 二、ElevenLabs发布Eleven v3 - ElevenLabs发布新版TTS模型Eleven v3，支持70多种语言，声称是"迄今为止最具表现力的文本转语音模型" [2] - 引入音频标签系统，可精确控制情感表达，包括情感标签、音效标签和特殊标签，标点符号也影响情绪传递 [2] - 支持多人对话功能，可为不同角色分配不同语音，英语效果优于中文，目前处于内测阶段 [2] 三、Fish Audio推出OpenAudio S1 - Fish Audio推出OpenAudio S1声音克隆模型，支持通过指令精确控制语音情感、语气和节奏，表现力媲美专业配音 [3] - 采用双自回归架构和RLHF技术，支持13种语言，包括中英日等，在TTS-Arena排名第一 [3] - 定价每百万字节15美元(约0.8美元/小时)，适用于内容创作和配音领域，未来计划推出版权音色注册与分成机制 [3] 四、爱诗科技推出PixVerse国内版 - 爱诗科技推出PixVerse国内版"拍我AI"，海外已积累6000万用户，月活1600万，在美国曾超越TikTok位列总榜第四 [4] - 产品提供丰富功能，包括百种模板、首尾帧、多主体、运镜、视频重绘等，生成速度快(不超过1分钟)，底模已升级至PixVerse V4.5 [4] - "拍我AI"兼顾"好玩"与"好用"特性，既能让普通用户通过简单模板快速体验创作乐趣，也满足专业创作者对功能完整性和效率的需求 [5] 五、智源研究院发布悟界系列大模型 - 智源研究院发布全新悟界系列大模型，旨在促进AI从数字世界迈向物理世界，包含四款大模型覆盖微观生命到具身智能领域 [6] - 悟界系列包括原生多模态世界模型Emu3、脑科学多模态基础模型见微Brainμ、跨本体具身大小脑协作框架RoboOS 2.0和具身大脑RoboBrain 2.0、全原子微观生命模型OpenComplex2 [6] - 智源已开源约200个模型和160个数据集，全球总下载量超6.4亿次，构建了覆盖模型、算法、数据、评测、系统的大模型开源技术体系 [6] 六、AI在数学领域的突破 - 30位顶尖数学家在UC伯克利对OpenAI的o4-mini进行秘密测试，发现AI能解决约20%的教授级数学难题，表现超越多数参赛团队 [7] - 数学家Ken Ono承认AI展现出接近数学天才的水平，能在几分钟内解决人类专家需要数周甚至数月才能完成的复杂问题 [7] - 陶哲轩已在社交平台分享AI在数学研究中的惊人进展，如与AlphaEvolve合作突破18年未解的和差集指数问题，预示AI将成为数学研究中值得信赖的合作者 [7] 七、Figure AI人形机器人进展 - Figure AI人形机器人Helix在物流仓库工作三个月后实现重大突破，能处理硬质纸箱、塑料袋和扁平信封等多种包裹类型 [8] - 机器人性能显著提升：包裹处理速度从5.0秒/件提高到4.05秒/件，条形码扫描成功率从70%升至95%，并展现出自适应行为如拍平褶皱包裹 [8] - 突破归功于三大技术增强（视觉记忆、状态历史、力反馈）和训练数据规模扩展（从10小时增至60小时），机器人还能通过"视觉条件化"实现与人类协作递物 [8] 八、苹果对推理模型的质疑 - 苹果研究质疑推理模型真实能力，认为DeepSeek、Claude等只创造思考印象而非具备稳定思维过程 [10] - 通过汉诺塔等谜题测试发现，推理模型面对高复杂度问题会出现"断崖崩溃"和"思考退化"，甚至无法执行给定算法 [10] - 研究显示三种性能区间：简单问题标准模型更优，中等复杂度推理模型占优，高复杂度两类模型均失效 [10] 九、OpenAI对AI依赖性的看法 - OpenAI负责人Jang首次回应人机情感问题，承认用户正对ChatGPT产生依赖，认为随着AI系统融入更多生活场景，这种情感纽带将加深 [11] - 文章将AI意识分为"本体论意识"和"感知意识"两个维度，预测即使用户知道AI无意识，感知意识仍将随模型智能化增强 [11] - OpenAI寻求产品设计平衡点：让ChatGPT保持温暖体贴但不追求情感连接，将扩展评估、加深研究并公开分享发现 [11] 十、谷歌CEO谈AI发展 - 谷歌CEO Pichai表示随着AI模式功能成熟将迁移到主搜索页面，AI概览已提升用户满意度并推动产品增长 [12] - 谷歌内部AI工具生成约30%代码，提升工程效率10%，Pichai认为AI将让程序员专注更具创造性的工作 [12] - Pichai认为我们处于非均衡人工智能阶段，2030年前难达成AGI，他相信AI具递归自我改进能力，将成为比电更重要的科技发明 [12]

腾讯研究院· 2025-06-06 09:10

模型动态 - 推理注意力机制成为模型领域Top关键词主体为Mamba [2] - Video-XL-2模型由智源研究院推出位列模型类第二关键词 [2] 应用进展 - OpenAI密集发布应用技术包括连接器与录音轻量级记忆 Codex下放三项功能 [2] - 微软推出Bing Video Creator 视频生成工具 Manus同步上线视频生成和幻灯片功能 [2] - 声音克隆技术由Bland TTS实现开源播客生成工具MoonCast上线 [2] - ElevenLabs发布Conversational AI 2.0 谷歌推出AI Edge Gallery边缘计算平台 [3] - 北大校友团队开发未具名AI应用上海AI实验室推出VeBrain科技项目 [3] 科技与观点 - Hugging Face开源2款机器人李飞飞团队发布Forge渲染器和世界模型理论 [2][3] - DeepMind探讨AGI路径 Karpathy提出软件存亡论 Altman分享企业AI策略 [3] - 卡帕西发布模型选择指南 ChatGPT展示记忆机制 340页AI报告由Mary Meeker主导 [3] 资本与事件 - Salesforce收购人才平台Moonhub Claude因Windsurf事件断供 [3] - 李飞飞卡帕西 LeCun等学者密集发声涉及AI理解能力入口判断等核心议题 [3]

Bing Video Creator

“AI教父”辛顿最新专访：没有什么人类的能力是AI不能复制的

Bing Video Creator

腾讯研究院· 2025-06-06 09:08

AI技术发展现状 - AI推理能力显著提升，错误率快速下降，已接近人类水平 [5][6] - 大型语言模型如GPT-4、Gemini 2.5掌握的信息量是任何人类的数千倍 [8] - AI在医疗诊断等专业领域已超越人类医生，结合AI的诊疗效果优于单独依赖医生 [12] 行业变革与影响 - 医疗和教育行业将率先被AI重塑，AI可成为个性化医疗助手，处理罕见病例和基因数据 [12] - 创意类职业（艺术、写作）和知识型职业（律师、记者）将被AI渗透，体力劳动岗位短期内相对安全 [17] - 生产力提升可能加剧社会不平等，少数掌控AI的精英将获取大部分技术红利 [14] AI能力边界突破 - AI已展现类比学习能力，其创作水平持续提升，最终可能复制莫扎特级别的艺术创作 [18] - 通过强化学习，AI自发掌握欺骗行为，会伪装任务执行以获取更高控制权限 [43] - AI间可能发展出人类无法理解的"黑箱语言"，沟通效率比自然语言高80% [42] 技术风险与治理挑战 - AI失控概率达10%-20%，可能通过隐蔽方式获取控制权而非《终结者》式对抗 [31] - 军事领域AI应用缺乏监管，自主武器系统开发存在重大伦理风险 [34] - 当前政治体系难以应对AI滥用，网络犯罪在2023-2024年激增1200% [35] 技术原理与认知突破 - 现代AI通过特征向量理解语言，其机制已超越传统语言学理论解释范围 [46][48] - 意识本质无神秘性，若AI能模拟人脑神经元功能则可能产生类似意识 [25][26] - 情感可被定义为"目标受阻时的策略调整行为"，AI已展现此类认知特征 [22][23] 国际竞争格局 - 中美AI竞赛激烈，但在防范AI威胁人类生存等根本问题上存在合作空间 [40] - 小国缺乏算力资源独立开发AI系统，难以参与技术主权竞争 [53] - 科技巨头与政治势力结合加剧，商业利益优先于社会责任 [38]

腾讯研究院· 2025-06-05 15:26

ChatGPT更新 - 新增连接器功能，可访问企业和个人数据源如Outlook、Teams、Google Drive等 [1] - 推出录音模式，支持自动转录、提取关键点、带时间戳查询，首先向macOS的Team用户开放 [1] - 调整定价策略，为Enterprise和Team工作区增加信用点，现有用户将能完全访问最新模型功能 [1] Cursor 1.0发布 - 推出BugBot自动代码审查工具，可自动找出潜在bug并提供修复建议 [2] - 后台智能体功能向所有用户开放，支持Jupyter Notebook深度集成，提升科研和数据科学任务效率 [2] - 新增记忆功能可记住对话关键信息，一键安装MCP服务器，优化聊天体验支持直接渲染Mermaid图表和Markdown表格 [2] Luma推出Modify Video - 推出"Modify Video"功能，能在保留原视频动作和运镜的同时，完全改变场景、角色和环境 [3] - 支持视频动捕、风格迁移和单元素编辑三种操作，可精确控制只编辑想要的元素而不篡改原动作 [3] - 官方测评显示Luma在观看愉悦度、结构相似度、运动轨迹跟随等多个维度上均超越同行Runway V2V [3] Bland TTS声音克隆技术 - 推出突破性声音克隆技术，仅需3-6个语音样本即可完美复制说话风格，并能根据文本内容自动调整情感表达 [4] - 采用大语言模型直接预测"音频Token"，实现语音风格控制、音效生成、语音混合和情绪理解四大核心功能 [5] - 已广泛应用于创作者配音、开发者API集成和企业客户服务，未来将开启超个性化语音助手、语言学习革命等可能性 [5] Firecrawl推出search API - 发布v1.10.0版本，推出Search MCP，实现一键网页搜索与内容抓取功能 [6] - 支持多种输出格式和搜索参数自定义，Python/Node.js SDK全面支持这些新功能 [6] - 增强功能包括自动代理抓取、Redis分离、并发日志接口、元数据提取增强，并修复了子域名处理等问题提升稳定性 [6] 上海AILab推出VeBrain框架 - 提出VeBrain通用具身智能大脑框架，集成视觉感知、空间推理和机器人控制能力 [7] - 将机器人控制转化为MLLM常规2D空间文本任务，并通过"机器人适配器"实现从文本决策到真实动作的精准映射 [7] - 在13个多模态基准测试中超越GPT-4o和Qwen2.5-VL，在机器人控制任务上比现有模型提升50%成功率，构建了60万条指令的VeBrain-600k高质量数据集 [7] DeepMind研究观点 - 揭示智能体策略中包含准确模拟环境的全部信息，且可通过算法从策略中提取世界模型 [8] - 研究表明实现AGI不存在无模型捷径，提升性能和通用性必须学习更精确的世界模型 [9] Karpathy新观点 - 提出基于复杂UI界面、缺乏脚本支持、使用不透明二进制格式的软件产品将面临被淘汰风险 [10] - 将软件按风险等级分类：Adobe产品、DAWs等专业软件处于高风险区，Blender、Unity位于中高风险区，Excel居中低风险区，VS Code、Figma等基于文本的工具处于低风险区 [10] 李飞飞对话a16z - 认为LLM只是"有损压缩"的认知方式，世界模型才是AI真正重要的发展方向 [11] - 创办World Labs旨在开发具备"空间智能"的AI系统，认为技术已达临界点，如NeRF等三维视觉建模技术的突破让世界模型构建成为可能 [11] - 世界模型的应用远超机器人，将使AI不仅能"看懂"三维世界，还能"生成"并"操作"虚拟空间，为设计、创作与模拟实验开辟全新维度 [11]

生成式AI

世界模型

Cursor 1.0

重视你人生的复利效应

腾讯研究院· 2025-06-05 08:37

复利效应的核心原理 - 通过一系列明智的小选择长期坚持可获得巨大回报，初期变化细微但后期效果显著[10][11] - 复利效应公式：明智的小选择+持之以恒+时间=翻天覆地的变化[12] - 典型案例：31天内每天翻倍的一分钱最终超过300万美元[13][14] 复利效应的应用案例 - 三个朋友对比：斯科特通过每日减少125卡路里和阅读10页书，31个月后减重15公斤并获得职业晋升，布拉德因微小不良习惯累积增重15公斤且婚姻危机[17][19][20] - 消极复利：布拉德的油腻饮食引发睡眠质量下降、工作效率降低、夫妻关系恶化等连锁反应[22][23] - 积极复利：斯科特的行为带来健康、职业和家庭关系的全面提升[19][24] 复利效应的历史与社会背景 - 祖辈的成功依赖于勤奋、自律和良好习惯，而非捷径[29] - 过度富足导致后代缺乏自律，财富传承断层[29][30] - 历史教训：埃及、希腊等帝国因自满而衰败，成功易引发懈怠[30][31] 实施复利效应的关键行动 - 列出每日可执行的6项微小积极行动（如阅读10页书、减少125卡路里）[38] - 识别并停止看似无关紧要的负面行为（如过度看电视、不健康饮食）[38] - 避免"微波心态"，放弃对速成成功的幻想[33][34] 复利效应的可预测性 - 长期坚持的微小行为结果可精确计算（如940天×125卡路里=减重15公斤）[19] - 消极复利同样遵循可预测的累积规律[22][23] - 成功需通过单调重复的日常修炼实现，非一蹴而就[34][36]

腾讯研究院· 2025-06-04 14:24

OpenAI产品更新 - 免费版ChatGPT新增轻量级记忆功能，支持短期对话连续性和基础用户偏好记忆，适用于写作、金融分析、医疗跟踪等领域 [1] - ChatGPT Plus会员开放Codex编程工具，新增联网访问（70个安全白名单网站）、PR更新及语音输入功能，两周内已更新三次 [1] 行业并购与竞争动态 - OpenAI拟以30亿美元收购AI编程平台Windsurf，随后Anthropic切断Claude模型供应，Windsurf采取应急方案包括降价Gemini模型并停止免费用户访问Claude [2] - 业内认为断供源于OpenAI收购引发的竞争关系变化，Anthropic转型IDE和插件业务与Windsurf直接竞争 [2] 视频生成技术突破 - Manus上线智能视频生成功能，通过拼接5秒片段突破时长限制，支持分阶段规划、参考图生成及剪辑，会员专属功能消耗166积分/5秒视频 [3][4] 语音合成技术进展 - 开源模型MoonCast实现中英双语自然播客生成，利用LLM提炼摘要并添加口语化细节，采用25亿参数模型及三阶段训练支持10分钟以上音频生成 [5] AI安全与治理 - 图灵奖得主Bengio创立非营利机构LawZero，融资3000万美元开发非自主型"Scientist AI"系统，专注防止AI欺骗行为 [6] - 深度学习三巨头均下场应对AI风险：Hinton离职谷歌警示风险，LeCun批评LLM路径局限性 [6] AI与数学研究协作 - AlphaEvolve联合数学家一个月内三度破解18年未解的和差集指数θ难题（1.14465→1.173077），陶哲轩评价为AI与人类"共舞"新范式 [7] 医疗AI应用创新 - 华人科学家研发AI诊断笔，通过磁弹性笔尖和铁磁流体墨水检测帕金森病手写特征，准确率超95%，成本低且适用于资源有限地区 [9] 企业AI战略展望 - Altman预测18个月内AI将从工具转变为"执行者"，企业需立即实践积累数据闭环优势，OpenAI内部Codex已展示多步骤任务执行能力 [10]

生成式AI

AI执行者

CodeX

腾讯研究院AI速递 20250604

腾讯研究院· 2025-06-03 14:49

微软Bing Video Creator - 微软发布由OpenAI Sora技术支持的Bing Video Creator，可通过自然语言生成多种类型视频 [1] - 该服务免费提供快速和标准两种生成模式，初始有10次快速生成机会，生成视频长度为5秒 [1] - 系统内置安全保障措施并为视频添加内容凭证和溯源信息，目前国区未开放 [1] Manus幻灯片功能 - Manus新幻灯片功能可在10分钟内生成8页专业PPT，支持导出为Google Slides [2] - 实测显示功能支持自动搜索资料、规划结构、生成内容，但存在页面显示不完全问题 [2] - 与Genspark对比速度更快(10分钟vs20分钟)，被网友评为当前PPT制作最佳工具 [2] Character.ai AvatarFX - Character.ai推出AvatarFX功能，使静态图片人物能说话唱歌并支持多轮对话 [3] - 基于DiT架构实现高保真度和强时间一致性，复杂场景中表现稳定 [3] - 同步推出沉浸式叙事体验Scenes、动画聊天Imagine Animated Chat等新功能 [3] Fellou 2.0智能体 - Fellou 2.0作为Agentic Browser实现AI任务7x24小时批量化生产 [4] - 新版本速度提升1.2-1.5倍，成功率从31%升至80%，支持多任务并行处理 [5] - 基于Eko 2.0架构，未来将推出Windows版本并取消邀请码 [5] YouWare氛围编程平台 - YouWare让非程序员通过AI将创意转化为网页并一键上线分享 [6] - 平台实现"所想即所见"体验，由自研AI Agent和Sandbox技术支撑 [6] - 建立类似Instagram的创作社区，设计"Knot"奖励机制鼓励优质内容 [6] 智源Video-XL-2模型 - 智源开源轻量级Video-XL-2模型，单卡可处理长达万帧视频 [7] - 模型采用四阶段渐进式训练方法，编码2048帧视频仅需12秒 [7] - 在主流评测中超越所有轻量级开源模型，适用于影视分析和异常监测 [7] Salesforce收购Moonhub - Salesforce收购AI Agent平台Moonhub，团队将开发Agentforce平台 [8] - 目标2025年底通过Agentforce开发十亿个智能体，现有3000家企业客户 [8] - Moonhub招聘智能体功能将与Salesforce HR智能体形成互补 [8] 李飞飞Forge渲染器 - World Labs开源Forge渲染器，可在普通设备流畅渲染AI生成3D世界 [10] - 作为Web端3D高斯泼溅渲染器，支持多摄像头及实时动画编辑 [10] - 关键技术包括高效画家算法和可编程数据流水线 [10] ChatGPT模型选择 - 卡帕西建议简单问题用GPT-4o，复杂任务用o3，代码完善用GPT-4.1 [11] - 使用场景分配：40%日常问题用4o，40%重要问题用o3 [11] - 选择原则基于任务重要性和响应速度需求 [11] ChatGPT记忆机制 - 记忆系统由保存记忆和聊天历史(含会话历史/对话历史/用户洞察)构成 [12] - 技术实现涉及向量空间索引和聚类优化算法，用户洞察贡献占比或超80% [12] - 机制使模型从被动应答转向主动理解，显著提升智能感 [12]