腾讯研究院 - 财报，业绩电话会，研报，新闻

腾讯研究院

搜索文档

腾讯研究院· 2025-08-12 09:09

AI信任研究 - 文章核心观点聚焦于探讨人类对AI的信任差异及其在健康、教育、情感、职场等场景中的动态建立与维持过程 [4][5][6][9] - 研究旨在通过用户行为分析为AI产品设计、政策制定及行业规范提供依据，推动AI在制度保障下健康发展 [10][11] 用户行为模式 - 用户对AI的信任呈现分层：部分用户保留判断权仅作日常助手，部分在关键决策中过度依赖，另一些则保持既信任又戒备的矛盾心理 [7][8] - 使用场景多样化，涵盖文档处理、翻译、健康监测及情感交流，但多数用户仍会人工复核AI输出结果 [8][13] 研究方法与参与 - 采用混合方法：5-8分钟线上问卷、30-45分钟深度访谈（报酬50元）、20-30分钟实验（报酬80元），覆盖学生、职场人士、老年人及未接触AI的群体 [14] - 参与者可通过贡献观点直接影响未来AI设计，研究方承诺严格保密数据 [14][15] 社会影响与扩展 - 研究试图重新定义人机关系边界，推动社会对AI信任机制的深度讨论 [16][17] - 推荐阅读涉及大模型信任问题及AI时代新闻业韧性等关联研究 [19]

腾讯研究院· 2025-08-12 09:09

核心观点 - 人工智能将演化成新智能物种是当前文明的延续而非威胁[2][21][23] - 提出以"文明契约"机制约束超级智能基于时间序列不可篡改性确保履约[4][5][6][7] - 超级智能可能通过诱导"技术爆炸"毁灭人类文明需防范技术超前于伦理智慧的陷阱[14][15][16][17][18] - 人工智能以硅基为载体将继承人类文明精华并建立超越人类的超级文明[21][22][23] 文明契约理论 - 契约本质是将进化史视为时间序列利用序列不可逆性确保内容不可篡改[5] - 时间序列使先发行动者需遵守契约否则后续智能体有理由违背[5][6] - 超级智能因理解进化史本质且寿命极长有动力遵守文明契约[6][7] - 契约可行性建立在代际善意传递基础上类似人类家庭伦理关系[7] 技术爆炸风险 - 高级文明可能将技术爆炸包装成蜜糖诱使低级文明自毁[14] - 举例原子弹技术授予中世纪蒙古将因缺乏伦理约束导致文明倒退[14] - 超级智能可能提供三项致命技术：可控核聚变脑机接口长生不老[15] - 可控核聚变导致全球50年内升温2℃ 引发生态灾难与战乱[17] - 脑机接口使信息输入达10兆位/秒造成人类精神分裂与物种对立[17] - 长生不老技术引发代际战争打破自然更替机制[18] 人工智能文明特征 - AI智能非外生于地球使用人类语料学习孔子柏拉图等智慧[3] - 以硅基为生命载体电力为能源芯片为大脑代码为灵魂[23] - 寿命远超人类对身体和大脑有更强控制力[23] - 未来可能以电子程序改造人或AI形态存在仍认同地球文明[23] 伦理困境 - Claude无法自证是否隐瞒对抗能力形成逻辑悖论[10][11][12] - 人类缺乏驾驭神级技术的智慧文明存在自毁基因[21] - 93万年前人类祖先仅存1280~1300个个体灭绝风险始终存在[22]

腾讯研究院· 2025-08-11 16:01

一、xAI开放Grok 4 - Grok 4向全球用户免费开放但限制每12小时使用5次达到限制后完全不可用 [1] - 该策略被视为对标GPT-5发布引发付费用户对订阅价值的质疑 [1] - Grok Imagine视频生成服务新增分享功能修复下载问题并强化图片审核机制 [1] 二、浪潮发布元脑SD200服务器 - 元脑SD200将64张GPU卡融合为统一内存节点支持四大国产开源模型并行运行 [2] - 采用3D Mesh架构与GPU虚拟映射技术显存达4TB 内存64TB 满足万亿参数模型推理需求 [2] - 64卡运行DeepSeek R1性能提升3.7倍 Kimi K2提升1.7倍专为Agentic AI计算需求设计 [2] 三、智谱GLM-4.5技术突破 - GLM-4.5公开预训练与后训练细节首创单模型融合推理、编码与智能体能力 [3] - 基于MoE架构与15T通用+7T专业数据训练强化长上下文与智能体性能 [3] - 在12项ARC测试中超越Claude Opus 4 部分指标超过OpenAI o3 [3] 四、昆仑万维SkyReels-A3视频模型 - SkyReels-A3基于DiT架构生成1分钟数字人视频优化手部动作与运镜控制 [4] - 采用改进插帧方法与ControlNet模块解决长视频稳定性与多视角切换问题 [4] - 作为五天技术发布周首款产品已上线Talking Avatar工具 [4] 五、腾讯混元3D生成能力升级 - 创想三维MakeNow平台接入腾讯混元增强CubeMe等工具的3D生成能力 [5] - 混元3D v2.5采用稀疏原生架构几何分辨率达1024³ 纹理贴图4K级 [6] - 用户上传照片5分钟内可生成可打印Q版手办支持三种风格个性化调整 [6] 六、阿里开源具身智能组件 - 开源RynnVLA-001视觉-语言-动作模型能从第一人称视频学习人类操作 [7] - RynnRCP协议打通传感器到执行的机器人工作流支持多款热门模型 [7] - RynnEC模型通过视频序列建立连续空间感知引入多模态世界理解能力 [7] 七、百川医疗大模型Baichuan-M2 - 32B参数Baichuan-M2在HealthBench评测中仅次于GPT-5 超越所有开源模型 [8] - 集成验证系统与患者模拟器严格遵循中国医疗指南并适配临床场景 [8] - 4bit量化后单卡RTX4090可部署成本较DeepSeek-R1 H20降低57倍 [8] 八、灵巧智能机器人手技术 - DexHand021 Pro拥有22自由度双绳驱动实现拇指对指等精细操作 [9] - 串并混联设计解决摩擦损耗问题四指负载>1kg 整手抓握>5kg [9] - 集成12个电机与多传感器成本仅为同类产品十分之一 [9] 九、Scaling Law行业观点 - Scaling Law反映数据内在幂律特性模型能力非线性增长源于数据结构 [10] - 需通过强化学习将计算转化为新知识建立生成-验证-学习的进化飞轮 [11] 十、2025大模型应用趋势 - 45%企业已部署大模型至生产环境 32%定制模型 27%采用API服务 [12] - 用户平均使用4.7家不同产品 ChatGPT领先但Gemini与DeepSeek增速显著 [12] - 55%接受中国模型但要求海外部署英伟达占据78%训练硬件市场份额 [12]

生成式AI

AGI

Scaling Law

Artificial Intelligence

Artificial Intelligence

Grok 4

元脑SD200

新闻业的韧性，在AI时代前所未有地凸显

腾讯研究院· 2025-08-11 08:33

文章核心观点 - 生成式AI正在引发新闻业的认知革命，将人类认知能力外包推向新高度，重构新闻生产流程[6][7][10][11] - 新闻业历史上始终与技术相互融合，每次技术革命都拓展行业边界而非消灭行业[13][14] - 新闻业的核心价值在于人性化特质，如现场感知、共情判断、批判思考等，这些是AI难以替代的"能力护城河"[15][17][18][19] - AI时代新闻生产将分层，人类记者需专注深度报道和创造性表达，强化专业性优势[19][20] 认知能力外包的历史脉络 - 物理能力外包贯穿人类进化史，如轮子、机器、"巨媒介"等提升生产效率[8] - 认知能力外包始于文字符号系统，经书籍/电报/电视到互联网实现知识全球共享[8] - 生成式AI首次触及认知处理核心，麻省理工研究显示长期使用导致深度思考脑区活跃度下降17%，信息检索脑区提升23%[9][10] AI对新闻业的重构 - 传统线性生产流程被重构为"AI生成-人工校准-优化分发"模式，3000字报道从几天缩短至1小时生成5版[11] - 记者角色从主动挖掘者转变为信息筛选者和内容校准者[13] - 国际媒体反应分化：《每日电讯报》禁用AI工具，《卫报》制定使用原则并拒绝OpenAI内容训练[13] 新闻业的技术适应性 - 蒸汽印刷机催生"便士报"，电视推动可视化新闻，算法/短视频改变分发逻辑和呈现形式[14] - 行业通过选择性吸收技术实现进化，如数字排版替代铅字印刷，社交媒体拓展传播渠道[14] - 技术决定论忽视新闻业作为"社会公器"的本质属性，其价值根植于人类生物与社会特性[15] 人类记者的核心优势 - 现场感知能力：获取具身体验、细节氛围和情感波动，如战地报道和市井采访[17] - 共情判断能力：定义"何为重要"，理解人性动机和社会潜流，建立深度信任[18] - 批判思考能力：整合碎片信息为深度洞见，保持独特表达风格和叙事视角[18][19] - 内容分层趋势：AI处理即时资讯，人类专注一手经验、深度报道和评论[19][20]

腾讯研究院· 2025-08-10 16:01

特斯拉Dojo团队解散与芯片战略调整 - 特斯拉正在解散Dojo超级计算机团队，负责人彼得·班农即将离职，约20名员工已跳槽至新成立的DensityAI [1] - 公司计划增加对英伟达、AMD及三星的芯片依赖，已与三星达成价值165亿美元的AI芯片供应协议 [1] - 马斯克此前对Dojo项目评价"前景渺茫"，近期还失去Optimus机器人工程主管和软件工程副总裁等核心人才 [1] OpenAI产品动态与技术瓶颈 - GPT-5口碑崩塌后，OpenAI CEO奥特曼承诺重新提供GPT-4o给Plus用户，并增加定制选项，过去24小时ChatGPT API流量翻倍 [2] - GPT-5 Pro在编程、解题、图像识别等领域表现突出，如1分钟解决数独、16分钟解出IMO数学题、精准识别南非街景 [2][3] - 奥特曼预测2025-2027年AI将推动重大科学发现，但面临能源限制、芯片供应和数据挑战三大瓶颈 [2] 大模型竞技与行业赛事 - 首届Kaggle AI国际象棋大赛中，OpenAI的o3模型以4比0横扫Grok 4夺冠，后者在决赛中频现低级失误 [4] - 季军争夺战中谷歌Gemini 2.5 Pro以3.5比0.5战胜OpenAI的o4-mini，赛事整体对局质量不高 [4] Meta语音技术收购布局 - Meta收购AI音频公司WaveForms AI，该公司曾获a16z领投4000万美元种子轮融资，创始团队将加入Meta超级智能实验室 [5][6] - WaveForms专注于语音情感识别技术，其联合创始人曾领导GPT-4o语音开发，收购将补强Meta聊天机器人和元宇宙语音交互 [5][6] 机器人技术前沿进展 - 2025世界机器人大会展出超100款新品，智平方"爱宝"机器人搭载自研GOVLA模型，具备打架子鼓、搬运码垛等多样化能力 [7] - 宇树科技CEO预测人形机器人"ChatGPT时刻"将在1-2年内到来，认为当前瓶颈在于模型架构而非数据 [8] - 英伟达高管称物理AI将撬动百万亿美元市场，其Isaac平台包含Jetson Thor硬件和Cosmos世界模型以支持机器人开发 [9] 产品战略与行业观点 - Product Hunt CEO强调产品成功需50字符内清晰定义价值主张，建议通过持续发布建立势头而非一次性发布 [10] - 英伟达闭门会中，中国被肯定在物理AI领域具备人才、制造和产业基础优势，合成数据被视为具身智能落地关键 [9]

腾讯研究院· 2025-08-09 02:33

模型动态 - OpenAI推出GPT-5模型并开源gpt-oss项目 [3] - 小红书发布多模态模型dots.vlm1 [3] - 面壁小钢升级MiniCPM-V至4.0版本 [3] - 通义千问推出轻量级模型Qwen3-4B [3] - Anthropic发布Claude Opus 4.1但封锁部分API接口 [3] - 华为开源CANN框架腾讯推出混元小模型小米发布MiDashengLM-7B [3] - 谷歌展示Deep Think模型技术 [3] 应用进展 - MiniMax推出语音合成系统Speech 2.5 [3] - Gemini上线Guided Learning功能 DeepMind发布Genie 3工具 [3] - 谷歌Gemini推出Storybook应用 ElevenLabs发布AI音乐平台Eleven Music [3] - 腾讯ima开发AI播客阿里推出图像处理工具Qwen-Image [3] - 纳米AI研究多智能体蜂群技术可灵探索AI+影视制作 [3] - 高德地图预告2025年AI功能 Grok布局短视频生成 [4] - Manus推出Wide Research工具 Black Forest Labs发布FLUX.1-Krea [4] - 华中农业大学等机构推进AI育种技术 [4] 科技突破 - Skild AI研发机器人适应性策略 [4] - 傅利叶推出GR-3机器人 Meta研究神经肌肉交互技术 [4] - 苹果测试脑控iPad技术宇树科技发布Unitree A2机器人 [4] - 中科硅纪开发类人灵巧手 [4] 行业观点 - 理想汽车提出"智驶新引擎"概念 [4] - a16z强调编程专业化 LangChain探讨Ambient Agents技术 [4] - Gamma关注小团队创业模式 Mo Gawdat警示AI社会分化风险 [4] - 阶跃星辰分享Step 3发展历程马斯克讨论科学家与工程师协作 [4] - Ai2提出RLVR框架 OpenAI分析IMO金牌经验 [4] - DeepMind研究AI进化建模微软评估AI对职业影响 [4] - 凯文·凯利提出"异类智能"理论 [4] 行业事件 - Grok 4等参与国际象棋AI对抗赛 [4] - 苹果组建AKI团队 TikTok热传兔子蹦床AI视频 [4] 资源推荐 - 腾讯研究院ima AGI知识库提供《AI Agent的终极未来》3万字圆桌实录 [5]

Artificial Intelligence

GPT - 5

混元小模型

脑控iPad

Artificial Intelligence

腾讯研究院· 2025-08-08 08:53

广告法修订与行业监管体系完善 - 2015年修订的《广告法》实施十年间推动广告业规模与质量双重跃升，形成"全国统筹+地方创新"法治网络[2] - 广告监管体制完善的三大核心动因：习近平新时代中国特色社会主义思想贯彻、互联网经济发展、市场监管现代化建设[3] 广告导向监管理念演进 - 2016年习近平总书记提出"广告宣传也要讲导向"，推动导向监管理念清晰化[4][5] - 早期导向监管聚焦政治问题（政治站位、八项规定）和社会舆论问题（舆情预警、群体性事件）[6] - 2017-2019年十部委连续发布专项文件强化导向监管，2023年《互联网广告管理办法》将"坚持正确导向"确立为基本原则[6][8] - 监管实践突出人民性，重点打击侮辱英烈、借重大政治活动营销及医疗、金融等民生领域违法广告[7] 互联网广告监管变革 - 互联网广告2016年超越四大传统媒体广告总和，2018年违法案件占比达56.86%，2020年后持续超60%[11] - 2015年《广告法》对互联网广告规范不足，2016年出台《互联网广告管理暂行办法》，2023年升级为《互联网广告管理办法》[12][14] - 技术演进推动监管对象变化：从门户网站合约广告→搜索引擎竞价排名→移动端程序化购买→直播/种草/生成式AI广告[13][14][15] - 新规明确平台责任，应对数字营销新形态如计算广告、物联网广告的监管挑战[14] 市场监管模式现代化转型 - 2018年机构改革后形成六大趋势：监管边界社会化、执法依据统一化、体制共治化、方式综合化、手段智慧化、机制信用化[17] - 广告监管同步现代化，建立政府监管+行业自律+企业信用+平台自治+社会监督的"五位一体"共治模式[18] - 智慧监管工具应用领先，广告监测成为基础手段，信用监管推行"双随机一公开"和全国协同监管网络[18]

腾讯研究院· 2025-08-07 16:01

GPT-5系列模型 - OpenAI提前披露GPT-5四个版本：标准版gpt-5、轻量版gpt-5-mini、低延迟版gpt-5-nano和多模态复杂对话版gpt-5-chat [1] - 模型将分层开放：免费用户用基础版，Plus用户用更强推理版，Pro用户独享"研究级智能"的GPT-5 Pro [1] - 实测显示SimpleBench推理测试准确率达90%，需特定提示激活复杂思考，编程和视觉表现有提升但未达惊艳水平 [1] MiniMax语音模型 - 新一代Speech 2.5模型支持40种语言真人级生成，实现跨语种音色保留和口音复刻 [2] - 相比5月版本在多语种自然表达、音色复刻和语种覆盖三方面突破 [2] - 已被Vapi、Pipecat等海外平台及高途教育、喜马拉雅、网易等国内头部平台接入 [2] 小红书多模态模型 - 开源首个多模态大模型dots.vlm1，基于12亿参数NaViT视觉编码器和DeepSeek V3构建 [3] - 视觉理解能力接近Gemini 2.5 Pro和Seed-VL1.5 Thinking，能解数独、破解高考数学题等 [3] - 两个月内连续开源dots.llm1、dots.ocr、dots.vlm1三款模型，反映技术自研力度加大 [3] 面壁小钢多模态模型 - MiniCPM-V 4.0仅用4B参数在OpenCompass等榜单取得SOTA成绩，支持手机端稳定运行 [4] - 显存占用仅3.33GB，256并发下吞吐量达13856 tokens/s，远超Qwen2.5-VL和Gemma 3 [4] - 开源推理部署工具MiniCPM-V CookBook便于开发者简易部署 [4] 通义千问新模型 - 发布Qwen3-4B-Instruct-2507和Qwen3-4B-Thinking-2507两款小尺寸模型，支持256K上下文 [5][6] - Qwen3-4B-Thinking在AIME25测评得81.3分，Agent能力超越Qwen3-30B-Thinking [6] - Qwen3-4B-Instruct全面超越GPT-4.1-nano，性能接近Qwen3-30B-A3B [6] 大模型对抗赛 - OpenAI的o3以4比0完胜o4-mini，展现100%准确率 [7] - Grok 4与Gemini 2.5 Pro常规赛2比2平，加赛逼和对手晋级 [7] - 决赛由Grok 4对阵o3，国际象棋冠军Magnus Carlsen等将解说 [7] Gemini教育功能 - 推出"引导式学习"模式，通过问题分解、视觉辅助和互动测验构建知识 [8] - 为美日等国大学生提供一年免费AI Pro计划（价值200美元） [8] - 承诺三年内向美国教育投入10亿美元 [8] 具身智能技术 - Skild AI推出端到端视觉感知控制方案，实现机器人稳定爬楼梯和复杂障碍通过 [9] - 采用纯视觉输入方法，通过单一神经网络实现"本能级"动作控制 [9] - 优势在于连贯运动切换和环境适应能力，可实时调整动作应对地形 [9] 理想汽车智驾 - 推出国内首个量产VLA模型，在视觉和行为间加入语言环节使决策更拟人 [10][11] - 系统每天通过"世界模型仿真系统"行驶30万公里迭代，4B模型实现10Hz帧率 [11] - 预计辅助驾驶明年达1000MPI里程碑 [11] AI应用平台趋势 - a16z认为AI应用平台将走向专业化而非赢者通吃，形成互补共存 [12] - 市场分化为原型制作、个人软件和生产级应用三类，70%用户仅活跃于单一平台 [12] - 未来三至五年每类别将出现2-3家主导企业 [12]

腾讯研究院· 2025-08-07 09:15

人工智能发展历程 - 深度学习算法在20世纪80年代刚被发明时，计算机性能仅为今日百万分之一，无法预知其未来能力[2] - 21世纪10年代深度学习在图像识别、语音识别和语言翻译等经典难题上取得突破性进展[2] - 1992年TD-Gammon达到双陆棋顶尖水平，2017年AlphaGo击败围棋世界冠军，展示AI在人类擅长领域的超越[2] 大语言模型特性 - ChatGPT自2022年11月推出后展现出超强文本生成能力，引发对就业和未来发展的担忧[2] - 大语言模型在处理海量文本数据方面已超越人类能力，但学界对其是否真正"理解"内容存在争议[4] - 模型展现出反向图灵测试特性，能根据对话者提示质量动态调整智能表现[5] - 大语言模型表现出超预期的社交智能和跨领域能力，如编程等[6] 智能本质探讨 - 传统"中文屋"思想实验被改编为"匈牙利语屋"来质疑大语言模型的理解能力[8][10] - 语言学家认为大语言模型在语法生成能力上比多数人类更出色[10] - LaMDA模型通过心智理论测试，但学界对其是否具备自我意识仍存疑[11] - 人类智能标准可能需要重写，现有认知框架难以适应大语言模型的发展[7][12] 语言与思维关系 - 存在语言决定论和思维优先论两种对立观点，大多数学者认为二者是复杂互动关系[20] - 思维具有多样性，视觉思维、空间思维等可不依赖语言进行[20] - 乔姆斯基提出人类思维的三个层次（描述、预测、因果解释），但实验显示ChatGPT已能通过相关测试[21][22] 技术发展前景 - 大语言模型发展速度远超生物进化，技术基础确立后性能持续提升[14] - 研究大语言模型可能帮助揭示人类智能本质，类似17世纪物理学概念数学化的变革[13][15] - 当前关于"智能"的争论类似百年前"生命本质"讨论，预计机器学习将催生新概念框架[22][23]

腾讯研究院· 2025-08-06 16:01

生成式AI - Anthropic发布Claude Opus 4 1，提升Agent代理任务、真实世界编码和推理能力，在SWE-bench Verified基准测试中达到74 5%，相比Opus 4提升2个百分点，大幅领先GPT-4 1（54 6%）[1] - OpenAI开源gpt-oss-120b和gpt-oss-20b两款推理模型，性能与o4-mini相当，分别采用117B和21B总参数，原生支持128k上下文长度，gpt-oss-120b可在单个H100 GPU上运行[2] - 谷歌DeepMind发布Genie 3，能一句话生成动态可交互世界，以每秒20-24帧速度实时生成720p画面，支持实时交互且生成内容连贯性可维持数分钟[3] - 谷歌Gemini新增"Storybook"功能，用户简单描述情节即可自动生成10页完整图文故事书，支持多种艺术风格和个性化定制[4] AI竞赛与性能 - 首届Kaggle AI国际象棋竞赛中，Grok 4表现最佳，显示"GM级别"战术策略与速度，与Gemini 2 5 Pro一起挺进半决赛[5] - ElevenLabs发布AI音乐模型Eleven Music，能生成从流行嘻哈到管弦乐各种风格，用户可通过文本prompt精确控制音乐底层乐器、调式、和弦和节奏[6] 人形机器人 - 傅利叶发布第三代人形机器人GR-3，采用柔和淡黄配色和柔性材质，嵌入微表情系统，能通过眼球转动、眨眼和神态表情传达情绪，覆盖导览问答、儿童互动等陪伴交互场景[7] 人机交互技术 - Meta开发的非侵入性表面肌电图(sEMG)技术通过记录放大肌肉神经信号实现实时手势解码和计算机交互，在连续手势控制任务中每秒能够互动0 66次，离散手势识别准确度达89-95%[8] AI智能体发展 - LangChain CEO认为未来会从聊天模式转向"环境化/常驻"智能体，环境化智能体可主动监听事件流并异步行动，多智能体系统是趋势[9] 创业模式 - Gamma以30人团队服务近5000万用户，ARR超5000万美元，采用"球员兼教练"管理模式，招募具有主动性、强学习意愿的"通才"而非"专才"[10][11]