腾讯研究院

搜索文档
腾讯研究院AI速递 20250811
腾讯研究院· 2025-08-10 16:01
特斯拉Dojo团队解散与芯片战略调整 - 特斯拉正在解散Dojo超级计算机团队,负责人彼得·班农即将离职,约20名员工已跳槽至新成立的DensityAI [1] - 公司计划增加对英伟达、AMD及三星的芯片依赖,已与三星达成价值165亿美元的AI芯片供应协议 [1] - 马斯克此前对Dojo项目评价"前景渺茫",近期还失去Optimus机器人工程主管和软件工程副总裁等核心人才 [1] OpenAI产品动态与技术瓶颈 - GPT-5口碑崩塌后,OpenAI CEO奥特曼承诺重新提供GPT-4o给Plus用户,并增加定制选项,过去24小时ChatGPT API流量翻倍 [2] - GPT-5 Pro在编程、解题、图像识别等领域表现突出,如1分钟解决数独、16分钟解出IMO数学题、精准识别南非街景 [2][3] - 奥特曼预测2025-2027年AI将推动重大科学发现,但面临能源限制、芯片供应和数据挑战三大瓶颈 [2] 大模型竞技与行业赛事 - 首届Kaggle AI国际象棋大赛中,OpenAI的o3模型以4比0横扫Grok 4夺冠,后者在决赛中频现低级失误 [4] - 季军争夺战中谷歌Gemini 2.5 Pro以3.5比0.5战胜OpenAI的o4-mini,赛事整体对局质量不高 [4] Meta语音技术收购布局 - Meta收购AI音频公司WaveForms AI,该公司曾获a16z领投4000万美元种子轮融资,创始团队将加入Meta超级智能实验室 [5][6] - WaveForms专注于语音情感识别技术,其联合创始人曾领导GPT-4o语音开发,收购将补强Meta聊天机器人和元宇宙语音交互 [5][6] 机器人技术前沿进展 - 2025世界机器人大会展出超100款新品,智平方"爱宝"机器人搭载自研GOVLA模型,具备打架子鼓、搬运码垛等多样化能力 [7] - 宇树科技CEO预测人形机器人"ChatGPT时刻"将在1-2年内到来,认为当前瓶颈在于模型架构而非数据 [8] - 英伟达高管称物理AI将撬动百万亿美元市场,其Isaac平台包含Jetson Thor硬件和Cosmos世界模型以支持机器人开发 [9] 产品战略与行业观点 - Product Hunt CEO强调产品成功需50字符内清晰定义价值主张,建议通过持续发布建立势头而非一次性发布 [10] - 英伟达闭门会中,中国被肯定在物理AI领域具备人才、制造和产业基础优势,合成数据被视为具身智能落地关键 [9]
腾讯研究院AI每周关键词Top50
腾讯研究院· 2025-08-09 02:33
模型动态 - OpenAI推出GPT-5模型并开源gpt-oss项目 [3] - 小红书发布多模态模型dots.vlm1 [3] - 面壁小钢升级MiniCPM-V至4.0版本 [3] - 通义千问推出轻量级模型Qwen3-4B [3] - Anthropic发布Claude Opus 4.1但封锁部分API接口 [3] - 华为开源CANN框架 腾讯推出混元小模型 小米发布MiDashengLM-7B [3] - 谷歌展示Deep Think模型技术 [3] 应用进展 - MiniMax推出语音合成系统Speech 2.5 [3] - Gemini上线Guided Learning功能 DeepMind发布Genie 3工具 [3] - 谷歌Gemini推出Storybook应用 ElevenLabs发布AI音乐平台Eleven Music [3] - 腾讯ima开发AI播客 阿里推出图像处理工具Qwen-Image [3] - 纳米AI研究多智能体蜂群技术 可灵探索AI+影视制作 [3] - 高德地图预告2025年AI功能 Grok布局短视频生成 [4] - Manus推出Wide Research工具 Black Forest Labs发布FLUX.1-Krea [4] - 华中农业大学等机构推进AI育种技术 [4] 科技突破 - Skild AI研发机器人适应性策略 [4] - 傅利叶推出GR-3机器人 Meta研究神经肌肉交互技术 [4] - 苹果测试脑控iPad技术 宇树科技发布Unitree A2机器人 [4] - 中科硅纪开发类人灵巧手 [4] 行业观点 - 理想汽车提出"智驶新引擎"概念 [4] - a16z强调编程专业化 LangChain探讨Ambient Agents技术 [4] - Gamma关注小团队创业模式 Mo Gawdat警示AI社会分化风险 [4] - 阶跃星辰分享Step 3发展历程 马斯克讨论科学家与工程师协作 [4] - Ai2提出RLVR框架 OpenAI分析IMO金牌经验 [4] - DeepMind研究AI进化建模 微软评估AI对职业影响 [4] - 凯文·凯利提出"异类智能"理论 [4] 行业事件 - Grok 4等参与国际象棋AI对抗赛 [4] - 苹果组建AKI团队 TikTok热传兔子蹦床AI视频 [4] 资源推荐 - 腾讯研究院ima AGI知识库提供《AI Agent的终极未来》3万字圆桌实录 [5]
我国广告监管体制完善的主要动因与路径
腾讯研究院· 2025-08-08 08:53
广告法修订与行业监管体系完善 - 2015年修订的《广告法》实施十年间推动广告业规模与质量双重跃升,形成"全国统筹+地方创新"法治网络[2] - 广告监管体制完善的三大核心动因:习近平新时代中国特色社会主义思想贯彻、互联网经济发展、市场监管现代化建设[3] 广告导向监管理念演进 - 2016年习近平总书记提出"广告宣传也要讲导向",推动导向监管理念清晰化[4][5] - 早期导向监管聚焦政治问题(政治站位、八项规定)和社会舆论问题(舆情预警、群体性事件)[6] - 2017-2019年十部委连续发布专项文件强化导向监管,2023年《互联网广告管理办法》将"坚持正确导向"确立为基本原则[6][8] - 监管实践突出人民性,重点打击侮辱英烈、借重大政治活动营销及医疗、金融等民生领域违法广告[7] 互联网广告监管变革 - 互联网广告2016年超越四大传统媒体广告总和,2018年违法案件占比达56.86%,2020年后持续超60%[11] - 2015年《广告法》对互联网广告规范不足,2016年出台《互联网广告管理暂行办法》,2023年升级为《互联网广告管理办法》[12][14] - 技术演进推动监管对象变化:从门户网站合约广告→搜索引擎竞价排名→移动端程序化购买→直播/种草/生成式AI广告[13][14][15] - 新规明确平台责任,应对数字营销新形态如计算广告、物联网广告的监管挑战[14] 市场监管模式现代化转型 - 2018年机构改革后形成六大趋势:监管边界社会化、执法依据统一化、体制共治化、方式综合化、手段智慧化、机制信用化[17] - 广告监管同步现代化,建立政府监管+行业自律+企业信用+平台自治+社会监督的"五位一体"共治模式[18] - 智慧监管工具应用领先,广告监测成为基础手段,信用监管推行"双随机一公开"和全国协同监管网络[18]
腾讯研究院AI速递 20250808
腾讯研究院· 2025-08-07 16:01
GPT-5系列模型 - OpenAI提前披露GPT-5四个版本:标准版gpt-5、轻量版gpt-5-mini、低延迟版gpt-5-nano和多模态复杂对话版gpt-5-chat [1] - 模型将分层开放:免费用户用基础版,Plus用户用更强推理版,Pro用户独享"研究级智能"的GPT-5 Pro [1] - 实测显示SimpleBench推理测试准确率达90%,需特定提示激活复杂思考,编程和视觉表现有提升但未达惊艳水平 [1] MiniMax语音模型 - 新一代Speech 2.5模型支持40种语言真人级生成,实现跨语种音色保留和口音复刻 [2] - 相比5月版本在多语种自然表达、音色复刻和语种覆盖三方面突破 [2] - 已被Vapi、Pipecat等海外平台及高途教育、喜马拉雅、网易等国内头部平台接入 [2] 小红书多模态模型 - 开源首个多模态大模型dots.vlm1,基于12亿参数NaViT视觉编码器和DeepSeek V3构建 [3] - 视觉理解能力接近Gemini 2.5 Pro和Seed-VL1.5 Thinking,能解数独、破解高考数学题等 [3] - 两个月内连续开源dots.llm1、dots.ocr、dots.vlm1三款模型,反映技术自研力度加大 [3] 面壁小钢多模态模型 - MiniCPM-V 4.0仅用4B参数在OpenCompass等榜单取得SOTA成绩,支持手机端稳定运行 [4] - 显存占用仅3.33GB,256并发下吞吐量达13856 tokens/s,远超Qwen2.5-VL和Gemma 3 [4] - 开源推理部署工具MiniCPM-V CookBook便于开发者简易部署 [4] 通义千问新模型 - 发布Qwen3-4B-Instruct-2507和Qwen3-4B-Thinking-2507两款小尺寸模型,支持256K上下文 [5][6] - Qwen3-4B-Thinking在AIME25测评得81.3分,Agent能力超越Qwen3-30B-Thinking [6] - Qwen3-4B-Instruct全面超越GPT-4.1-nano,性能接近Qwen3-30B-A3B [6] 大模型对抗赛 - OpenAI的o3以4比0完胜o4-mini,展现100%准确率 [7] - Grok 4与Gemini 2.5 Pro常规赛2比2平,加赛逼和对手晋级 [7] - 决赛由Grok 4对阵o3,国际象棋冠军Magnus Carlsen等将解说 [7] Gemini教育功能 - 推出"引导式学习"模式,通过问题分解、视觉辅助和互动测验构建知识 [8] - 为美日等国大学生提供一年免费AI Pro计划(价值200美元) [8] - 承诺三年内向美国教育投入10亿美元 [8] 具身智能技术 - Skild AI推出端到端视觉感知控制方案,实现机器人稳定爬楼梯和复杂障碍通过 [9] - 采用纯视觉输入方法,通过单一神经网络实现"本能级"动作控制 [9] - 优势在于连贯运动切换和环境适应能力,可实时调整动作应对地形 [9] 理想汽车智驾 - 推出国内首个量产VLA模型,在视觉和行为间加入语言环节使决策更拟人 [10][11] - 系统每天通过"世界模型仿真系统"行驶30万公里迭代,4B模型实现10Hz帧率 [11] - 预计辅助驾驶明年达1000MPI里程碑 [11] AI应用平台趋势 - a16z认为AI应用平台将走向专业化而非赢者通吃,形成互补共存 [12] - 市场分化为原型制作、个人软件和生产级应用三类,70%用户仅活跃于单一平台 [12] - 未来三至五年每类别将出现2-3家主导企业 [12]
人类在被大语言模型“反向图灵测试”
腾讯研究院· 2025-08-07 09:15
人工智能发展历程 - 深度学习算法在20世纪80年代刚被发明时,计算机性能仅为今日百万分之一,无法预知其未来能力[2] - 21世纪10年代深度学习在图像识别、语音识别和语言翻译等经典难题上取得突破性进展[2] - 1992年TD-Gammon达到双陆棋顶尖水平,2017年AlphaGo击败围棋世界冠军,展示AI在人类擅长领域的超越[2] 大语言模型特性 - ChatGPT自2022年11月推出后展现出超强文本生成能力,引发对就业和未来发展的担忧[2] - 大语言模型在处理海量文本数据方面已超越人类能力,但学界对其是否真正"理解"内容存在争议[4] - 模型展现出反向图灵测试特性,能根据对话者提示质量动态调整智能表现[5] - 大语言模型表现出超预期的社交智能和跨领域能力,如编程等[6] 智能本质探讨 - 传统"中文屋"思想实验被改编为"匈牙利语屋"来质疑大语言模型的理解能力[8][10] - 语言学家认为大语言模型在语法生成能力上比多数人类更出色[10] - LaMDA模型通过心智理论测试,但学界对其是否具备自我意识仍存疑[11] - 人类智能标准可能需要重写,现有认知框架难以适应大语言模型的发展[7][12] 语言与思维关系 - 存在语言决定论和思维优先论两种对立观点,大多数学者认为二者是复杂互动关系[20] - 思维具有多样性,视觉思维、空间思维等可不依赖语言进行[20] - 乔姆斯基提出人类思维的三个层次(描述、预测、因果解释),但实验显示ChatGPT已能通过相关测试[21][22] 技术发展前景 - 大语言模型发展速度远超生物进化,技术基础确立后性能持续提升[14] - 研究大语言模型可能帮助揭示人类智能本质,类似17世纪物理学概念数学化的变革[13][15] - 当前关于"智能"的争论类似百年前"生命本质"讨论,预计机器学习将催生新概念框架[22][23]
腾讯研究院AI速递 20250807
腾讯研究院· 2025-08-06 16:01
生成式AI - Anthropic发布Claude Opus 4 1,提升Agent代理任务、真实世界编码和推理能力,在SWE-bench Verified基准测试中达到74 5%,相比Opus 4提升2个百分点,大幅领先GPT-4 1(54 6%)[1] - OpenAI开源gpt-oss-120b和gpt-oss-20b两款推理模型,性能与o4-mini相当,分别采用117B和21B总参数,原生支持128k上下文长度,gpt-oss-120b可在单个H100 GPU上运行[2] - 谷歌DeepMind发布Genie 3,能一句话生成动态可交互世界,以每秒20-24帧速度实时生成720p画面,支持实时交互且生成内容连贯性可维持数分钟[3] - 谷歌Gemini新增"Storybook"功能,用户简单描述情节即可自动生成10页完整图文故事书,支持多种艺术风格和个性化定制[4] AI竞赛与性能 - 首届Kaggle AI国际象棋竞赛中,Grok 4表现最佳,显示"GM级别"战术策略与速度,与Gemini 2 5 Pro一起挺进半决赛[5] - ElevenLabs发布AI音乐模型Eleven Music,能生成从流行嘻哈到管弦乐各种风格,用户可通过文本prompt精确控制音乐底层乐器、调式、和弦和节奏[6] 人形机器人 - 傅利叶发布第三代人形机器人GR-3,采用柔和淡黄配色和柔性材质,嵌入微表情系统,能通过眼球转动、眨眼和神态表情传达情绪,覆盖导览问答、儿童互动等陪伴交互场景[7] 人机交互技术 - Meta开发的非侵入性表面肌电图(sEMG)技术通过记录放大肌肉神经信号实现实时手势解码和计算机交互,在连续手势控制任务中每秒能够互动0 66次,离散手势识别准确度达89-95%[8] AI智能体发展 - LangChain CEO认为未来会从聊天模式转向"环境化/常驻"智能体,环境化智能体可主动监听事件流并异步行动,多智能体系统是趋势[9] 创业模式 - Gamma以30人团队服务近5000万用户,ARR超5000万美元,采用"球员兼教练"管理模式,招募具有主动性、强学习意愿的"通才"而非"专才"[10][11]
AI时代的职业与教育|2万字圆桌实录
腾讯研究院· 2025-08-06 09:03
AI时代职业新趋势 - AI技术发展催生新职业形态,如一人企业数量增加,闲鱼平台新增320多个新职业[7] - 提供情绪价值的职业兴起,包括陪聊、陪诊、夸赞服务等新兴服务类别[7] - 职业与收入呈现解耦趋势,第二职业收入占比提升,收入来源多样化[15][19] 人才需求变化 - 复合型人才需求激增,AI应用师、AI产品经理等岗位快速增长[24] - 技能要求呈现"自主性"与"专业性"并重特点,AI暴露度高的职业对自主性要求更高[23] - 全栈型人才和"粘合剂"式人才受青睐,需同时具备技术、业务和行业知识[24] 教育就业匹配 - "3+1+1"教育模式被提出,3年专业学习+1年企业实训+1年调整期[25] - 校企合作订单班模式效果显著,如天津滨海新区央国企订单班直接输送技能人才[29] - 高校教育滞后市场3-5年,但通过产研结合可缩短至1-3年差距[26] 行业机会分布 - 银发经济领域存在大量机会,包括养老看护服务及配套软硬件开发[38] - 现代服务业持续升级,生活服务、绿色经济等领域岗位需求旺盛[38] - 直播销售岗位泛化,从互联网公司扩展到各行业销售渠道变革[41] 就业结构变革 - 小微企业增速显著,注册数量和招聘需求增长快于大中型企业[17] - 蓝领起薪超过白领,职业等级观念面临重构,如上门洗澡服务客单价高[39] - 工作形态趋向任务制和碎片化,打破传统"朝九晚五"模式[19] 技术影响深度 - AI替代效应短期内以替代为主,长期将创造新岗位[17] - 深度使用AI者更不易被替代,拒绝AI者被替代风险更高[17] - 人机协同成为常态,AI辅助决策但最终决定权保留给人[63] 特殊群体就业 - 农民工就业灵活性强,平台就业和零工经济成为主要选择[44] - 中年人再就业需调整心态,经验优势结合AI技术可形成竞争力[53] - 应届毕业生存在"往下匹配"趋势,超60%求职岗位学历要求低于自身[54]
腾讯研究院AI速递 20250806
腾讯研究院· 2025-08-05 16:01
Claude Opus 4.1内测与行业动态 - Claude Opus 4.1正在内部测试,预计半月内发布,主打提升推理和规划能力 [1] - Anthropic年收入增长5倍达50亿美元,编程客户Cursor和GitHub Copilot贡献14亿美元API收入 [1] - Claude在AI编程领域优势明显但面临OpenAI等竞对威胁 [1] 腾讯ima功能更新 - ima新增AI播客功能,基于混元大模型提供自然对话与优质听感 [2] - 支持文件夹一键导入功能,大幅简化知识导入流程 [2] - 新增Xmind脑图解读与知识库内容置顶功能,提升知识管理效率 [2] 阿里开源Qwen-Image模型 - 通义千问开源200亿参数图像生成模型Qwen-Image,中英文文本渲染能力出色 [3] - 模型能精准生成含复杂文字的图像,包括PPT、海报和商品宣传图 [3] - 采用MMDiT架构和渐进式训练策略,多项基准测试达SOTA水平 [3] 华为开源盘古模型与CANN架构 - 华为开源三款盘古模型,规模分别为1B、7B和718B,Ultra MoE达7180亿参数 [4] - AI计算架构CANN及Mind系列应用使能套件全面开源开放 [4] - 采用Multi-head Latent Attention和负载均衡策略等创新技术 [4] 纳米AI多智能体蜂群技术 - 纳米AI推出多智能体蜂群,一句话生成10分钟高质量AI视频,降低95%制作成本 [5] - 引入L4级智能体标准,实现多智能体共享记忆和协作 [5] - 单步智能体成功率达99.97%,支持无限Token和上下文长度 [5] 谷歌大模型对抗赛 - 谷歌发起首届大模型对抗赛,8款顶级AI模型将在国际象棋领域对决 [6][7] - 参赛模型包括OpenAI、DeepSeek、Kimi、谷歌、Anthropic和xAI等 [6] - 比赛采用单败淘汰制,全程透明直播 [7] 苹果脑控技术进展 - 苹果与Synchron合作推出BCI HID协议,让脑电波成为原生输入方式 [8] - 渐冻症患者通过Stentrode脑机接口设备成功操控iPad [8] - 相比Neuralink采用低风险无创手术方式 [8] 宇树科技机器人产品 - 宇树科技发布四足机器狗Unitree A2,可负重100kg,最大奔跑速度5米/秒 [9] - 此前发布人形机器人R1,售价3.99万元起,被称为行业"价格屠夫" [9] - 公司2024年营收突破10亿元,Go1机器人全球出货量超5万台 [9] AI对社会结构影响预测 - 前谷歌高管预警2027年起AI将开启15年"地狱期",中产阶级或被消灭 [10] - 预测未来社会将只剩顶端0.1%富人和底层民众 [10] - 2042年后或进入AI主导的乌托邦时代 [10] 阶跃星辰开源基座模型 - 阶跃星辰开源基座模型Step 3,为3210亿参数的多模态推理模型 [11] - CEO坚信多模态生成与理解统一是通往AGI的必由之路 [11] - 聚焦智能终端Agent和垂类Agent两大方向 [11]
赛博沙盒:如何与AI共创未来丨1.4万字圆桌实录
腾讯研究院· 2025-08-05 09:03
AI与游戏的共生关系 - 游戏作为AI的孵化器具有历史渊源,从20世纪50年代起棋类游戏就成为AI研究的理想试验场[9][10] - 游戏环境为AI训练提供规则明确、边界清晰的"理想物理环境",类似高中物理题中的简化假设[12] - 复杂电子游戏(如Dota、星际争霸)推动AI学习范式进化,从规则学习到自我学习再到生成式AI[14][15] - 游戏既是孕育AI的"算法子宫",也是测试AI安全性的"数字迷宫",具有双重功能[11] 智能NPC的商业化路径 - 智能NPC将颠覆RPG游戏体验,通过个性化对话和动态叙事创造"真实世界"感[18] - 成本控制方案包括离线部署预训练模型与分层收费模式(基础角色免费+算力API付费)[20][21] - 竞技类游戏AI需平衡难度与体验,过度强大的AI可能导致玩家挫败感[24][25] - 情感向游戏与AI结合最具商业潜力,可形成"算力即服务"新商业模式[22][23] 游戏开发的技术革新 - AI已应用于游戏动作系统优化(如《黑神话》的丝滑动作衔接)和副本平衡性测试[19] - 低代码编辑器(如《元梦之星》)结合AI技术大幅降低游戏开发门槛[31] - AI可辅助检测游戏剧情逻辑矛盾,维护大型开放世界的叙事一致性[28][29] - 未来游戏开发可能进入"人人都是创作者"的时代,类似短视频的内容生产革命[31] 游戏作为社会实验场 - 游戏可模拟信息传播环境,训练用户识别虚假信息的"信息疫苗"功能[33] - 严肃游戏(如《瘟疫危机》)能有效提升公共卫生教育效果[34] - 游戏引擎技术已应用于自动驾驶训练等现实领域的技术研发[36] - 游戏推动硬件产业发展,显卡从游戏配件演变为AI算力核心的历史进程[38] 游戏媒介的独特性 - 游戏整合而非替代其他媒介,通过交互性提供影视和文学无法实现的体验[42] - 游戏采用TCP式深度交互模式,与电影的UDP式单向传播形成互补[43] - 中国游戏产业实现技术代偿,跳过主机阶段直接进入移动游戏时代[40] - 游戏研究呈现"红细胞"(开发技术)与"白细胞"(社会影响)的学科分化[48]
论坛预告丨科技创新与良法善治的智识交汇!Day 2
腾讯研究院· 2025-08-05 09:03
论坛概述 - 香港中文大学法律学院与腾讯研究院联合主办"网络法论坛",聚焦科技创新与法律治理的交叉领域 [1] - 论坛主题为"科技创新与良法善治",旨在为大湾区科技与法律交互提供智慧支持 [1] - 讨论范围涵盖全球数字经济、互联网公共政策、人工智能治理等前沿议题 [1] 议程安排 - 8月6日10:15-11:15由王雅媛女士主讲《个人资料(私隐)条例》下的网络行为法律责任与合规要求 [3] - 11:30-12:30由张平教授探讨中国人工智能立法的思路与展望 [3] - 活动通过腾讯会议(会议号472 853 853)线上开展 [3] 推荐内容 - 薛军教授著作《中国广告法的数字转型之思》被列为延伸阅读材料 [5]