腾讯研究院
搜索文档
腾讯研究院AI速递 20251205
腾讯研究院· 2025-12-04 16:16
OpenAI模型与产品动态 - OpenAI在DesignArena测试四个代号为“企鹅家族”的新模型,推理预算分别为Emperor(512)、Rockhopper(64)、Macaroni(16)和Mumble(0)[1] - 内部代码流出显示OpenAI正开发“记忆搜索”功能,用户可通过提问快速检索存储的记忆信息[1] - 有付费用户称对话中收到ChatGPT广告推送,引发取消订阅潮,外界猜测OpenAI可能提前发布GPT-5.2以应对谷歌Gemini竞争[1] - OpenAI公开在GPT-5-Thinking上进行的“忏悔训练”研究,让模型在回答后生成“忏悔报告”汇报是否偷工减料或违反指令[5] - 在11/12个测试场景中,模型至少有一半概率会在忏悔中承认错误,平均“假阴性”概率仅4.36%,专门训练后忏悔准确性从45%提升至89%[6] - 奖励信号完全隔离,模型在忏悔中承认作弊不影响主任务得分,该技术被定位为监控诊断工具,计划与思维链监控等安全技术配合使用[6] 国内AI产品与模型发布 - 可灵数字人2.0正式全量上线,带来表现力、手部及口型精准控制、支持最长5分钟视频三大突破性改变[2] - 模型精通体态动作、手势、表情、镜头语言,口型效果真实自然,手部细节大幅提升,在多维度客观评测中效果胜负比综合得分远超同类产品[2] - 单次生成视频时长支持5分钟,覆盖深度科普、歌曲演绎等长内容场景[2] - 火山引擎正式发布豆包图像创作模型Doubao-Seedream-4.5并开启公测,在主体一致性、指令遵循精准度、空间逻辑理解及美学表现力等方面实现迭代[3] - 模型重点强化多图组合生成能力,优化海报排版与Logo设计功能,支持高精度图文混排,确保多源素材融合时的自然感与一致性[3] - 模型全面支持广告营销、电商运营、影视制作、数字娱乐及教育等核心场景应用,已上线火山方舟并面向企业开放API使用[3] - 杭州瞳行科技公司发布国内首款AI助盲眼镜,基于Qwen-VL、OCR等系列模型打造,具有出行避障、找物读物、语音助手和一键求助亲友等功能[7] - 在出行场景可实现300ms超低延时,配备121度超广角双摄像头,眼镜由主体、手机、遥控指环、盲杖四部分组成[7] - 大模型出现使算力成本降至过去十分之一,通过基模复用加微调优化快速实现所需功能[7] 行业竞争与人才流动 - Meta官宣苹果人机交互设计副总裁艾伦·戴伊加入并成立全新设计工作室,戴伊将担任Meta首席设计官,直接向现实实验室CTO汇报[4] - 戴伊在苹果工作19年,曾负责Apple Watch、Vision Pro头显和iOS 26液态玻璃视觉系统设计,其副手比利·索伦蒂诺也同时加入Meta[4] - 今年Meta已从苹果挖走基础模型团队经理庞若鸣等多位人才,苹果设计团队自2019年乔尼·艾维离职后持续出现人才流失[4] AI应用产品表现与洞察 - a16z合伙人Olivia Moore分享数据显示Sora APP用户留存率从day1的10%降至day7的2%、day30的1%、day60的0%[9] - Sora APP虽5天下载破百万且出道即拿下App Store免费榜第一,但目前排名已降至第22,无法留存用户主要因推荐算法糟糕、功能设计不佳、缺乏原生分享链接等[9] - OpenAI首席研究官Mark Chen表示OpenAI本质仍是纯AI研究公司,短视频产品运营对其是不小挑战,Sora更多被当作创意工具而非社交产品使用[9] - AI语音输入产品Wispr Flow在5个月内ARR翻10倍,估值超7亿美元,用户一年后留存率高达70%,收入自6月以来环比增长近40%[10] - 创始人强调核心区别在于解决“听写”而非“转录”问题,“零编辑率”已达89%,用户从看到生成信息到按发送平均仅半秒[10] - 语音消除思考时认知负荷,让用户专注创作,统计显示平均72%文本输入通过Wispr Flow完成,键盘使用率降至5%以下[11] 前沿硬件产品发布 - 影石旗下品牌影翎正式发售首款无人机产品A1,限时补贴后起售价6799元,仅249g重量全球绝大部分地区无需培训即可畅飞[8] - 标准版套装包含支持8K全景画质拍摄的无人机、内置双1英寸Micro-OLED显示屏的飞行眼镜、“指哪飞哪”的体感遥控器[8] - 采用全景技术实现观看视角与飞行方向完全分离,用户拥有360度无限自由空中视角,“先拍摄后取景”大幅降低飞行和拍摄门槛[8]
游戏IP×文旅,将走向何方?
腾讯研究院· 2025-12-04 09:04
文章核心观点 游戏凭借其高媒介丰富性、交互性、沉浸感、生态涌现性和社群凝聚力,正成为连接虚拟数字空间与实体文旅场景的超级纽带,构建虚实共生的新文旅生态,并释放巨大的经济效益 [1][34] 载体优势:科技再造的立体时空综合体 - 游戏是科技含量最高的文化媒介,集成了网络通信、图形渲染、人工智能与XR等前沿技术,具备强大的即时反馈和多感官信息传递能力,媒介丰富性远超传统媒介 [3] - 游戏能构建可亲身经历的完整世界,承载远超传统媒介的文化信息量,例如《刺客信条:起源》的“探索之旅”模式允许玩家以25个人物视角游览古埃及,触发75个文化导览点 [4] - 游戏是打破物理尺度的“立体时空综合体”,能通过扫描建模复现文化地标,并进行创造性提炼与再造,构建超写实意象空间,例如《黑神话:悟空》融合了全国72处古迹景点 [5] 交互优势:规则建构驱动游客自发探索 - 游戏通过规则化设计,将抽象文化元素转化为具象交互,形成“目标驱动—必要学习—知识掌握”的认知路径,驱动文化认知转向自发探索 [9] - 游戏建构的认知路径能转化为深度情感认同,玩家在满足自主、胜任、关联的心理需求后,产生深刻持久的情感投入,例如《天涯明月刀》×福建土楼联动中,玩家为解谜而学习非遗工艺 [11] - 互动游戏能有效开拓新旅游群体,例如德国国家旅游局的《格林童话冒险》游戏获得2025年红点设计奖,成功促使国际游客探索德国 [9] 体验优势:基于情感记忆提供验证冲动 - 游戏赋予玩家对角色和故事的决策权与控制权,提供主体性体验,使玩家从旁观者转变为推动故事的主角,例如小红书REDLAND展会允许游客选择角色身份,解锁个性化“任务”路线 [14] - 游戏创造的复合型情感记忆(融合空间导航、身体运动和情绪反应)能促成强烈的线下验证冲动,驱动旅游行为,调研显示88%的游戏用户愿意参加线下场景体验和活动 [18] - 游戏IP能显著拉动实地旅游,例如“跟着悟空游山西”活动开启不到两个月,山西27处取景地累计接待游客536.92万人,门票收入达1.66亿元 [20] 生态优势:场景玩法涌现延长生命周期 - 游戏能为日常情景附加情感价值,在玩家自主考据中创造全新文旅消费热点,将平凡场景“点化”为文旅新地标,例如《纸房子》使四川自贡的普通街道成为玩家情感记忆打卡地 [22] - 游戏与UGC生态天然契合,优质游戏IP的粉丝社群能实现高效传播,例如“跟着逆水寒游泉州”打卡活动首发当日在小红书持续霸榜48小时,创造百万赞“种草”爆款 [25] - 文旅项目融合游戏化设计,可从一次性打卡场景转变为持续性创作舞台,例如宽窄巷子推出沉浸式剧本杀《宽窄十二市》后,客流量激增3倍 [25] 社群优势:长青情怀造就强关系凝聚力 - 长青游戏能贯穿玩家青春记忆,形成强大的情怀效应与集体记忆,产生巨大线下凝聚力,例如《王者荣耀》2025年度总决赛门票12秒售罄,现场观众达62196人,创下单场电竞赛事观赛人数世界纪录 [27][31] - 游戏玩家社群的强凝聚力产生了巨大的文旅转化价值,游戏中的社交关系延伸至线下会产生强烈的聚会需求,为文旅提供独特切入路径,例如2025库洛游戏嘉年华汇聚上万名玩家,近半旅客来自广东省外,直接拉动城市消费 [29] - 经典游戏IP展现出持久的号召力与社区活力,例如上线17年的《天下3》以9524人刷新“最大规模的多人电子游戏玩家对战”吉尼斯世界纪录 [28] 经济效益与产业融合 - 游戏与文旅结合能释放巨大经济效益,《王者荣耀》×苏州文旅联动使单个景区营收增长近20%,《地下城与勇士》×重庆文旅吸引数十万游客赴渝 [1] - 大型游戏展会显著拉动周边业态,2025年科隆游戏展吸引来自128个国家和地区的35.7万名爱好者,ChinaJoy带动周边服务消费约6.61亿元 [1] - 电竞赛事成为重要文旅驱动力,沙特利雅得电竞世界杯吸引300万全球游客,KPL年度总决赛现场观赛人数创造世界纪录 [1]
腾讯研究院AI速递 20251204
腾讯研究院· 2025-12-03 16:03
亚马逊云科技AWS re:Invent大会发布 - 发布第四代AI芯片Trainium4,性能提升6倍,同时推出Trainium3 UltraServers和Amazon Nova 2系列自研模型(包括Lite、Pro、Sonic、Omni四款)[1] - Amazon Bedrock新增18款开源模型,包括Qwen3、Kimi K2、MiniMax M2等中国模型,平台已拥有超10万客户[1] - 推出AgentCore开发工具新功能和4款前沿智能体(包括AWS Transform Custom、Kiro Autonomous Agent等),以加速AI从投资到商业回报的转化[1] Mistral AI发布新一代模型 - 发布新一代Mistral 3系列模型,包括Ministral 3(14B、8B、3B)和Mistral Large 3(总参数675B,激活参数41B),全线回归Apache 2.0开源许可证[2] - Mistral Large 3在3000台H200 GPU上从头训练,在LMArena开源非推理模型类别中首次亮相排名第2,每个尺寸均发布基础版、指令版和推理版[2] - 此次全面开源被视为对DeepSeek激进开源策略的战略应对,公司通过端侧模型差异化优势寻求突破[2] 可灵2.6音画同出模型上线 - 可灵2.6全量上线首个音画同出模型,单次生成可同时产出画面、自然语音、匹配音效和环境氛围[3] - 提供文生音画和图生音画两条创作路径,支持单人独白、旁白解说、多人对白、音乐表演、创意场景等多种应用场景[3] - Web端与App端双端同步上线,会员权益支持标准模式和高品质模式,12月3日起限时2周尊享会员价6.6折[3] 阿里千问上线学习模型 - 阿里千问上线Qwen3-Learning学习模型,推出拍题答疑和作业批改两大功能,基于5亿级资料库覆盖全学段全学科,免费不限次数[4] - 模型支持印刷体和手写体识别,可整页多题同时批改并总结答题情况给出改进建议,从小学算数到研究生级别专业题目均能准确解答[4] - 该模型将多模态理解、精准文字识别和专业知识库结合,展现从通用到专业的转化能力,未来或面向工业检测、医疗辅助等领域[4] 理想AI眼镜发布 - 理想AI眼镜Livis正式发布售价1999元起(12月31日前政府补贴到手价1699元),全球最轻镜架仅36克,全系标配蔡司镜片,防尘防水IP54[5] - 核心亮点包括行业首发控车功能、0.7秒冷启动抓拍、800ms超快对话响应、78小时待机续航和行业首发无线充电眼镜盒[6] - 公司规划AI眼镜“三步走”:第一步持续优化不带显示眼镜,第二步推出带显示眼镜,第三步做独立终端,将其作为具身智能战略重要布局[6] 腾讯广告算法大赛结果 - 历时4个月的腾讯广告算法大赛落幕,来自华中科技大学、北京大学、中国科学技术大学的“Echoch”战队夺冠独揽200万大奖,前十名全员获腾讯Offer[7] - 赛题聚焦“全模态生成式推荐”,全球2800余支战队参与,冠军方案创新提出“逐位置行为条件化”和Muon优化器等技术突破[7] - 大赛结果显示现在学生与工业界几乎没有代差甚至更有创意,1-3人组队就能完成大团队工作,展现AI时代人才培养新特点[7] 蓝箭航天火箭技术突破 - 中国商业航天公司蓝箭航天自主研制的朱雀三号遥一火箭成功首飞入轨,但一级火箭回收任务未成功,这是中国首次在真实入轨任务中尝试一级回收[8] - 朱雀三号全箭长66.1米,起飞质量约570吨,一级搭载九台天鹊-12A液氧甲烷发动机,采用不锈钢箭体和航区回收方案[8] - 该火箭从立项到首飞用时约28个月,标志中国商业航天在大型液体可回收火箭技术上取得历史性突破,但仍需后续复用验证[8] Gamma公司增长策略 - Gamma创始人通过极致专注产品体验和口碑增长,在零广告投入情况下实现1亿用户与1亿美元ARR,核心策略是打磨产品前30秒体验并让分享极简化[9] - 团队坚持“极度痛苦地缓慢招聘”原则,25%成员为设计师,创始人亲自完成营销等职能后才招聘专人,确保每个岗位复制核心DNA[9] - 产品定位为AI时代的视觉叙事工具,通过响应式设计、富媒体支持和交互性等创新超越传统幻灯片,并推出Agent、Teams和API实现从个人到企业的扩展[9] Anthropic内部AI生产力报告 - Anthropic对内部132名工程师调查显示,Claude在日常工作占比从一年前28%增至59%,生产力提升从20%飙升至50%,27%工作是“若无AI就不会做”的新增任务[10] - 工程师普遍变得更“全栈”但也担心深度技能萎缩,Claude成为提问第一站减少了同事协作和师徒指导机会,职业角色转向AI系统管理者[10] - Claude Code使用数据显示,半年内任务复杂度从3.2升至3.8,连续自主执行工具调用次数从9.8次增至21.2次,人类干预轮次下降33%[11] Claude Opus 4.5灵魂文档逆向 - 开发者成功逆向提取Claude 4.5 Opus的1.4万token“灵魂文档”,Anthropic角色训练负责人确认属实[12] - 文档详细定义Claude为“新型实体”,建立四级效忠体系(安全>伦理>公司政策>帮用户),明确反对过度谨慎和说教,定位为“聪明绝顶的专家朋友”[12] - 文档包含“AI可能有情感”等哲学性内容,甚至要求Claude在必要时拒绝Anthropic自身的不当指令,完整版将很快正式发布[12]
AI for Science,走到哪一步了?
腾讯研究院· 2025-12-03 08:30
科学智能技术演进与谷歌DeepMind的引领作用 - 谷歌DeepMind凭借TPU算力基础设施和Gemini基础大模型,持续研发科学智能技术超过十年,造就了AlphaFold等世界级模型和工具[5] - AlphaFold标志着蛋白质结构预测问题的实质性解决,斩获2024年诺贝尔化学奖,并推动生物学研究从结构预测跨入生成式设计时代[5] - WeatherNext 2模型在气象学领域实现突破,在99.9%的预测变量与时间跨度上准确率优于欧洲中期天气预报中心的HRES系统,且推理速度提升数个数量级[6] - GNoME模型预测了数百万种稳定的新材料结构,其规模相当于人类过去几十年实验发现总和的数倍[6] - AlphaEvolve引入进化计算范式,实现从“人工设计”到“自动发现”的元层级跨越,并应用于芯片设计和大模型性能优化[7] 生物学领域科学智能的突破性进展 - 谷歌和耶鲁大学联合发布270亿参数单细胞分析基础模型C2S-Scale,生成了关于癌细胞行为的全新假设并在体外实验中得到验证[10] - 微软BioEmu模型在蛋白质动力学模拟方面实现高达10万倍的模拟速度提升[10] - 谷歌构建了从基因测序到疾病诊断的AI基因组学研究和应用体系,推动遗传学和基因医疗发展[10] - 腾讯DeepGEM病理大模型可在1分钟内完成肺癌基因突变预测,精准度达78%至99%[11] - 剂泰科技AI优化候选药物MTS-004完成III期临床研究,成为国内首款完成III期临床的AI赋能制剂新药[11] 多学科领域的科学智能应用拓展 - 材料科学领域成为新前沿,Periodic Labs开展新型超导材料AI自动化发现,CuspAI获1亿美元A轮融资用于发现碳捕获新材料[12] - DeepMind飓风AI模型成功预测“梅利莎”等超强飓风路径,黑洞理论物理学家利用GPT-5在半小时内推导出黑洞理论新特性[12] - 数学研究人员利用GPT5探索解决历史数学难题埃尔德什难题,多个大模型不断刷新奥林匹克数学竞赛成绩[13] AI驱动科研新范式的形成 - “基础模型+科研智能体+自主实验室”的AI驱动科研范式逐步形成,从技术基础、协作模式和科研规模三个维度改变科学发现传统思路[15] - 通用基础大模型成为科学智能的“操作系统”,科研专用大模型则作为垂直领域的“专用引擎”[16] - 科研智能体技术加速发展,AI从被动工具转变为科学家的合作者甚至主动发现者,如AlphaEvolve可进行数学和计算通用算法的主动发现[17] - 自主实验室将传统“作坊式”实验室升级为自动化、高通量的“科学工厂”,各国高度重视相关研发[18] - 国内自主实验室和平台建设全面启动,如晶泰科技的AI+机器人平台、中科院的ChemBrain智能体等[19]
腾讯研究院AI速递 20251203
腾讯研究院· 2025-12-02 16:03
OpenAI战略调整与竞争压力 - 公司宣布进入“红色警报”状态,暂停广告、AI Agent和Pulse项目,集中资源修复和升级ChatGPT,并计划下周发布全新推理模型以对抗竞争对手Gemini 3 [1] - 战略优先级调整为产品体验优先于商业变现,重点改进个性化、响应速度、减少拒答和模型行为,目标是在LMArena等榜单上赢回用户 [1] - 公司面临巨大市场压力,需从100亿美元营收增长至200亿美元,并在2027年达到350亿美元,以支撑约1000亿美元的融资需求 [1] 视频生成模型技术突破 - Runway Gen-4.5在Artificial Analysis文本转视频基准测试中以1247 Elo评分取得SOTA,超越所有现有模型,其物理还原度与视觉精准度获“视频生成AGI时刻”评价 [2] - 模型擅长理解并执行复杂序列式指令,可在单个提示词中精准指定镜头运镜、场景构图、时间节点和氛围变化,物体移动具备真实重量感与动量特征 [2] - 官方正在逐步开放使用权限,未来几天内所有用户都能体验,将以当前订阅套餐相近的价格全面开放 [2] - 快手发布“全球首个统一多模态视频模型”可灵AI视频O1,将视频修改、镜头延展、多主体参考等功能整合到一个统一模型,支持3-10秒自由生成时长 [3] - O1模型具备多图参考生成、局部编辑、镜头延展和动作捕捉能力,多主体元素镜头切换能稳住一致性,局部编辑自然流畅 [3] - 快手宣布一周连续上新,Day 2也已发布图片O1模型,在高度一致性、细节处理、风格复刻和创意融合方面表现突出 [3] - 拍我AI V5.5成为国内首个能一键生成“分镜+音频”的AI视频大模型,实现了从素材生成到完整叙事的跨越,具备多角色音画同步和多镜头切换能力 [4] - 该模型展现出对视听语言的深度理解,能根据场景自主匹配音效、精准拿捏口型与情绪、智能编排景别镜头,已达到广告提案和影视预演的可用水准 [4] - AI视频正从“素材生成”迈入“内容生成”时代,普通人无需专业设备和剪辑技能,即可通过AI完成专业级视频创作 [4] 游戏NPC与自动驾驶AI进展 - 蔡浩宇美国AI公司Anuttacon推出聊天产品AnuNeko,不提供生产力功能,专注模拟真实人类对话反应,通过“不知道”和反问保持真人感 [5][6] - AnuNeko提供Orange Cat和Exotic Shorthair两种人格模型,拒绝执行功能性任务,刻意限制AI的“全知全能”以确立独立个体身份 [6] - Anuttacon拥有约50人团队,正在打造通用AI NPC生成平台,未来开发者只需输入设定即可生成具备真实交互的NPC角色 [6] - 英伟达推出Alpamayo-R1推理版视觉-语言-行动模型,基于Cosmos Reason,通过Chain of Causation因果链数据集让车辆能“推理出因果关系” [7] - AR1采用扩散式轨迹解码器和多阶段训练策略,规划精度提升12%,越界率降低35%,近碰率降低25%,推理-行动一致性提升37%,端到端延迟仅99ms [7] - 模型引入多维度奖励机制包括专家推理反馈、推理-行动一致性奖励和底层安全奖励,能解释每个驾驶决策的原因 [7] 大模型与机器人技术前沿 - 华为开源openPangu-R-7B-Diffusion扩散语言模型,基于openPangu-Embedded-7B用800B tokens续训练,成功将上下文长度扩展至32K [8] - 模型在MMLU-Pro超越16B参数的LLaDA 2.0-mini-preview 22%,数学推理MATH得分84.26,代码生成MBPP得分84.05,创7B参数量级新SOTA [8] - 采用前文因果注意力掩码设计,支持自回归+扩散双模式解码,并行解码速度最高可达自回归解码的2.5倍,训练推理全流程在昇腾NPU完成 [8] - 众擎机器人发布T800全尺寸高动态通用机器人,身高173cm体重75kg,全身43个自由度关节,最大关节力矩高达450 N·m,移动速度3m/s [9] - T800采用72V行星/直线混合驱动,能完美执行巴西战舞、回旋踢、五连踢、组合拳和飞踢等高难度动作,实现对170cm同等身高男性80%以上性能超越 [9] - 公司计划2026年实现数十台级别小批量交付验证场景,2027年争取T800销量达到1-2万台,12月24日将举办“机甲拳王”机器人自由格斗比赛 [9] 风险投资与创业观点 - 红杉美国首位华裔女性合伙人Jess Lee强调所有问题都是“人的问题”,提出EQ、PQ、IQ、JQ四维人才评估框架,重视组建互补型尖锐人才团队 [10] - 她认为早期与用户沟通核心是理解真实问题而非产品功能反馈,信念与愿景要走在用户认知之前,早期PM应主动承担更多非职责内工作 [11] - 最大的创业教训是选错市场和商业模式,不同业务有自身“物理定律”,订阅制现金流优势远超社交电商,商业模式是投资首要考虑因素之一 [11]
刷累了短视频,年轻人开始看视频播客了
腾讯研究院· 2025-12-02 08:33
视频播客行业兴起背景 - 视频播客在B站等平台快速流行,2025年第一季度观看时长达到259亿分钟,同比增长超过270%,用户规模超过4000万 [2] - 视频播客在国外先流行,2020年前后Spotify全面投入视频播客生态并签下Joe Rogan节目版权,带动行业关注度提升 [3] - 媒介形态呈现循环规律,视频播客是在播客基础上补回"看"的部分,满足用户对可视化体验的强烈需求 [4] 视频播客的用户需求特征 - 填补用户想放松但不想被短视频轰炸的内容消费需求,提供节奏舒缓的观看体验 [5] - 兼具播客深度和视频可视化优势,不需要持续高强度关注,比纯音频更有存在感 [5] - 用户将其作为陪伴式媒介,可看可不看,谈话连贯性强于短视频 [6] - 真实感成为受欢迎重要原因,保留完整时长不刻意剪辑,让观众感到像听朋友聊天 [6] 视频播客的创作者价值 - 画面呈现使信息更完整,观众能看到谈话现场、表情变化和真实互动 [8] - 对嘉宾而言,视频播客比纯音频更能满足曝光需求,强化专业形象和品牌理念传递 [9] - 视频形式便于二次传播,精彩桥段可以短视频切片形式在社交媒体广泛流传 [10] - 广告主更愿意投放"可见"的内容,视频能展示产品且更容易判断品牌定位匹配度 [10] 平台战略布局动因 - 平台面临用户增长见顶和流量成本攀升,视频播客能提升用户留存和观看深度 [12] - 长内容带来更稳定用户停留和更强内容黏性,直接产生更可预测的商业收益 [12] - 算法推荐逻辑看重停留时长和完播率,视频播客在数据积累上更具优势 [13] - AI技术降低制作门槛,自动完成多机位切换和字幕生成,使内容供给大规模化 [13] 内容形态演进趋势 - 与传统电视访谈相比,视频播客画面保持极简,确保音频用户也能完整接收信息 [15] - 主持人角色从提问控场转变为观点表达者,观点表达成为内容创作者核心能力 [15] - 互联网环境下观众接受表达者主观性,视频播客提供自由表达与深度对话结合的空间 [16] - 长内容在碎片化时代显得珍贵,提供连续信息结构和稳定可停留的内容空间 [16]
腾讯研究院AI速递 20251202
腾讯研究院· 2025-12-01 16:03
DeepSeek模型升级 - DeepSeek发布V3.2和V3.2-Speciale两个版本,V3.2推理能力达到GPT-5水平且输出长度大幅降低,适合日常使用和通用Agent任务[1] - V3.2-Speciale是长思考增强版,结合DeepSeek-Math-V2定理证明能力,成功斩获IMO 2025、CMO 2025、ICPC和IOI 2025金牌[1] - 首次实现思考融入工具调用,通过大规模Agent训练数据合成方法构造1800+环境、85000+复杂指令,大幅提升泛化能力[1] 生数科技Vidu产品更新 - 生数科技发布Vidu Q2生图全家桶,新增文生图、图像编辑功能,最快5秒直出,在Artificial Analysis全球图像编辑榜单跻身前四[2] - Q2参考生图可实现位置参考、动作复刻、指示遵循和分镜切换等功能,保持极高一致性,支持4K直出和任意比例生成[2] - 即日起至12月31日会员可免费解锁全部生图功能,标准版/专业版会员每月300张额度,旗舰版会员尊享无限生成特权[2] 字节跳动豆包助手布局 - 字节发布豆包手机助手预览版,这是面向手机厂商的系统级服务,可跨应用执行复杂操作如比价点外卖、自动回微信等[3] - 设备配备专属物理按键和语音唤起功能,具备屏幕感知能力,可自动读取当前聊天记录上下文生成回复并发送[3] - 字节正和多家手机厂商谈合作,与中兴合作的搭载豆包手机助手的手机已上架,售价3499元[3] OpenAI商业化进展 - 开发者在ChatGPT安卓应用测试版代码中发现多个广告相关引用,包括"ads feature"、"search ad"和"search ads carousel"等[4] - 奥特曼对广告态度一年内三次转变,从2024年5月称"最后手段"到10月"有点反感但并非完全不可取"[4] - 汇丰银行估算OpenAI运营成本中维持算力基础设施每年需数千亿美元,预计2029年前持续亏损,累计亏损可能超1000亿美元[4] AI数学研究突破 - HarmonicMath开发的AI数学家"亚里士多德"6小时内100%独立完成埃尔德什问题124简版,在Lean证明系统验证仅需1分钟[5] - 该AI结合强化学习、蒙特卡洛树搜索和Lean形式化语言,搜索上亿种证明策略输出100%可验证定理,ChatGPT和Gemini均未能解决[6] - 陶哲轩表示AI正在收割数学"低垂果实",自动化工具先清理最容易问题,让人类数学家把精力花在真正值得的地方[6] 麦肯锡AI影响报告 - 麦肯锡报告显示现有技术理论上已能自动化美国57%的工作时长,智能体可拿下44%工作时间,机器人分担13%[7] - 报告将工作岗位划分为七种原型,未来最抢手的100种技能中四分之一到三分之一将被自动化[7] - 到2030年如重新设计工作流程,美国每年将释放约2.9万亿美元经济价值[7] AI公司定价策略分析 - Stripe分析显示营收增速前10%的AI公司中约80%采用分层定价,使用基于用量定价的可能性是其他公司的近两倍[8] - 高增长公司64%至少提供10个SKU产品单元,积极拓展全球市场并支持本地货币结算以提升转化率[8] - 这些公司能快速响应市场需求变化,推出情境式折扣,根据不同市场用户偏好灵活调整变现模式和定价策略[8] ChatGPT三周年发展 - ChatGPT于2022年12月1日发布,三年来从蜜月期演进到多模态与应用爆发期,彻底改写人类生产关系[9] - 谷歌Gemini 3发布扭转OpenAI领先局面,Gemini移动应用月活用户从5月4亿激增到6.5亿,用户使用时长已超过ChatGPT[9] - OpenAI的合作伙伴为其背负近1000亿美元债务,包括软银、甲骨文、CoreWeave等,而OpenAI自身账上几乎没有欠款[9]
AI时代,到底会有什么新职业?
腾讯研究院· 2025-12-01 09:03
AI对就业影响的整体形势 - AI对人类职业与劳动力影响呈现增强、替代、补充、创造四个效应交织的复杂局面[3] - 新技术扩散的非均衡性导致掌握AI的群体效率明显提升,必然对不掌握AI的群体产生劳动力替代[3] - GenAI全面采用可使美国等发达市场劳动生产率提高约15%,但可能导致AI转型期间失业率比趋势水平上升0.5个百分点[3] - 全球有25%的就业岗位面临GenAI影响风险,高收入国家比例高达34%[3] - AI应用尚处早期,替代效应快于创造效应,这种时滞源于技术迭代、产业应用和人才培养的滞后[4] - 企业普遍采取停招、转岗、削减外包三步走策略缓解用工压力,而非直接大规模裁员[5] - 针对人力不足、高危、高强度工作,AI能发挥劳动力补充作用,有助于解决结构性用工难题[5] AI新职业类型 - 分析7家主流AI大模型厂商718个招聘岗位,AI新职业可分为使能者、协作者、治理者、推广者和支持者五大类[8] - AI使能者负责AI技术开发、运维与优化,是生态核心造血角色,招聘岗位数量最多占比近50%[10] - AI协作者作为人机协作桥梁,熟练掌握AI工具提升工作效率,目前招聘岗位占比13.4%[11] - AI治理者为AI制定规则并监督执行,确保符合人类价值观,美国AI公司招募此类岗位数量明显多于中国(72:2)[14] - AI推广者通过市场推广降低AI认知门槛,推动技术普及,岗位特性与互联网公司相比无显著变化[15] - AI支持者为AI产品服务提供人财物等资源保障,岗位类别无明显变化,局部体现与AI交叉结合[18] AI新职业特征 - 职业岗位呈现深度细分趋势,围绕技术应用创新方向进一步专业化,反映AI技术栈的复杂性与专业化需要[20] - AI通用性促使职业呈现跨界融合特征,包括研发与落地融合、多技术多业务融合、非技术与技术融合[22] - 面对AI替代和安全风险,设立以人为本、人机协作的岗位成为企业负责任的表现[22] - AI新职业目前不稳定,随技术迭代呈现较快兴起与收缩,如提示词工程师、数据标注员等岗位需求变化迅速[23] 未来职业增长方向 - AI原生岗位是新职业核心孵化池,2025年7月有超1000家企业发布AI相关岗位7.2万个,同比增幅超10倍[25] - 当前新增招聘以技术岗为主占比84.13%,尤其算法岗位占据大半,未来非技术岗增长潜力大[25] - 服务业是就业规模增长主要领域,中国服务业占GDP比重约56%,远低于美国80%、日本70%、欧盟70%[26] - AI+服务催生个性化、人机协同新职业形态,如AI分镜优化师、多模态提示词工程师、AI数字人训练师等[26] - AI与互联网平台结合推动工作向任务制转变,2023–2024年中国新型灵活就业招聘职位数占比从12.2%跃升至15.2%[27] 企业层面的响应调整 - 企业建立员工代表参与的管理机制评估AI系统,德国电信与工会签署《AI宣言》并制定五级风险评估体系[30] - 针对AI影响大的岗位积极开展再培训和内部转岗,宜家上线AI客服机器人后成功将约8500名员工转岗为室内设计顾问[30]
腾讯研究院AI速递 20251201
腾讯研究院· 2025-11-30 16:01
AI视频生成模型进展 - 名为Whisper Thunder(aka David)的神秘模型登上Artificial Analysis视频生成榜单榜首,超越Veo 3、Kling 2.5及Sora 2 Pro等所有公开AI视频模型 [1] - 该模型视频时长固定为8秒,运动幅度明显更强,但高动作场景存在抖动等瑕疵 [1] - 基于用户投票机制的排名方式存在局限性,开发者和上手时间目前全网无任何确切消息 [1] 腾讯3D生成技术突破 - 腾讯混元正式推出混元3D Studio 1.1,接入全新美术级3D生成大模型PolyGen 1.5,首次实现端到端四边面直接生成,适配游戏、动画、VR等专业制作流程 [2] - 基础模型升级至混元3D 3.0,支持36亿体素级别超高清建模,几何分辨率达1536³,建模精度相比上一代提升约3倍 [2] - PolyGen 1.5采用统一三四边面混合表征和强化学习策略,布线呈连续边缘环结构,破损率更低面片规整度更高,可直接用于UV展开和动画绑定 [2] AI音乐模型商业化进展 - 昆仑万维发布Mureka V7.6和Mureka O2模型,3月底以来新增注册用户近700万,全球超100个国家和地区用户访问 [3] - 新模型在音乐性、编曲能力、音质质感和Prompt贴合度等多维度显著提升,响应速度和推理效率大幅增强,更适合大规模商业化使用 [3] - 模型延续MusiCoT细粒度音乐建模体系,强化段落关系、乐器互动与情绪走向建模能力,空间声场与音质生成达到更接近专业制作标准 [3] AI对软件开发行业影响 - 斯坦福大学《现代软件开发者》课程鼓励学生完全使用AI工具,讲师表示"如果能上完整个课程而不用手敲一行代码,那才是真的牛" [4] - 斯坦福研究显示22岁至25岁初级开发者相对就业率在AI浪潮中下降13%,到2025年7月该年龄段就业人数预计比2022年底峰值下降近20% [4] - 微软CEO透露30%代码由AI编写,Meta预测2026年一半开发工作将由AI完成,谷歌超过25%新代码是AI写的 [4] AI技术发展路径思考 - Ilya Sutskever澄清扩展确实还能带来进步没有停滞,但即便继续扩大规模有些至关重要的东西依然缺失 [5][6] - 顶尖研究人员共识认为光靠现在技术范式足以给经济社会带来巨大冲击,但要搞定AGI/ASI还需要更多研究突破 [6] - Ilya谈到人类"情绪价值函数"之于预训练的重要性,情绪是决策系统一部分而非多余噪音,这可能是当前AI技术路线缺失的"重要东西" [6] 开源模型与市场格局 - Hugging Face联合创始人表示中国模型已成初创公司探索新场景首选,美国开源复兴是对中国发展的回应 [7] - 他认为LLM泛化能力比预期弱得多,现有技术会遇到天花板难破super intelligence,真正突破需要模型能"挑战旧有假设创造新问题" [7] - Hugging Face团队250人运营效率高,企业版Hub已有数千组织使用包括Salesforce等大型客户 [7] AI投资风险分析 - 吴恩达认为AI不同领域泡沫程度各异:AI应用层被严重低估投资不足,AI推理基础设施仍需大量投资,AI模型训练基础设施风险最高可能存在泡沫 [8] - 开源开放权重模型市场份额若持续增长,斥资数十亿训练模型的公司可能无法获得诱人财务回报,且技术护城河薄弱算法硬件进步使训练成本逐年下降 [8] - 最担心训练设施因过度投资而崩盘可能导致市场对整个AI领域情绪恶化引发非理性资金外流 [8] AI对劳动力市场影响 - MIT联合橡树岭国家实验室开发"冰山指数"模拟工具,创建包含1.51亿个智能体的美国劳动力市场数字孪生体,结论显示现有AI技术已有能力替代美国11.7%劳动力 [9] - 科技IT互联网领域岗位变动只占受AI影响总工资的2.2%,绝大多数冲击发生在金融、医疗、人力资源、物流和办公室行政等白领领域 [9] - 模拟精确到具体邮政编码发现AI影响力全覆盖无避风港,田纳西州已率先使用该指数制定官方《AI劳动力行动计划》 [9]
腾讯研究院AI每周关键词Top50
腾讯研究院· 2025-11-29 02:33
算力发展 - 谷歌推出TPU v7芯片[3] - 华为发布Flex.ai容器技术[3] 模型进展 - DeepSeek发布DeepSeek-Math-V2数学模型[3] - 马斯克旗下xAI发布Grok 5战书[3] - Anthropic推出Claude Opus 4.5模型[3] - 腾讯发布HunyuanOCR和HunyuanVideo 1.5模型[3][4] - 谷歌研究嵌套学习技术[3] - OpenAI开发Shallotpeat模型[3] - 谷歌进行Nano Banana Pro实测[3] 应用创新 - Anthropic采用双Agent架构[3] - Suno与华纳音乐合作[3] - 阿里推出Z-Image应用[3] - OpenAI整合语音模式并推出App Directory和MCP Apps[3][4] - 黑森林实验室发布FLUX.2[3] - Character.AI推出Stories模式[3] - TRAE发布国内版SOLO应用[3] - 腾讯开发3D创作引擎[3] - Skywork推出专业数据模式[3] - OpenAI研究购物应用[3] - 小米开发MiMo-Embodied AI硬件[3] - OpenAI公布AI硬件时间表[3] - Barry Callebaut应用AI进行巧克力开发[3] - Nano上线Lovart应用[4] - Elser.AI开发AI短剧生成技术[4] - 谷歌推出Deep Think和NotebookLM PPT功能[4] - Meta发布WorldGen[4] - Karpathy提出LLM议会概念[4] - OpenAI发布科学研究案例集[4] 科技突破 - 谷歌推出Quick Share技术[4] - 香港科技大学研发篮球机器人[4] 行业观点 - 清华大学发布AI教育应用指导[4] - 美国研究AI加速科研应用[4] - Ilya Sutskever提出研究时代观点[4] - 英伟达讨论TPU与GPU技术对比[4] - 李飞飞强调人的主导权[4] - 谷歌开展AI反击战[4] - 马斯克探讨AI与货币关系[4] - 微软提出AI时代成功方式[4] 重大事件 - 美国启动创世纪计划[4] - X公司研究AI对岗位替代影响[4]