Workflow
腾讯研究院
icon
搜索文档
腾讯研究院AI每周关键词Top50
腾讯研究院· 2025-12-20 02:33
芯片领域动态 - 谷歌推出TorchTPU芯片 [3] - 苹果研发AI服务器芯片 [3] 大模型与算法进展 - 谷歌发布Gemini 3 Flash模型 [3] - 字节跳动发布Seed1.8模型 [3] - 小米发布MiMo-V2-Flash模型 [3] - 英伟达发布Nemotron 3模型 [3] - OpenAI研究Circuit-Sparsity模型稀疏化技术 [3] - Thinking Machines发布Tinker模型 [3] - OpenAI可能正在开发GPT-5.2模型 [3] - OpenAI建立科学能力基准 [4] AI应用与产品发布 - OpenAI计划推出ChatGPT应用商店 [3] - 阶跃星辰发布Step-GUI应用 [3] - xAI为Grok推出Grok Voice功能 [3] - 行业在开发Agent API [3] - 苹果规划AI眼镜产品 [3] - OpenAI推出ChatGPT Images功能 [3] - Meta发布SAM Audio应用 [3] - 腾讯发布混元世界模型1.5 [3] - Vidu发布Vidu Agent应用 [3] - 谷歌推出Super Gems应用 [3] - 腾讯元宝推出写作模式 [3] - 通义万相推出角色扮演功能 [3] - 字节跳动发布Seedance 1.5 pro应用 [3] - 长安汽车与北汽集团推进L3级自动驾驶 [3] - Manus发布Manus 1.6应用 [3] - 谷歌推出NotebookLM应用 [3] - 通义发布Fun语音模型 [4] - Zoom推出Zoom AI功能 [4] - 行业出现医学版ChatGPT应用 [4] - Gemini推出Deep Research Agent [4] - Runway发布GWM-1应用 [4] - 谷歌将翻译功能融合进Gemini [4] - 拓竹科技与混元合作推出「印你」应用 [4] - 宇树科技推出机器人应用商店 [4] 前沿科技与行业观点 - Harmonic研究Erdos1026问题 [4] - 风险投资机构a16z提出AI泡沫判断标准 [4] - OpenAI研究记忆系统 [4] - 谷歌研究递归自我改进技术 [4] - 多款AI模型面临“AI手指”生成难题 [4] - 媒体披露OpenAI的Sora模型开发内幕 [4] - 行业关注AI生成的成人内容市场 [4] - DeepMind对AGI(通用人工智能)到来做出预测 [4] - 数据分析公司Similarweb揭示AI用户趋势 [4] - OpenAI与迪士尼探讨合作 [4]
“作品灵魂的关键在于作家本身,AI永远无法替代优秀作家”|破晓访谈
腾讯研究院· 2025-12-19 09:12
文章核心观点 生成式人工智能正在深刻变革文化产业,引发全行业对价值链、商业模式与内容生态重塑的思考[2] 网络文学作为重点领域之一,其发展路径体现了GenAI作为强大辅助工具在赋能创作、提效IP开发等方面的巨大潜力,但行业的核心竞争力与价值源泉始终在于人的创意、情感与精品化导向,AI无法替代优秀作家的灵魂与个性表达[6][7][8] 目前GenAI在网络文学领域的应用环节与工具 - 公司已推出覆盖创作到IP改编全链路的AI助手,包括作者助手“妙笔通鉴”、漫剧助手和版权助手,核心功能是辅助创作与提升效率[9] - “妙笔通鉴”为作者提供从世界观设定、错别字检查到人物关系梳理等全流程辅助,并能通过对话激发创作灵感,面向全体作家开放[9] - 漫剧助手是一套基于AIGC的生成工作流系统,能辅助拆解作品大纲、总结章节、整理人物小传,基本覆盖漫剧行业标准流程,提升编剧效率[10] - 版权助手支持作品资料展示,并能快速抽象出故事大纲、人物关系、核心冲突等关乎作品独创性的关键要素,帮助作者梳理内容卖点[10] - 公司推出的AI助手对作品的理解能力及生成内容的辅助效能均高于行业平均水平[10] GenAI对网络文学作家生态与创作结构的影响 - 未来网文生态结构可能更趋近于“橄榄型”,而非金字塔型,即中间具备一定质量水准的作品数量会因AI辅助而快速扩大,但底层低质内容和顶层头部作品规模相对较小[12] - AI作为“辅助轮”,主要作用是壮大和优化“中腰部”作家群体,帮助他们补足创作短板,使叙事表现更趋完善[6][13] - 冲击头部阵营依然依赖于作家自身的天赋、创造和努力,创意产业本质上是天赋驱动,难以通过AI实现作品的普遍升维[6][13] - 文学的本质是个性化情感表达以引发共鸣,当前AIGC生成的内容仍难以具备人类作家自然且富有情感的感染力,作品灵魂的关键在于作家本身[11] 文字创作与视频创作的关系及网络文学形态演进 - 文字创作与视频创作在表现形式、载体、渠道和受众群体上存在结构性本质差异,两者“完全融合”或“完全合一”的可能性极低[6][13] - 文字通过激发读者想象构建精神世界,视频则由外向内直接呈现内容,限缩想象空间,因此文字小说仍将作为独立形态持续存在[13] - 网络文学与AI短剧、漫剧的联动与融合非常快速,证明网络文学可能向以文字为核心、融合多模态元素的增强形态演进[6][15] - 未来多模态表达可能成为网络文学重要特征,例如在文本中插入AI生成的短视频、加入音效或嵌入可视化面板等[15] - 网文领域培养的大量内容人才中,会有相当一部分人转向视频创作并成为中坚力量,当前漫剧与短剧行业超过半数的创作者源自网文领域,但这不意味着所有作家都会成为“视频作家”[14][15] GenAI对网络文学IP开发与运营的影响 - GenAI是赋能网文IP视觉化、释放大量作品潜在价值的革命性工具,解决了传统改编模式“产能不足”的核心痛点[7][16] - 技术显著降低了视觉内容制作门槛,为众多长期排队等候或久未开发的网文作品提供了视觉化机遇,视觉内容在用户覆盖与传播穿透力方面具有显著优势[16] - 在IP开发中,人的艺术眼光和商业匹配度决策是永远的核心,AI无法替代人类对内容创造性、独特性的评价,也无法对其市场价值进行前瞻性判断[7][17] - AI可以作为辅助内容管理工具深化应用,用于网文IP潜力预估、选题辅助以及内容监测、数据跟踪等领域,但作品IP价值取决于多种因素,难以公式化计算[7][17] 当前AI内容的质量评估、用户接受度与行业导向 - 当前AI仍处于通用人工智能早期阶段,主要依赖对已有内容的总结归纳,缺乏前瞻性与创造性预判,尚不具备识别作品个性与创新特质的能力[18] - 文化产业的核心竞争力在于精品化和个性化,而非标准化和效率最大化,更应投入时间精心打磨作品质量,满足读者对高质量故事和情感连接的深层需求[8][18] - 大量低质AI内容的生产会对用户产生驱赶效应,文学作品需要满足用户的“期待视野”[19] - 当前用户对AI创作内容的接受度呈现阶段性差异,部分用户存在明显心理障碍,期望阅读来自有情感作家的创作;更多用户主要关注故事本身,可能未意识到内容由AI生成,但其行为(如不评论、直接划走)反映了对质量不足内容的自然选择[20] GenAI为网络文学出海带来的新机遇 - 视觉化是网络文学出海的重要方向,视觉内容在渗透海外市场方面具有显著优势,能触达规模远超阅读人群的非阅读人群[21][22] - 网络文学的核心优势在于丰富的故事储备和成熟的创作者生态,可通过IP授权输出文字作品,并借助视觉化转型扩大受众[22] - AIGC内容支持实时编辑调整,通过持续测试和优化,能为不同用户群体提供定制版本,其强大的批量修改能力可大幅提升内容本地化效率[22]
腾讯研究院AI速递 20251219
腾讯研究院· 2025-12-18 16:01
生成式AI 一、谷歌联手Meta让TPU支持PyTorch,挑战CUDA护城河? 1. 谷歌推进代号"TorchTPU"战略行动,让PyTorch在TPU芯片上流畅运行,消除开发者迁移门槛,并考虑将部分软 件开源; 2. 谷歌与Meta商讨合作协议,让Meta获得更多TPU使用权,Meta通过推动软件适配TPU降低推理成本并减少对英 伟达依赖; 3. 华尔街分析师认为CUDA是英伟达最坚固盾牌,谷歌过去依赖内部Jax框架"圈地自萌"拉大了与外部客户实际使用 习惯的鸿沟。 https://mp.weixin.qq.com/s/0E230ylybz8YYflQDAxSQw 二、ChatGPT 版应用商店正式上线,通过「@ 应用名」触发 1. ChatGPT应用商店正式推出,按精选、生活方式、工作效率等分类列出Adobe Photoshop、Canva、Figma等应 用,用户通过"@应用名"触发; 2. 开发者可在OpenAI开发者平台提交应用审核发布,OpenAI提供完整资源体系包括最佳实践指南、开源示例应用、 UI库和测试阶段的Apps SDK; 3. OpenAI计划以约7500亿美元估值筹集新一轮资金,最 ...
十年谣言治理之路:从信息净化到信任重构2015-2025|腾讯新闻较真十周年谣言治理白皮书
腾讯研究院· 2025-12-18 12:21
文章核心观点 - 报告系统回顾了2015至2025十年间中国网络谣言生态的演变历程,揭示了谣言在形态、传播渠道、生产动机及公众认知方面的阶段性变迁 [13] - 面对AIGC技术带来的“概率真相”挑战,传统的“事后辟谣”模式已难应对,行业需构建“主动免疫”的下一代辟谣体系,从技术、生态和公众素养三个维度提升社会整体对不实信息的抵御能力 [9][118] 十年谣言生态演变 - **第一阶段(2015-2019)**:谣言以食品安全、健康养生等“伪科学”内容为主导,具有“小切口、高频次、强关联”特点,主要通过图文和“震惊体”文章在熟人社交圈传播,辟谣工作侧重于基础科学常识的普及 [20][22] - **第二阶段(2020-2022)**:重大公共卫生事件使谣言焦点转向国家政策、公共卫生等“宏大叙事”,短视频成为主流形态,其直观性和强感染力使得谣言的传播速度与破坏力达到顶峰 [23][26] - **第三阶段(2023-2025)**:AI技术深度介入内容生产,谣言焦点回归经济、民生等多元领域,并可通过深度伪造技术制作高度拟真的音视频,鉴别难度极大提升,信息生态进入“概率真相”时期 [27][28] - **生产动机演化**:谣言生产从早期的情绪宣泄和非理性恐慌,转向以流量变现为核心的商业目的驱动,在AI时代,经济利益驱动占比高达71%,呈现出明显的产业化趋势 [34][36] - **传播形态升级**:谣言形态从早期的文本、图文,演进到短视频主导,最终在AIGC推动下走向智能化、跨模态原生造假,传播策略也日益专业化,出现“伪权威、伪逻辑、伪科学”的“三伪”手法 [31][32][33] 传播方式与公众认知变迁 - **传播渠道革命**:经历了从门户网站、微博的“文本与弱关系链”扩散,到社交媒体“强关系圈层”传播,再到短视频平台“算法裂变”,最终迈向AIGC带来的“裂变式、精准化、多元化”挑战的深刻转变 [13][46][56] - **公众心态三阶段变化**: - **2015-2019**:生活焦虑驱动,在食品安全、健康等领域,“宁可信其有”的心理导致信息判断滞后于情绪反应,熟人信任链降低了甄别阈值 [58] - **2020-2022**:重大公共事件下产生“信息饥渴”,公众分享行为更谨慎,但对官方和专家信源的依赖增强,也给冒充权威的谣言提供了空间 [59] - **2023-2025**:AI伪造内容动摇了“眼见为实”的传统认知,公众需要付出额外思考成本来判断信息真伪,部分用户开始尝试使用技术工具辅助验证 [60][61] - **公众谣言辨识能力画像**:基于对1181名网民的调研,整体辨识能力较强,87.56%的受访者答对半数以上题目,但对健康类谣言的判别能力最薄弱,有55.63%的受访者得分偏低 [62][63] - **信息应对模式**:近半数(47%)网民属于“主动查证”型,是主流群体,但仍有9%的网民属于“相信并扩散”型,健康类信息中,有18%的人会未经核实就主动向身边人分享,成为重要扩散节点 [73][76] 辟谣策略与生态演进 - **治理主体多元化**:从早期平台独立探索(如腾讯新闻较真平台2015年成立),发展为“监管+平台+社会”多方协同的治理生态,例如中国互联网联合辟谣平台于2018年上线 [91][94] - **辟谣技术三阶段跃迁**: - **1.0人工核验时代**:依赖专家智库进行专业事实查证,以图文辟谣文章为主要形态 [99][100] - **2.0工具赋能时代**:引入算法识别能力与大数据,通过H5、小程序等多种产品形态提升辟谣覆盖与效率 [101] - **3.0智能进化时代**:AI技术驱动实时识别与闭环治理,例如腾讯的较真AI能将查证效率提升90% [14][104] - **辟谣效能量化评估**:通过构建“辟谣社会价值评估模型”量化辟谣效果,数据显示在疫情期间,辟谣内容使社会恐慌情绪降低了36.5%,有效对冲阻断谣言传播达54.5%,舆论对辟谣治理行为的整体认可度达69.3% [108][109] - **“预辟谣”策略有效性**:政策类谣言因高关联公众利益且可证伪,适合“预辟谣”,长期治理已使公众形成免疫力,例如2025年调研显示,高达92%的受访者不相信“扫码领五险一金补贴”的传闻 [110][112] 未来挑战与应对策略 - **五大未来挑战**: 1. **AIGC内容规模化冲击**:AI降低了虚假信息生产门槛,支持常态化、批量化的“内容农场”式生产,辟谣工作需从“应对偶发”转向“抵御洪流” [120][121] 2. **多模态内容鉴别难关**:深度伪造(Deepfake)等音视频内容逼真度极高,挑战人类感官信任,而鉴别技术存在追赶生成技术的“代差” [122] 3. **事实核查“时间差”困境**:虚假信息传播速度比真相快六倍,具有天然“先发优势”,辟谣常陷入“事后补救”的被动局面 [122][123] 4. **跨平台与私域传播隐蔽性**:虚假信息向微信群等私域空间迁移,传播路径复杂、来源隐蔽,传统事实核查难以有效触达 [124] 5. **用户认知惰性与辟谣疲劳**:公众存在认知惰性,易接受简单煽动的内容,同时海量信息导致“辟谣疲劳”,可能引发对所有信源的不信任 [125] - **三大应对策略体系**: 1. **搭建智能辟谣系统**:利用AI技术实现海量信息实时监测与风险评分,并研发针对多模态内容的鉴别工具(如区块链溯源、AI水印)以构建“事前预警”能力 [127] 2. **构建全链路信息信任生态**:扩大跨领域权威机构合作以提升核查公信力,同时优化用户举报反馈机制,将公众转化为信息生态的第一道防线 [129] 3. **推广媒介素养教育**:针对不同群体(如青少年、老年人)定制化、趣味化地开展教育,从澄清事实延伸到普及信息鉴别方法论,培养公众的批判性思维 [130]
腾讯研究院AI速递 20251218
腾讯研究院· 2025-12-17 16:01
行业核心动态:AI模型与产品密集迭代升级 - OpenAI推出全新图像生成模型ChatGPT Images,图像生成速度提升4倍,API价格比前代降低20% [1] - Meta开源音频分割模型SAM Audio,支持文本、视觉和时间跨度提示,在超过1亿条视频上训练,运行速度快于实时处理 [2] - 小米开源大模型MiMo-V2-Flash,总参数3090亿,活跃参数150亿,在SWE-bench Verified得分73.4%超越所有开源模型 [3] - 腾讯混元世界模型1.5开源,支持创建实时交互3D世界,以24FPS速度生成720P高清视频 [4] - 谷歌在Gemini中深度整合Opal工作流,推出Super Gems功能和新工作流构建器 [7] - OpenAI发布专家级科学能力评估基准FrontierScience,包含700余道题目,GPT-5.2在奥赛赛道得分77% [8] 模型性能与技术创新 - ChatGPT Images支持添加、删减、组合、融合等多种编辑,文本渲染能力增强,内置数十种预设滤镜和提示词 [1] - SAM Audio核心引擎PE-AV基于Perception Encoder扩展,实现多模态融合,在多种音频分离任务上达到SOTA水平 [2] - MiMo-V2-Flash采用5比1混合滑动窗口注意力机制,使KV缓存减少近6倍,轻量级多Token预测使推理速度提升2-2.6倍 [3] - 腾讯混元世界模型1.5核心创新包括重构记忆机制实现分钟级几何一致性、Context Forcing蒸馏方案和基于3D的自回归扩散模型强化学习 [4] - Vidu Agent具备分镜级可控力,能保持产品人物场景在15-30秒视频中的一致性,并支持精细化编辑 [5][6] - FrontierScience基准的研究赛道采用基于量规的10分制评估,关注推理步骤正确性,揭示模型存在推理逻辑错误等问题 [8] 商业化与成本策略 - ChatGPT Images功能向所有ChatGPT用户推出,API以GPT Image 1.5形式提供 [1] - MiMo-V2-Flash后训练采用多教师在线策略蒸馏,仅需传统方法1/50算力达到教师性能峰值,API限时免费开放,成本为每百万token输入0.1美元输出0.3美元 [3] - Vidu Agent首推多模态Agent API,为企业提供端到端交付结果,支持上传爆款视频和产品图批量产出同类高质量视频 [5][6] - 谷歌Gemini的新工作流可直接生成可分享链接并公开发布,不再依赖Google Drive权限设置 [7] 行业战略与研发投入 - 原DeepSeek成员罗福莉加入小米并发表演讲,强调AI进化的下个起点是能与物理世界交互的模型,认为真正护城河是科学研究文化与将未知问题转化为可用产品的能力 [9] - 罗福莉提出开源是实现AGI普惠化、确保人类智慧共同进化的唯一路径 [9] - 小米未来五年研发投入预计超2000亿元,2026年预计投入约400亿元 [9]
这里有一个向顶尖社会学者提问的机会,你想问什么?
腾讯研究院· 2025-12-17 09:23
文章核心观点 - 文章旨在邀请读者向剑桥大学知名学者阿兰·麦克法兰教授提问,问题可围绕人工智能时代、社会或个人困惑展开,优秀问题将有机会获得教授的视频答复、收录至新书或获得赠书[4][5][6][7] 活动参与方式与详情 - 参与方式为在文章评论区直接提交1至3个问题[5] - 问题征集截止日期为2025年12月27日[6] - 精选问题将由麦克法兰教授录制视频亲自答复,并于2026年1月27日在腾讯研究院科技向善创新节公开放出[6] - 提问者的问题有机会被收录进麦克法兰教授的新书[7] - 将从所有提问者中抽选5位,赠送麦克法兰教授的经典著作一本[8] 人物背景介绍 - 阿兰·麦克法兰教授是社会人类学学家、历史学家、剑桥大学国王学院终身院士及英国国家学术院院士,以跨学科研究社会长期演化著称[2] - 教授长期关注中国技术与经济发展,在中国社交媒体平台拥有接近百万粉丝,因其在书房录制的亲切形象而被粉丝称为“从霍格沃茨走出的教授”[3] - 教授通过视频内容解答粉丝关于人工智能技术的疑惑与人生问题[3]
我们一起,定义真正以人为尺度的AI丨「AI向善语料库」招募朋友啦!
腾讯研究院· 2025-12-17 09:23
于无声处听惊雷 亲爱的朋友们: 2024年8月,腾讯研究院联合多家机构,共同种下了一颗AI向善的种子—— 「AI向善语料库」 。这是一项持续、开放、创新的社会共创行动,旨在为那些在商业环节里失声的人群和话题,如 老年人、残疾人、困境儿童等等,构建一个更有人文关怀的AI语料库,推动AI为人类的积极发 展、福祉和幸福发挥更大的价值。 我们期待AI能够: 心事浩茫连广宇,于"无声"处听惊雷。 项目从一老一小开始做起。首个AI向善语料库以"老年人"为主题,共创行动一经发出,便有幸收 到了许许多多朋友的喜爱和支持。最终共有一百余家社会组织参与,汇聚了8047条专家级问答语 料和1408条由老年人撰写的优质语料, 成为 国内外第一个通过公益共创构建的AI训练公共语料 库 。 AI时代没有旁观者|AI向善语料库开放发布会实录 第一期所有共创组织 今年,我们选择将目光投向"困境儿童青少年"。在正式发起共创行动之前,我们先对市面上的AI 产品进行了一次"大考":当一个留守的孩子向AI聊天机器人倾诉孤独,当一个青春期的少年羞涩 地敲下关于身体认知的困惑,今天的AI,真的准备好回答了吗? 谁是"困境儿童青少年"? 通过第一期的实践 ...
腾讯研究院AI速递 20251217
腾讯研究院· 2025-12-16 16:32
苹果AI芯片战略 - 苹果正开发首款代号"Baltra"的AI服务器芯片,与博通合作开发网络技术,采用台积电3nm工艺,预计2027年部署 [1] - 苹果已放弃自建大模型,转而每年支付约10亿美元使用谷歌定制的1.2万亿参数Gemini模型,Baltra芯片主要用于满足庞大的AI推理需求 [1] - 芯片架构将注重时延与吞吐量优化,采用INT8等低精度运算,可能采用64颗芯片互连配合大容量LPDDR内存的方案 [1] 大模型技术进展 - 英伟达推出Nemotron 3系列开源模型,包含Nano、Super和Ultra三种规模,采用突破性异构混合专家架构 [2] - Nemotron 3 Nano的吞吐量比上一代高4倍,在大规模多智能体系统中实现领先的每秒生成token数,推理效率显著提升 [2] - 模型通过先进强化学习技术和大规模并行多环境后训练实现卓越准确率,并提供完整的训练数据集和强化学习库 [2] - 逆向工程发现ChatGPT记忆系统采用四层架构:会话元数据、用户记忆、近期对话摘要和滑动窗口,未使用向量数据库或RAG检索 [3] - ChatGPT通过预生成的轻量级摘要和显式保存的结构化信息实现记忆,GPT-4最大上下文窗口为128k token,超出后最前面的内容会被遗忘 [3] AI应用与内容生成 - 腾讯元宝上线写作模式,支持自动补全剧情人设大纲并一键生成成稿,单次可直出数万字文本 [4] - 元宝可在约14分钟生成约3万字,半小时写出5万字,并支持将长稿一键导出至本地文档或腾讯文档 [4] - 通义万相2.6成为国内首个支持角色扮演的视频模型,支持音画同步、多镜头生成及声音驱动 [5] - 视频生成支持15秒长视频、多镜头叙事和自然音画同步,能参考输入视频角色外观和音色实现单人、多人合拍 [5] - 图像生成升级包括艺术风格高度美学可控、真实人像质感提升、文字生成图表插画、图文混排输出和多图融合生成等功能 [6] - 字节跳动发布Seedance 1.5 pro音视频联合生成模型,支持精准音画同步、多语言方言、电影级运镜和15秒长视频生成 [7] - 模型采用MMDiT架构实现视听流精准协同,原生支持中英日韩等多语种及四川话粤语等方言,音频指令遵循处于业内头部水平 [7] 自动驾驶进展 - 工信部附条件许可长安深蓝SL03和极狐阿尔法S两款L3级自动驾驶车型,成为我国首批获准入的L3车型 [8] - 深蓝SL03可在拥堵环境下最高时速50km/h实现单车道自动驾驶,仅限重庆内环等指定路段;极狐阿尔法S最高时速80km/h,仅限北京京台高速等路段 [8] - 两家企业已完成并通过产品测试与安全评估,将在指定区域开展上路通行试点 [8] AI行业趋势与挑战 - 谷歌前CEO Eric Schmidt提出"旧金山共识",认为语言智能体与推理能力结合将趋近人类核心能力,技术融合到一定阶段会出现AI递归自我改进 [9] - 他预测AI数学家将在未来一年内出现推动新数学理论诞生,行业普遍认为这一变革在2-4年内发生 [9] - 美中AI竞争路径分化:美国聚焦超级智能研发但电力不足,中国全力推动AI商业应用落地且电力充足,两国均依赖私营部门推动发展 [9] - 多款AI模型面对六指手图像无法正确数出手指数量,暴露出当前AI在视觉推理、因果关系理解上的缺陷 [10] - 问题根源在于训练数据中"人手=五指"的强关联和Transformer架构缺乏显式结构约束,单次前向传递无法追踪状态信息 [10]
AI只是可控工具: AI伦理学者乔安娜·布赖森谈AGI神话与未来治理
腾讯研究院· 2025-12-16 09:34
文章核心观点 - 人工智能本质上是一个可控的工具,其特殊性不应被过度强调,发展的核心在于确保透明度、问责制以及明确的责任链条[5][7][14][21] - 通用人工智能(AGI)的叙事可能被科技公司用于规避责任和推动市场集中,真正的挑战在于对复杂系统的管理和监管,而非技术本身具备自主意识[6][7][13][14] - 人工智能对就业的影响具有双重性,可能同时产生替代效应和增强效应,社会需要通过教育改革、技能再培训和社会保障体系的调整来应对经济转型[5][8][9] - 人工智能治理的关键在于建立有效的监管框架,明确产品责任,欧盟的《人工智能法案》是开创性的尝试,但执行和跨国监管面临挑战[7][15][19][20][22] - 全民基本收入(UBI)可能是一个过于简化的解决方案,解决财富不平等需要更系统的措施,如公共教育和适度的激励机制[17][18] AI的本质与定位 - 人工智能是加速科研进程的工具,与其他工具没有本质区别,不必过于强调其特殊性[5] - 人工智能与政府和公司类似,是一种通过技术和合作放大人类智能的复杂系统,问题核心在于如何管理和监管这些系统以确保透明与可问责[6] - 当前AI不具备人类意义上的“意识”,其与人类是异质性关系,目标由人类设定,缺乏真正的共同规划和决策[13] - AGI本质仍是工具,决策权始终在人类手中,如同计算器或抛硬币,责任在于背后的控制者[14] AI对经济与就业的影响 - 自动化引入可能产生两种经济效应:替代效应(减少劳动力需求)和增强效应(通过提高生产力创造就业)[5] - Oxford研究显示,英国目前未显现明显替代效应,反而在高生产力领域看到更多就业机会[5] - 工作的本质涉及权力集中,企业通过自动化用更少人完成更多工作,同时集中权力并雇佣高生产力员工以提升控制力[8] - 经济转型导致技能重新估值,旧技能价值可能降低,新技能需求出现,教育与社会保障体系需改革以帮助人们适应[9] - 未来若多数工作由AI完成,工作的定义可能转向社会联系、个人认同和自我价值实现,如餐饮、艺术等行业提供情感交流空间[10] AI风险、责任与治理 - AI的主要风险并非自主意识,而在于系统是否透明、可控及有明确的责任链条[7][14][15] - 必须确保AI产品有清晰的责任追溯机制,一旦出现问题能明确责任所在,责任模糊化不可接受[15][16] - 欧盟《人工智能法案》影响深远:明确AI产品法律地位,要求高风险系统严格记录,禁止某些不兼容服务(如社会信用评分),并要求明确标识AI性质[19] - AI治理的挑战在于法案的执行,尤其是在跨国监管和全球统一标准方面[20] - 监管大型AI平台及防止市场过度集中是关键,需确保技术像GPS一样得到合理监管以维持公平竞争[21][22] - 跨国科技公司的监管是被忽视的重要议题,需通过国际合作建立框架,应对其在全球数据使用和广告市场的主导地位对公共利益造成的冲击[22] 社会发展与政策应对 - 面对AI带来的变革,北欧国家提供了参考模式,即政府选择未来产业方向并通过劳动力再培训帮助人们适应新环境[9] - 社会保障体系需提供更多支持,防止因失业导致的身份认同危机和极端化行为[9] - 全民基本收入(UBI)理念存在争议,可能过于简化,解决财富不平等需要更系统的措施如公共教育和结构性支持[17][18] - 最理想的社会经济结构是保持适度的基尼系数(约0.27),过度平等或贫富差距过大均不利于社会稳定与发展[18] - AI监管应被视为对可控工程产品的监督,需建立明确机制并确保发展符合人类利益[23]
腾讯研究院AI速递 20251216
腾讯研究院· 2025-12-15 16:22
Manus 1.6 发布与AI Agent能力跃升 - Manus 1.6 Max发布,实现从“辅助工具”到“独立承包商”的质变,用户满意度提升19.2%,采用子Agent并行处理架构,能独立完成复杂Excel财务建模和数据分析 [1] - 新增移动开发功能,支持端到端App开发流程,用户只需描述需求即可生成可运行的iOS和Android应用 [1] - 推出Design View设计视图,实现局部修图、精准文字渲染和多图层合成,解决AI生图不可控的痛点 [1] OpenAI开源稀疏模型与可解释性研究 - OpenAI开源Circuit-Sparsity模型,参数量仅0.4B,强制99.9%权重为零仅保留0.1%非零权重,旨在解决模型可解释性问题 [2] - 该稀疏模型内部形成紧凑可读的“电路”,规模比密集模型缩减16倍,神经元激活具有明确语义,但运算速度慢100至1000倍 [2] - 研究团队提出“桥梁网络”方案,在稀疏模型与密集模型间插入编码器-解码器对,实现对现有大模型的可解释性行为编辑 [2] 模型微调与推理服务更新 - 前OpenAI CTO创办的Thinking Machines全面开放Tinker产品,这是一个用于帮助开发者微调语言模型的API [3] - Tinker新增支持Kimi K2 Thinking(万亿参数规模专为长链推理设计)和Qwen3-VL视觉输入(30B和235B两款模型)的微调 [3] - 提供兼容OpenAI API的全新推理接口,用户可即插即用接入任何兼容OpenAI API的平台,简化LLM后训练过程 [3] 谷歌产品整合与AI工具进化 - NotebookLM正式“接入”Gemini体系,用户可在Gemini对话中直接添加NotebookLM笔记作为数据源进行问答 [4] - Gemini成为连接多个NotebookLM笔记的“中枢”,解决了NotebookLM不支持笔记本合并的问题,可同时调用多个笔记进行查询 [4] - NotebookLM内容开始可与网络信息同时使用,实现“个人资料+全网信息”混合式分析,从“小众研究工具”融入谷歌核心AI产品线 [4] 通义语音与识别模型升级 - 通义百聆发布Fun-CosyVoice3模型升级,首包延迟降低50%,中英混字准确率翻倍,支持9语种18方言口音跨语种克隆与情感控制 [5] - Fun-ASR在噪声场景准确率达93%,支持歌词与说唱识别、31语种自由混说、方言口音覆盖,并将流式识别模型的首字延迟降低到160ms [5] - 开源Fun-CosyVoice3-0.5B提供zero-shot音色克隆能力,并开源Fun-ASR-Nano-0.8B轻量化版本以降低推理成本 [6] Zoom与AI模型在专业考试中的表现 - 视频会议公司Zoom宣称在“人类最后的考试”HLE基准测试上取得48.1%成绩,比Google Gemini 3 Pro的45.8%高出2.3个百分点 [7] - Zoom采用“联邦AI方法”,将自研小型语言模型与OpenAI、Anthropic、Google等公司的闭源和开源模型组合,通过Z-scorer评分系统选择输出 [7] - 该成绩未出现在HLE官方排行榜,发布当天Sup AI已宣布以52.15%准确率超越,Zoom正试图成为企业工作流中的AI中枢 [7] AI模型在金融专业资格考试中的突破 - 最新研究显示推理模型全部通过CFA三级考试,Gemini 3.0 Pro在一级考试中创下97.6%的历史最高纪录,GPT-5在二级考试中以94.3%领先 [8] - 在三级考试中,Gemini 2.5 Pro选择题达86.4%,Gemini 3.0 Pro问答题达92.0%,短短两年从“不及格”到“近乎满分” [8] - 专家指出会考试不等于能干活,AI在“道德伦理”类题目最吃力,且无法排除“数据污染”可能,不能替代分析师的战略思考和客户沟通 [8] 医疗AI公司估值与商业化进展 - OpenEvidence正在进行2.5亿美元股权融资,投后估值达120亿美元,较两个月前上一轮私募估值翻了一番 [9] - 该公司通过向制药公司出售聊天机器人广告位赚钱,目前年化广告收入约1.5亿美元,比8月份增长3倍,毛利率高于90% [9] - 根据OffCall调查,约45%美国医生使用OpenEvidence,每月回答来自美国医生约2000万个问题,使用医学期刊许可信息比通用聊天机器人更准确 [9] AI在软件开发中的深度应用 - OpenAI仅用4人工程团队与AI智能体Codex协作,在28天内完成安卓版Sora开发,消耗约50亿Token,约85%代码由AI完成 [10] - 团队采用“探索-验证-联邦”智能体工作流,Codex处理繁重编码任务,工程师专注架构、用户体验和质量把控,实现99.9%无崩溃率 [10] - Codex已承包OpenAI内部每周70%的PR,能监控自己训练过程并处理用户反馈,形成“AI迭代AI”的自我进化模式 [10] AI成人内容市场趋势与社会影响 - 到2025年AI成人内容市场规模将达约25亿美元,到2028年可能以每年约27%速度增长,OpenAI、Meta等巨头纷纷布局该领域 [11] - AI成人内容彻底颠覆传统生产方式,可按需定制性格、语气、外貌,研究显示人类会觉得AI生成的脸比真人脸“更真实” [11] - DeepFake技术成为校园霸凌和羞辱女性工具,仅需一张照片AI就能“脑补”裸体,专家警告AI正在制造隔离而非缓解孤独 [11]