Workflow
腾讯研究院
icon
搜索文档
信仰与突围:2026人工智能趋势前瞻
腾讯研究院· 2025-12-22 08:33
信仰 1.Scalling Law驱动 向AGI持续进化 王齐昂 独立科技观察者 谁也无法想到,ChatGPT迎来三周年之际,没有庆祝和纪念,反而是内部发布的一封红色警报,再次敲 响了人工智能竞争白热化的战鼓。在受到Gemini 3惊艳效果的威胁下,Open AI加速推出了GPT 5.2,用 更多的资源,在多项指标上实现了反超。但三年下来,各大模型之间的性能差距和范式差异持续缩小, 业界出现不少质疑的声音,认为大模型发展正面临天花板。但也有很多人坚定看好AGI的到来,产业充 满了更多的争论和分化。 站在2025的年尾,回顾来时之路,从DeepSeek的火热,到GPT4o 后吉卜力动画的流行,Sora2的与山姆 奥特曼同框,再到谷歌Nano Banana生图的各种机器猫讲解。 有时似乎有恍如隔世之感,一项今年的技 术,仿佛已是多年前的流行。 展望2026,我们不仅感受到对大模型智能瓶颈和投资回报不确定性的焦虑,看到更多的非共识,也看到 大家的坚守和信仰,以及有望在多个方向的突围,更多的期待和探索正在扑面而来。 自 ChatGPT 横空出世以来,业界主流都相信只要不断增加算力、扩充数据、堆叠参数,机器的智能就 会 ...
腾讯研究院AI速递 20251222
腾讯研究院· 2025-12-21 16:01
生成式AI 一、摩尔线程技术路线图全面公开,一连亮出「10张王牌」 1. 摩尔线程发布新一代全功能GPU架构"花港",算力密度提升50%,能效提升10倍,支持FP4到FP64全精度计算, 可支撑十万卡以上智算集群; 2. 即将发布"华山"AI训推一体芯片和"庐山"高性能图形渲染GPU,夸娥万卡智算集群算力达10EFLOPS,S5000单 卡推理刷新国产GPU性能纪录; 3. 发布搭载"长江"SoC芯片的AI算力本MTT AIBOOK,提供50TOPS异构AI算力,可本地运行最高30B端侧大模型, 今日起在京东预售。 https://mp.weixin.qq.com/s/ALEmvhklJVsjERus-OFq2Q 二、OpenAI代码模型GPT-5.2-Codex上线,为软工而生 1. OpenAI发布GPT-5.2-Codex, 或 是 迄今最先进的智能体编码模型,在SWE-Bench Pro和Terminal-Bench 2.0基准测试中取得SOTA性能; 2. 相比GPT-5.2提升了指令遵循能力、长上下文理解和网络安全能力,在Windows环境下性能更优,词元效率在中 高推理水平下显著提升; 3. 已 ...
腾讯研究院AI每周关键词Top50
腾讯研究院· 2025-12-20 02:33
芯片领域动态 - 谷歌推出TorchTPU芯片 [3] - 苹果研发AI服务器芯片 [3] 大模型与算法进展 - 谷歌发布Gemini 3 Flash模型 [3] - 字节跳动发布Seed1.8模型 [3] - 小米发布MiMo-V2-Flash模型 [3] - 英伟达发布Nemotron 3模型 [3] - OpenAI研究Circuit-Sparsity模型稀疏化技术 [3] - Thinking Machines发布Tinker模型 [3] - OpenAI可能正在开发GPT-5.2模型 [3] - OpenAI建立科学能力基准 [4] AI应用与产品发布 - OpenAI计划推出ChatGPT应用商店 [3] - 阶跃星辰发布Step-GUI应用 [3] - xAI为Grok推出Grok Voice功能 [3] - 行业在开发Agent API [3] - 苹果规划AI眼镜产品 [3] - OpenAI推出ChatGPT Images功能 [3] - Meta发布SAM Audio应用 [3] - 腾讯发布混元世界模型1.5 [3] - Vidu发布Vidu Agent应用 [3] - 谷歌推出Super Gems应用 [3] - 腾讯元宝推出写作模式 [3] - 通义万相推出角色扮演功能 [3] - 字节跳动发布Seedance 1.5 pro应用 [3] - 长安汽车与北汽集团推进L3级自动驾驶 [3] - Manus发布Manus 1.6应用 [3] - 谷歌推出NotebookLM应用 [3] - 通义发布Fun语音模型 [4] - Zoom推出Zoom AI功能 [4] - 行业出现医学版ChatGPT应用 [4] - Gemini推出Deep Research Agent [4] - Runway发布GWM-1应用 [4] - 谷歌将翻译功能融合进Gemini [4] - 拓竹科技与混元合作推出「印你」应用 [4] - 宇树科技推出机器人应用商店 [4] 前沿科技与行业观点 - Harmonic研究Erdos1026问题 [4] - 风险投资机构a16z提出AI泡沫判断标准 [4] - OpenAI研究记忆系统 [4] - 谷歌研究递归自我改进技术 [4] - 多款AI模型面临“AI手指”生成难题 [4] - 媒体披露OpenAI的Sora模型开发内幕 [4] - 行业关注AI生成的成人内容市场 [4] - DeepMind对AGI(通用人工智能)到来做出预测 [4] - 数据分析公司Similarweb揭示AI用户趋势 [4] - OpenAI与迪士尼探讨合作 [4]
“作品灵魂的关键在于作家本身,AI永远无法替代优秀作家”|破晓访谈
腾讯研究院· 2025-12-19 09:12
文章核心观点 生成式人工智能正在深刻变革文化产业,引发全行业对价值链、商业模式与内容生态重塑的思考[2] 网络文学作为重点领域之一,其发展路径体现了GenAI作为强大辅助工具在赋能创作、提效IP开发等方面的巨大潜力,但行业的核心竞争力与价值源泉始终在于人的创意、情感与精品化导向,AI无法替代优秀作家的灵魂与个性表达[6][7][8] 目前GenAI在网络文学领域的应用环节与工具 - 公司已推出覆盖创作到IP改编全链路的AI助手,包括作者助手“妙笔通鉴”、漫剧助手和版权助手,核心功能是辅助创作与提升效率[9] - “妙笔通鉴”为作者提供从世界观设定、错别字检查到人物关系梳理等全流程辅助,并能通过对话激发创作灵感,面向全体作家开放[9] - 漫剧助手是一套基于AIGC的生成工作流系统,能辅助拆解作品大纲、总结章节、整理人物小传,基本覆盖漫剧行业标准流程,提升编剧效率[10] - 版权助手支持作品资料展示,并能快速抽象出故事大纲、人物关系、核心冲突等关乎作品独创性的关键要素,帮助作者梳理内容卖点[10] - 公司推出的AI助手对作品的理解能力及生成内容的辅助效能均高于行业平均水平[10] GenAI对网络文学作家生态与创作结构的影响 - 未来网文生态结构可能更趋近于“橄榄型”,而非金字塔型,即中间具备一定质量水准的作品数量会因AI辅助而快速扩大,但底层低质内容和顶层头部作品规模相对较小[12] - AI作为“辅助轮”,主要作用是壮大和优化“中腰部”作家群体,帮助他们补足创作短板,使叙事表现更趋完善[6][13] - 冲击头部阵营依然依赖于作家自身的天赋、创造和努力,创意产业本质上是天赋驱动,难以通过AI实现作品的普遍升维[6][13] - 文学的本质是个性化情感表达以引发共鸣,当前AIGC生成的内容仍难以具备人类作家自然且富有情感的感染力,作品灵魂的关键在于作家本身[11] 文字创作与视频创作的关系及网络文学形态演进 - 文字创作与视频创作在表现形式、载体、渠道和受众群体上存在结构性本质差异,两者“完全融合”或“完全合一”的可能性极低[6][13] - 文字通过激发读者想象构建精神世界,视频则由外向内直接呈现内容,限缩想象空间,因此文字小说仍将作为独立形态持续存在[13] - 网络文学与AI短剧、漫剧的联动与融合非常快速,证明网络文学可能向以文字为核心、融合多模态元素的增强形态演进[6][15] - 未来多模态表达可能成为网络文学重要特征,例如在文本中插入AI生成的短视频、加入音效或嵌入可视化面板等[15] - 网文领域培养的大量内容人才中,会有相当一部分人转向视频创作并成为中坚力量,当前漫剧与短剧行业超过半数的创作者源自网文领域,但这不意味着所有作家都会成为“视频作家”[14][15] GenAI对网络文学IP开发与运营的影响 - GenAI是赋能网文IP视觉化、释放大量作品潜在价值的革命性工具,解决了传统改编模式“产能不足”的核心痛点[7][16] - 技术显著降低了视觉内容制作门槛,为众多长期排队等候或久未开发的网文作品提供了视觉化机遇,视觉内容在用户覆盖与传播穿透力方面具有显著优势[16] - 在IP开发中,人的艺术眼光和商业匹配度决策是永远的核心,AI无法替代人类对内容创造性、独特性的评价,也无法对其市场价值进行前瞻性判断[7][17] - AI可以作为辅助内容管理工具深化应用,用于网文IP潜力预估、选题辅助以及内容监测、数据跟踪等领域,但作品IP价值取决于多种因素,难以公式化计算[7][17] 当前AI内容的质量评估、用户接受度与行业导向 - 当前AI仍处于通用人工智能早期阶段,主要依赖对已有内容的总结归纳,缺乏前瞻性与创造性预判,尚不具备识别作品个性与创新特质的能力[18] - 文化产业的核心竞争力在于精品化和个性化,而非标准化和效率最大化,更应投入时间精心打磨作品质量,满足读者对高质量故事和情感连接的深层需求[8][18] - 大量低质AI内容的生产会对用户产生驱赶效应,文学作品需要满足用户的“期待视野”[19] - 当前用户对AI创作内容的接受度呈现阶段性差异,部分用户存在明显心理障碍,期望阅读来自有情感作家的创作;更多用户主要关注故事本身,可能未意识到内容由AI生成,但其行为(如不评论、直接划走)反映了对质量不足内容的自然选择[20] GenAI为网络文学出海带来的新机遇 - 视觉化是网络文学出海的重要方向,视觉内容在渗透海外市场方面具有显著优势,能触达规模远超阅读人群的非阅读人群[21][22] - 网络文学的核心优势在于丰富的故事储备和成熟的创作者生态,可通过IP授权输出文字作品,并借助视觉化转型扩大受众[22] - AIGC内容支持实时编辑调整,通过持续测试和优化,能为不同用户群体提供定制版本,其强大的批量修改能力可大幅提升内容本地化效率[22]
腾讯研究院AI速递 20251219
腾讯研究院· 2025-12-18 16:01
生成式AI 一、谷歌联手Meta让TPU支持PyTorch,挑战CUDA护城河? 1. 谷歌推进代号"TorchTPU"战略行动,让PyTorch在TPU芯片上流畅运行,消除开发者迁移门槛,并考虑将部分软 件开源; 2. 谷歌与Meta商讨合作协议,让Meta获得更多TPU使用权,Meta通过推动软件适配TPU降低推理成本并减少对英 伟达依赖; 3. 华尔街分析师认为CUDA是英伟达最坚固盾牌,谷歌过去依赖内部Jax框架"圈地自萌"拉大了与外部客户实际使用 习惯的鸿沟。 https://mp.weixin.qq.com/s/0E230ylybz8YYflQDAxSQw 二、ChatGPT 版应用商店正式上线,通过「@ 应用名」触发 1. ChatGPT应用商店正式推出,按精选、生活方式、工作效率等分类列出Adobe Photoshop、Canva、Figma等应 用,用户通过"@应用名"触发; 2. 开发者可在OpenAI开发者平台提交应用审核发布,OpenAI提供完整资源体系包括最佳实践指南、开源示例应用、 UI库和测试阶段的Apps SDK; 3. OpenAI计划以约7500亿美元估值筹集新一轮资金,最 ...
十年谣言治理之路:从信息净化到信任重构2015-2025|腾讯新闻较真十周年谣言治理白皮书
腾讯研究院· 2025-12-18 12:21
文章核心观点 - 报告系统回顾了2015至2025十年间中国网络谣言生态的演变历程,揭示了谣言在形态、传播渠道、生产动机及公众认知方面的阶段性变迁 [13] - 面对AIGC技术带来的“概率真相”挑战,传统的“事后辟谣”模式已难应对,行业需构建“主动免疫”的下一代辟谣体系,从技术、生态和公众素养三个维度提升社会整体对不实信息的抵御能力 [9][118] 十年谣言生态演变 - **第一阶段(2015-2019)**:谣言以食品安全、健康养生等“伪科学”内容为主导,具有“小切口、高频次、强关联”特点,主要通过图文和“震惊体”文章在熟人社交圈传播,辟谣工作侧重于基础科学常识的普及 [20][22] - **第二阶段(2020-2022)**:重大公共卫生事件使谣言焦点转向国家政策、公共卫生等“宏大叙事”,短视频成为主流形态,其直观性和强感染力使得谣言的传播速度与破坏力达到顶峰 [23][26] - **第三阶段(2023-2025)**:AI技术深度介入内容生产,谣言焦点回归经济、民生等多元领域,并可通过深度伪造技术制作高度拟真的音视频,鉴别难度极大提升,信息生态进入“概率真相”时期 [27][28] - **生产动机演化**:谣言生产从早期的情绪宣泄和非理性恐慌,转向以流量变现为核心的商业目的驱动,在AI时代,经济利益驱动占比高达71%,呈现出明显的产业化趋势 [34][36] - **传播形态升级**:谣言形态从早期的文本、图文,演进到短视频主导,最终在AIGC推动下走向智能化、跨模态原生造假,传播策略也日益专业化,出现“伪权威、伪逻辑、伪科学”的“三伪”手法 [31][32][33] 传播方式与公众认知变迁 - **传播渠道革命**:经历了从门户网站、微博的“文本与弱关系链”扩散,到社交媒体“强关系圈层”传播,再到短视频平台“算法裂变”,最终迈向AIGC带来的“裂变式、精准化、多元化”挑战的深刻转变 [13][46][56] - **公众心态三阶段变化**: - **2015-2019**:生活焦虑驱动,在食品安全、健康等领域,“宁可信其有”的心理导致信息判断滞后于情绪反应,熟人信任链降低了甄别阈值 [58] - **2020-2022**:重大公共事件下产生“信息饥渴”,公众分享行为更谨慎,但对官方和专家信源的依赖增强,也给冒充权威的谣言提供了空间 [59] - **2023-2025**:AI伪造内容动摇了“眼见为实”的传统认知,公众需要付出额外思考成本来判断信息真伪,部分用户开始尝试使用技术工具辅助验证 [60][61] - **公众谣言辨识能力画像**:基于对1181名网民的调研,整体辨识能力较强,87.56%的受访者答对半数以上题目,但对健康类谣言的判别能力最薄弱,有55.63%的受访者得分偏低 [62][63] - **信息应对模式**:近半数(47%)网民属于“主动查证”型,是主流群体,但仍有9%的网民属于“相信并扩散”型,健康类信息中,有18%的人会未经核实就主动向身边人分享,成为重要扩散节点 [73][76] 辟谣策略与生态演进 - **治理主体多元化**:从早期平台独立探索(如腾讯新闻较真平台2015年成立),发展为“监管+平台+社会”多方协同的治理生态,例如中国互联网联合辟谣平台于2018年上线 [91][94] - **辟谣技术三阶段跃迁**: - **1.0人工核验时代**:依赖专家智库进行专业事实查证,以图文辟谣文章为主要形态 [99][100] - **2.0工具赋能时代**:引入算法识别能力与大数据,通过H5、小程序等多种产品形态提升辟谣覆盖与效率 [101] - **3.0智能进化时代**:AI技术驱动实时识别与闭环治理,例如腾讯的较真AI能将查证效率提升90% [14][104] - **辟谣效能量化评估**:通过构建“辟谣社会价值评估模型”量化辟谣效果,数据显示在疫情期间,辟谣内容使社会恐慌情绪降低了36.5%,有效对冲阻断谣言传播达54.5%,舆论对辟谣治理行为的整体认可度达69.3% [108][109] - **“预辟谣”策略有效性**:政策类谣言因高关联公众利益且可证伪,适合“预辟谣”,长期治理已使公众形成免疫力,例如2025年调研显示,高达92%的受访者不相信“扫码领五险一金补贴”的传闻 [110][112] 未来挑战与应对策略 - **五大未来挑战**: 1. **AIGC内容规模化冲击**:AI降低了虚假信息生产门槛,支持常态化、批量化的“内容农场”式生产,辟谣工作需从“应对偶发”转向“抵御洪流” [120][121] 2. **多模态内容鉴别难关**:深度伪造(Deepfake)等音视频内容逼真度极高,挑战人类感官信任,而鉴别技术存在追赶生成技术的“代差” [122] 3. **事实核查“时间差”困境**:虚假信息传播速度比真相快六倍,具有天然“先发优势”,辟谣常陷入“事后补救”的被动局面 [122][123] 4. **跨平台与私域传播隐蔽性**:虚假信息向微信群等私域空间迁移,传播路径复杂、来源隐蔽,传统事实核查难以有效触达 [124] 5. **用户认知惰性与辟谣疲劳**:公众存在认知惰性,易接受简单煽动的内容,同时海量信息导致“辟谣疲劳”,可能引发对所有信源的不信任 [125] - **三大应对策略体系**: 1. **搭建智能辟谣系统**:利用AI技术实现海量信息实时监测与风险评分,并研发针对多模态内容的鉴别工具(如区块链溯源、AI水印)以构建“事前预警”能力 [127] 2. **构建全链路信息信任生态**:扩大跨领域权威机构合作以提升核查公信力,同时优化用户举报反馈机制,将公众转化为信息生态的第一道防线 [129] 3. **推广媒介素养教育**:针对不同群体(如青少年、老年人)定制化、趣味化地开展教育,从澄清事实延伸到普及信息鉴别方法论,培养公众的批判性思维 [130]
腾讯研究院AI速递 20251218
腾讯研究院· 2025-12-17 16:01
行业核心动态:AI模型与产品密集迭代升级 - OpenAI推出全新图像生成模型ChatGPT Images,图像生成速度提升4倍,API价格比前代降低20% [1] - Meta开源音频分割模型SAM Audio,支持文本、视觉和时间跨度提示,在超过1亿条视频上训练,运行速度快于实时处理 [2] - 小米开源大模型MiMo-V2-Flash,总参数3090亿,活跃参数150亿,在SWE-bench Verified得分73.4%超越所有开源模型 [3] - 腾讯混元世界模型1.5开源,支持创建实时交互3D世界,以24FPS速度生成720P高清视频 [4] - 谷歌在Gemini中深度整合Opal工作流,推出Super Gems功能和新工作流构建器 [7] - OpenAI发布专家级科学能力评估基准FrontierScience,包含700余道题目,GPT-5.2在奥赛赛道得分77% [8] 模型性能与技术创新 - ChatGPT Images支持添加、删减、组合、融合等多种编辑,文本渲染能力增强,内置数十种预设滤镜和提示词 [1] - SAM Audio核心引擎PE-AV基于Perception Encoder扩展,实现多模态融合,在多种音频分离任务上达到SOTA水平 [2] - MiMo-V2-Flash采用5比1混合滑动窗口注意力机制,使KV缓存减少近6倍,轻量级多Token预测使推理速度提升2-2.6倍 [3] - 腾讯混元世界模型1.5核心创新包括重构记忆机制实现分钟级几何一致性、Context Forcing蒸馏方案和基于3D的自回归扩散模型强化学习 [4] - Vidu Agent具备分镜级可控力,能保持产品人物场景在15-30秒视频中的一致性,并支持精细化编辑 [5][6] - FrontierScience基准的研究赛道采用基于量规的10分制评估,关注推理步骤正确性,揭示模型存在推理逻辑错误等问题 [8] 商业化与成本策略 - ChatGPT Images功能向所有ChatGPT用户推出,API以GPT Image 1.5形式提供 [1] - MiMo-V2-Flash后训练采用多教师在线策略蒸馏,仅需传统方法1/50算力达到教师性能峰值,API限时免费开放,成本为每百万token输入0.1美元输出0.3美元 [3] - Vidu Agent首推多模态Agent API,为企业提供端到端交付结果,支持上传爆款视频和产品图批量产出同类高质量视频 [5][6] - 谷歌Gemini的新工作流可直接生成可分享链接并公开发布,不再依赖Google Drive权限设置 [7] 行业战略与研发投入 - 原DeepSeek成员罗福莉加入小米并发表演讲,强调AI进化的下个起点是能与物理世界交互的模型,认为真正护城河是科学研究文化与将未知问题转化为可用产品的能力 [9] - 罗福莉提出开源是实现AGI普惠化、确保人类智慧共同进化的唯一路径 [9] - 小米未来五年研发投入预计超2000亿元,2026年预计投入约400亿元 [9]
这里有一个向顶尖社会学者提问的机会,你想问什么?
腾讯研究院· 2025-12-17 09:23
文章核心观点 - 文章旨在邀请读者向剑桥大学知名学者阿兰·麦克法兰教授提问,问题可围绕人工智能时代、社会或个人困惑展开,优秀问题将有机会获得教授的视频答复、收录至新书或获得赠书[4][5][6][7] 活动参与方式与详情 - 参与方式为在文章评论区直接提交1至3个问题[5] - 问题征集截止日期为2025年12月27日[6] - 精选问题将由麦克法兰教授录制视频亲自答复,并于2026年1月27日在腾讯研究院科技向善创新节公开放出[6] - 提问者的问题有机会被收录进麦克法兰教授的新书[7] - 将从所有提问者中抽选5位,赠送麦克法兰教授的经典著作一本[8] 人物背景介绍 - 阿兰·麦克法兰教授是社会人类学学家、历史学家、剑桥大学国王学院终身院士及英国国家学术院院士,以跨学科研究社会长期演化著称[2] - 教授长期关注中国技术与经济发展,在中国社交媒体平台拥有接近百万粉丝,因其在书房录制的亲切形象而被粉丝称为“从霍格沃茨走出的教授”[3] - 教授通过视频内容解答粉丝关于人工智能技术的疑惑与人生问题[3]
我们一起,定义真正以人为尺度的AI丨「AI向善语料库」招募朋友啦!
腾讯研究院· 2025-12-17 09:23
于无声处听惊雷 亲爱的朋友们: 2024年8月,腾讯研究院联合多家机构,共同种下了一颗AI向善的种子—— 「AI向善语料库」 。这是一项持续、开放、创新的社会共创行动,旨在为那些在商业环节里失声的人群和话题,如 老年人、残疾人、困境儿童等等,构建一个更有人文关怀的AI语料库,推动AI为人类的积极发 展、福祉和幸福发挥更大的价值。 我们期待AI能够: 心事浩茫连广宇,于"无声"处听惊雷。 项目从一老一小开始做起。首个AI向善语料库以"老年人"为主题,共创行动一经发出,便有幸收 到了许许多多朋友的喜爱和支持。最终共有一百余家社会组织参与,汇聚了8047条专家级问答语 料和1408条由老年人撰写的优质语料, 成为 国内外第一个通过公益共创构建的AI训练公共语料 库 。 AI时代没有旁观者|AI向善语料库开放发布会实录 第一期所有共创组织 今年,我们选择将目光投向"困境儿童青少年"。在正式发起共创行动之前,我们先对市面上的AI 产品进行了一次"大考":当一个留守的孩子向AI聊天机器人倾诉孤独,当一个青春期的少年羞涩 地敲下关于身体认知的困惑,今天的AI,真的准备好回答了吗? 谁是"困境儿童青少年"? 通过第一期的实践 ...
腾讯研究院AI速递 20251217
腾讯研究院· 2025-12-16 16:32
苹果AI芯片战略 - 苹果正开发首款代号"Baltra"的AI服务器芯片,与博通合作开发网络技术,采用台积电3nm工艺,预计2027年部署 [1] - 苹果已放弃自建大模型,转而每年支付约10亿美元使用谷歌定制的1.2万亿参数Gemini模型,Baltra芯片主要用于满足庞大的AI推理需求 [1] - 芯片架构将注重时延与吞吐量优化,采用INT8等低精度运算,可能采用64颗芯片互连配合大容量LPDDR内存的方案 [1] 大模型技术进展 - 英伟达推出Nemotron 3系列开源模型,包含Nano、Super和Ultra三种规模,采用突破性异构混合专家架构 [2] - Nemotron 3 Nano的吞吐量比上一代高4倍,在大规模多智能体系统中实现领先的每秒生成token数,推理效率显著提升 [2] - 模型通过先进强化学习技术和大规模并行多环境后训练实现卓越准确率,并提供完整的训练数据集和强化学习库 [2] - 逆向工程发现ChatGPT记忆系统采用四层架构:会话元数据、用户记忆、近期对话摘要和滑动窗口,未使用向量数据库或RAG检索 [3] - ChatGPT通过预生成的轻量级摘要和显式保存的结构化信息实现记忆,GPT-4最大上下文窗口为128k token,超出后最前面的内容会被遗忘 [3] AI应用与内容生成 - 腾讯元宝上线写作模式,支持自动补全剧情人设大纲并一键生成成稿,单次可直出数万字文本 [4] - 元宝可在约14分钟生成约3万字,半小时写出5万字,并支持将长稿一键导出至本地文档或腾讯文档 [4] - 通义万相2.6成为国内首个支持角色扮演的视频模型,支持音画同步、多镜头生成及声音驱动 [5] - 视频生成支持15秒长视频、多镜头叙事和自然音画同步,能参考输入视频角色外观和音色实现单人、多人合拍 [5] - 图像生成升级包括艺术风格高度美学可控、真实人像质感提升、文字生成图表插画、图文混排输出和多图融合生成等功能 [6] - 字节跳动发布Seedance 1.5 pro音视频联合生成模型,支持精准音画同步、多语言方言、电影级运镜和15秒长视频生成 [7] - 模型采用MMDiT架构实现视听流精准协同,原生支持中英日韩等多语种及四川话粤语等方言,音频指令遵循处于业内头部水平 [7] 自动驾驶进展 - 工信部附条件许可长安深蓝SL03和极狐阿尔法S两款L3级自动驾驶车型,成为我国首批获准入的L3车型 [8] - 深蓝SL03可在拥堵环境下最高时速50km/h实现单车道自动驾驶,仅限重庆内环等指定路段;极狐阿尔法S最高时速80km/h,仅限北京京台高速等路段 [8] - 两家企业已完成并通过产品测试与安全评估,将在指定区域开展上路通行试点 [8] AI行业趋势与挑战 - 谷歌前CEO Eric Schmidt提出"旧金山共识",认为语言智能体与推理能力结合将趋近人类核心能力,技术融合到一定阶段会出现AI递归自我改进 [9] - 他预测AI数学家将在未来一年内出现推动新数学理论诞生,行业普遍认为这一变革在2-4年内发生 [9] - 美中AI竞争路径分化:美国聚焦超级智能研发但电力不足,中国全力推动AI商业应用落地且电力充足,两国均依赖私营部门推动发展 [9] - 多款AI模型面对六指手图像无法正确数出手指数量,暴露出当前AI在视觉推理、因果关系理解上的缺陷 [10] - 问题根源在于训练数据中"人手=五指"的强关联和Transformer架构缺乏显式结构约束,单次前向传递无法追踪状态信息 [10]