腾讯研究院 - 财报，业绩电话会，研报，新闻

腾讯研究院

搜索文档

腾讯研究院AI速递 20250522

腾讯研究院· 2025-05-21 15:01

谷歌Veo 3视频生成技术 - Veo 3实现音画同步生成功能，能根据提示词同时生成视频画面、对白、唇动和音效，实现完整的视听体验 [1] - 基于V2A技术，模型能将视频像素转化为语义信号，配合文本提示生成匹配音频 [1] - 模型支持长提示词理解和多步骤事件流生成，但目前仅限8秒视频，面向美国Ultra订阅用户开放，定价249.99美元/月 [1] 谷歌Gemini Diffusion文本生成技术 - Gemini Diffusion采用扩散技术生成文本，速度达2000token/秒，12秒可生成1万tokens [2] - 区别于传统自回归模型从左到右生成，通过逐步优化噪声学习生成输出，可快速迭代和错误纠正 [2] - 性能可与更大的模型Gemini 2.0 Flash-Lite相媲美，支持非因果推理，能一次生成整个标记块 [2] 腾讯混元模型升级 - 腾讯混元TurboS排名全球前八，引入长短思维链融合技术后，理科推理提升10%，代码能力提升24%，竞赛数学提升39% [3] - 基于TurboS新推出视觉深度推理模型T1-Vision和端到端语音通话模型混元Voice，前者理解速度提升50%，后者语音通话延迟降至1.6秒 [3] - 多模态领域全面升级：图像2.0实现毫秒级生图，3D v2.5提升几何精度，并承诺持续推进全系模型开源 [3] 字节语音播客模型 - 字节推出豆包·语音播客模型，基于流式模型实现文本到双人对话播客的秒级转化，支持热点内容快速生成 [4] - 模型突破传统AI播客痛点，实现双人对话自然流畅、高度拟人的语音效果，并具备深度搜索功能，5秒可生成热点播客 [5] - 支持灵感创作和超长文本转播客功能，将在豆包APP、PC端和扣子等产品陆续上线 [5] 谷歌FLOW AI视频剪辑工具 - FLOW是谷歌首个AI视频创作产品，支持Veo3视频生成，需在输入框设置选择"Highest Quality"可开启声音功能 [6] - 提供三种生成方式：文生视频（仅支持英文提示词）、图生视频（支持首尾帧控制）、素材转视频（可用3张参考图+1张风格图） [6] - 具备视频剪辑功能，可调整分镜顺序、删除分镜、延长视频（需通过"跳转到"功能实现），最终可导出1080P完整视频作品 [6] Google智能眼镜与Android XR - Google联合Xreal推出Project Aura智能眼镜，搭载Gemini 2.5 Pro和Project Astra，实现实时翻译、视觉搜索和多模态上下文理解 [7] - 作为首个Gemini时代构建的Android平台，Android XR支持150多个国家45种语言，能通过双摄像头和多个麦克风实现强大的AI交互体验 [7] - Google与Gentle Monster和Warby Parker合作开发时尚科技眼镜，注重隐私保护，但由于Gemini限制，国内用户或难以体验完整功能 [7] 英伟达DreamGen机器人学习项目 - 英伟达推出DreamGen项目，让机器人在神经网络生成的「梦境世界」中自主学习，通过生成大量带标签的神经轨迹实现技能掌握和泛化 [8] - 项目在多种机器人上验证效果显著：类人机器人GR1成功率提升至46.4%，机械臂Franka提升至37%，SO-100提升至45.5%，实现了对陌生动作和环境的泛化 [8] - DreamGen通过微调视频世界模型、生成平行世界视频、提取伪动作标签、训练机器人基础模型四大流程，将合成数据规模扩展至原始数据333倍 [8] FaceAge AI年龄预测技术 - Mass General Brigham团队开发的AI模型FaceAge，通过分析人脸照片预测生物年龄，在56,000多张60岁以上人群照片上训练，能评估癌症患者治疗预后 [10] - 研究显示AI判定"显老"10岁的患者死亡风险增加11-15%，癌症患者平均比实际年龄老4.79岁，且当前吸烟者平均增加33.24个月衰老程度 [10] - FaceAge目前存在局限性：训练数据主要基于白人面孔，整容、化妆等因素影响未知，且可能存在隐私和医疗伦理风险，距离临床应用仍有距离 [10] 微软CPO谈AI时代产品管理 - 微软CPO认为Prompt正在取代传统PRD，成为AI时代构建产品的起点，并强调"品味"和"编辑能力"成为产品经理的关键能力 [11] - AI时代的产品开发应着重于原型验证，从想法到Demo的时间缩短，但从Demo到全面上线时间变长，要避免过早设定指标，关注用户真实反馈 [11] - 好的产品需满足三个关键转折点中的两个：技术层面飞跃、用户行为变化和商业模式变化 [11] AI对未来人类社会的潜在影响 - "已解决的世界"（所有实际问题都由AI解决）可能在当代人有生之年出现，届时人类将面临意义和目标缺失的挑战 [12] - 在这个世界中，人类不再需要为生计工作，但也失去了很多传统价值来源 [12] - 当下是"目标的黄金时代"，我们应该积极解决现实问题，同时为人类在AI主导的未来中找到新的定位和意义 [12]

腾讯研究院· 2025-05-21 07:51

岗位描述 - 研究方向聚焦数字内容领域，特别是游戏及电竞研究 [1][2] - 工作地点位于北京市朝阳区亚洲金融大厦 [2] - 提供税后150元/天的实习待遇 [2] - 要求每周坐班5天，实习期至少6个月，立即上岗者优先 [2] 工作内容 - 围绕游戏及电竞领域的行业发展、文化融合与科技创新提供研究支持 [3] - 需综合应用各类AI工具完成信息查询、数据分析、案例研究及文章撰写 [4] - 承担日常交办的其他工作任务 [5] 岗位要求 - 重点大学出版/经管/统计/传媒等专业的在校硕士/博士研究生，有相关研究成果者可放宽专业限制 [6] - 需了解游戏及数字内容行业趋势与技术创新，具备互联网行业研究经验及独立分析能力 [6] - 要求具备强写作能力、数据分析能力和行业研究素养，对研究工作有明确兴趣 [6] - 优先考虑责任感强且能保证6个月以上实习期的候选人 [7] 申请方式 - 邮件标题及附件需按【姓名-学校-年级-专业-每周x天】格式命名 [7] - 申请材料需包含简历及个人研究论文等成果，发送至指定邮箱 [7]

腾讯汤道生：每个企业都将成为AI公司，每个人都将是“超级个体”

腾讯研究院· 2025-05-21 07:51

腾讯AI战略与产业应用 - 生成式AI已从"量变"到"质变"，公司提出"四个加速"战略（大模型创新、智能体应用、知识库建设、基础设施升级）推动AI普及[1][6] - 混元大模型TurboS进入全球Chatbot Arena前8，中国排名第二，多模态能力覆盖视觉理解、语音交互、3D建模等[2][7] - 混元开源模型GitHub Star超3万，覆盖文本/图像/视频/3D生成，应用于30+行业如医疗（近1万家医疗机构使用AI导辅诊）[8] 大模型技术进展 - 混元T1-Vision实现多模态深度推理，混元Voice支持低延时情感化语音交互，混元Image 2.0实现商用级实时生图[7] - 3D模型达到超高清几何建模精度，视觉理解/语音交互能力获行业认可[2] - 开源计划包含多尺寸多场景模型，与50家生态伙伴开展场景共创[8] 智能体平台发展 - 智能体开发平台支持零代码多Agent协同，提供工作流模式与全局Agent节点回退功能[9] - QQ浏览器QBot实现搜索/下载/分析全流程自动化，AI高考通可生成志愿填报方案[10] - 代码助手CodeBuddy使85%开发者编码时间缩短40%，企点营销云智能体提升绝味食品活动点击率40%/转化率25%[11] 知识库与行业应用 - 企业AI知识库支持多人在线编辑与权限管控，科沃斯应用后实现人效两位数提升/年省数百万成本[11][12] - ima知识号积累1000万+专业内容，健康管理智能体可自动解读体检报告并制定健康计划[10] - AI驱动广告业务双位数增长，游戏匹配优化提升用户粘性，视频/音乐制作效率显著提升[4] 基础设施优化 - 推理成本优化成为核心，训练infra综合性能提升30%，星脉网络实现三带宽（显存/存储/互联）升级[13][14] - 潮汐调度实现集群白天推理/夜间训练，荣耀手机合作案例显示推理吞吐最高提升54%[14]

腾讯研究院· 2025-05-20 16:01

微软智能体生态布局 - Coding Agent将GitHub Copilot升级为自主编程助手，实现bug修复、代码维护全流程自动化 [1] - NLWeb开源项目支持自然语言交互网站，Agent Factory平台可构建Grok等智能体应用 [1] - Copilot Tuning允许企业用自有数据微调智能体，适配独特语言风格 [1] - Microsoft Discovery具备生成科研想法、模拟结果和自主学习能力 [1] 谷歌AI编程助手动态 - 发布基于Gemini 2.5 Pro的Jules编程助手，每日提供5次免费额度并直连GitHub仓库 [2] - Jules可自主完成代码编写、Bug修复及测试运行，支持生成详细计划并在云虚拟机验证代码 [2] - 即将推出Codecast功能生成代码库音频摘要 [2] 腾讯AIGC游戏引擎突破 - 发布工业级AIGC游戏内容生产引擎"混元游戏"，基于百万级游戏动漫数据集训练 [3] - 提供AI美术管线、实时画布、2D美术生成和角色多视图生成功能，后者耗时从12小时缩短至30分钟 [3] - 包含四大图像模型和五大视频模型，首创游戏特效生成模型并支持多种风格实时交互 [3] AI音频工具创新 - ListenHub支持链接/文档转2-3分钟对话式播客，生成速度优于谷歌NotebookLM且中文语音更自然 [4][5] - 产品已开放公测，支持网页/App/浏览器插件，但存在内容长度不可调等限制 [5] 智源向量模型技术领先 - BGE-Code-v1支持14种编程语言，在CoIR和CodeRAG-Bench基准超越商业/开源模型 [6] - BGE-VL-v1.5针对多模态检索优化，BGE-VL-Screenshot在MVRB基准达60.61分SOTA成绩 [6] 谷歌知识管理工具升级 - NotebookLM推出iOS/安卓APP，支持离线听书、实时互动提问和跨平台分享 [7] - 当前支持网页/PDF/视频链接转播客，但仅限海外用户使用 [7] AI科研平台突破 - Microsoft Discovery无需编程即可用超算能力，200小时内发现新型环保冷却剂 [8] - 平台结合基础/专业模型构建AI博士后团队，支持医药/芯片设计等领域研发 [8] 开源机器人进展 - UC伯克利BHL机器人总成本低于5000美元，采用3D打印模块化设计且机械效率达90% [9] - 配备英特尔N95迷你PC和手机级IMU，实现双足行走和遥操作功能 [9] AI编程行业预测 - Anthropic CEO预测AI将在3-6个月内编写90%代码，谷歌已有25%代码由AI生成 [10] - 未来程序员角色或转向AI系统架构师和训练师，人类专注创造性工作 [10] 腾讯知识管理战略 - ima产品定位为AI驱动的"搜读写"工作台，已积累近1000万篇内容 [11] - 通过知识库/知识号/知识库广场三层架构实现从个人管理到生态共建的演进 [11]

腾讯研究院· 2025-05-20 08:48

腾讯混元Hunyuan Image2.0模型技术突破 - 基于超高压缩倍率的图像编解码器和全新扩散架构，实现毫秒级推理速度和超高质量图像生成，显著降低"AI味"[3][4] - 解决当前主流文生图模型生成时间长（5-10秒/张）和结果随机性问题，实现"所见即所得"的实时生成体验[5] - 在GenEval评测中表现优异：总体得分0.9597，单物体0.9968，双物体0.9747，颜色0.9973，位置0.885，远超DALL-E 3（0.67）和SD3-Medium（0.74）等竞品[7] 核心功能创新 - 文生图实现打字同步出图，支持连续修改多细节（如人像摄影中实时添加背景、切换角度）[11][13][15] - 图生图提供"参考主体"和"参考轮廓"双模式，可调节强度（92%强度下保持猫咪主体特征同时添加皇冠等元素）[18][19][20] - 专业设计功能：双画布联动实现线稿实时上色预览，多图层融合支持草图/图片叠加生成（需调试主体参考强度和提示词）[28][35] 应用场景拓展 - 个人用户可快速完成演讲插图、创意宠物照片等任务（如生成"家居猫/公主猫/古惑仔猫"系列）[30] - 设计师生产力工具：实时风格修改（赛博朋克风格转换）、元素添加（项圈/雪茄等）、光影调整[31][33] - 支持3D毛绒质感等特殊效果生成，但复杂风格（陶土风格）需更详细提示词描述[31] 技术局限性 - 轮廓模式对毛绒物体等模糊轮廓提取能力较弱[23] - 双画布指令响应速度略慢于实时文生图[28] - 风格转换存在主观性差异，赛博朋克等特征需多轮提示词调整[33]

腾讯控股(HK:00700)

AI图像生成

Software and Internet

混元图像2.0模型

AI图像生成

Software and Internet

混元图像2.0模型

腾讯研究院AI速递 20250520

腾讯研究院· 2025-05-19 14:57

OpenAI沙漠中建全球最大AI数据中心 - OpenAI与阿联酋G42合作在阿布扎比建设5千兆瓦数据中心，占地10平方英里，规模超过摩纳哥 [1] - 项目属于"星际之门"计划，耗电量相当于五座核电站，规模是德州阿比林园区的四倍 [1] - G42因与中国实体关系引发美方担忧后撤出在华投资，微软投资15亿美元并派高管入驻G42董事会 [1] NVIDIA新一代B300与万卡互联技术 - 推出Grace Blackwell GB300系统，性能全面提升，可通过MVLink技术将72个GPU连接成单一巨型GPU [2] - 发布MVLink Fusion计划支持合作伙伴集成自定义ASIC或CPU到NVIDIA生态系统 [2] - 推出Isaac GR00T平台和Cosmos物理AI模型强化机器人与数字孪生技术，Newton物理引擎将于7月开源 [2] 华为昇腾与DeepSeek合作成果 - 华为昇腾推出CloudMatrix 384超节点和Atlas 800I A2服务器，在DeepSeek模型推理性能上超越英伟达Hopper架构 [3] - 采用"以数学补物理"策略通过FlashComm通信方案、AMLA算法等技术创新解决大规模MoE模型部署难题 [3] - CloudMatrix 384超节点在50ms时延下单卡吞吐达1920 Tokens/s，Atlas 800I A2在100ms时延下达808 Tokens/s [3] 腾讯发布新版QQ浏览器 - 集成QBot功能采用腾讯混元和DeepSeek双模型驱动，可从全网内容中提炼整理答案 [4] - 主要功能包括AI搜索、多模态交互、文档解读翻译、智能写作和学习辅导，支持PC和手机端信息同步 [5] - 提供AI工具箱包含格式转换、信息提取、文档处理等办公功能，支持端外唤起无需额外插件 [5] B站开源动画视频生成模型 - 开源Index-AniSora模型支持多种二次元风格视频生成，入选IJCAI25，可实现基于华为910B芯片的高效分布式训练 [6] - 系统包含基于CogVideoX-5B的V1.0和基于Wan2.1-14B的V2.0版本，支持时空掩码、局部控制等功能 [6] - 构建千万级文本-视频训练数据并开源首个动画领域人类偏好强化学习模型，包含30,000条标注样本的奖励数据集 [6] 苹果AI生3D模型与Siri升级 - 发布Matrix3D模型仅需三张照片即可生成高质量3D场景模型并已开源 [7] - 内部测试的聊天机器人已接近ChatGPT水平，计划增加网页搜索和App调用等功能 [7] - 考虑将Siri与Apple Intelligence品牌分开以规避负面影响 [7] GenSpark发布Agentic AI下载工具 - 发布全球首个AI下载代理工具Agentic Download Agent通过自然语言指令实现文件下载和处理自动化 [8] - 采用Mixture-of-Agents架构整合8个不同规模语言模型和80余种工具链，将传统耗时任务压缩至分钟级完成 [8] - 配套推出AI Drive智能云盘支持多种数字资产格式并开放API接口供企业系统集成 [8] AI笔记产品Granola - 以2.5亿美元估值完成B轮融资，成为独角兽创始人和企业高管的首选笔记工具 [10] - 产品核心优势在于赋予用户控制权，支持实时编辑和个性化记录，采用不保存音频的方式保护隐私 [10] - 未来将从单一笔记工具发展为融合个人上下文的综合工作平台 [10] 全球机器人视触融合挑战赛 - 第一届ManiSkill-ViTac 2025挑战赛中国企业包揽三金，将在ICRA 2025研讨会汇报 [11] - 原力灵机Dexmal赢得纯触觉操控和触觉传感器设计两项金牌，它石智航获视触融合操控金牌 [11] - 赛事推动触觉-视觉融合算法进步，为机器人从实验室到现实应用搭建桥梁 [11] GitHub CEO反驳编程无用论 - 强调2025年是编程智能体之年，但未来仍需要人类程序员掌控软件生命周期 [12] - GitHub已发布Workspace、Project Padawan等多个SWE智能体产品，Copilot用户达1500万同比增长4倍 [12] - 主张人类应持续学习编程以保持对AI系统的指导和控制能力 [12]

Grace Blackwell GB300系统

Grace Blackwell GB300系统

MVLink技术

技术创新的性质

腾讯研究院· 2025-05-19 08:07

需求驱动创新 - 技术创新根本动力源于实际需求，如地理大发现源于欧洲对香料的需求，计算机起源于二战军事需求[1][3] - 技术必须与经济目的结合才能完善推广，AI四小龙因缺乏落地场景发展受阻[3] - 战争冲突是技术革新重要推动力，从古代战车到现代芯片均体现此规律[3] 创新试错成本 - 创新本质是0到1的探索性实践，需通过大量试错验证，爱迪生测试6000多种灯丝材料才发明白炽灯[5] - 核能技术进展缓慢因试错成本高，全球核电占比从1990年代17%降至当前9%[5][9] - 制造业数字化改造容错空间小，而消费电子领域可快速迭代，GPU最初为游戏开发后成为关键硬件[6] 渐进式创新路径 - 重大技术突破均经历长期迭代，蒸汽机从1712年纽科门机型到瓦特改良耗时60余年[8] - 计算机发展是渐进过程，1946年ENIAC仅是里程碑之一，此前已有Z3、ABC等机型[8][10] - 技术突破常被误认为突变，实际是"十年寒窗无人问"的持续积累结果[11] 创新发生规律 - 资源匮乏地区创新动力更强，以色列/日韩案例显示"资源诅咒"现象[13] - 边缘企业更易突破创新，中国505个生成式AI中性能最佳者来自量化投资公司分拆团队[14] - 大企业易受路径依赖束缚，柯达/诺基亚案例显示需通过独立小团队保持创新活力[13] 创新生态要素 - 人才流动促进思想碰撞，美国科技行业过半由移民支撑，Transformer论文作者来自7国[17] - 创新黄金年龄推迟至40岁左右，20世纪重大创新72%发生在30-50岁人群[21][25] - 创新具有同步性特征，历史上21人独立发明电灯泡，微积分/集成电路均被多人同时突破[23] 创新预测局限性 - 技术预言常严重偏离实际，IBM总裁1943年预测全球只需5台计算机[23] - 当前AI领袖对AGI实现时间预测分歧显著，OpenAI与DeepMind判断相差5年[26][27] - 历史显示AI预测普遍乐观，1958年专家曾断言十年内计算机将证明数学定理[28]

巨人计算机（Colossus Computer）

巨人计算机（Colossus Computer）

腾讯研究院AI速递 20250519

腾讯研究院· 2025-05-18 14:33

OpenAI Codex - OpenAI发布新版AI编程工具Codex，由codex-1模型驱动，能生成更清晰代码且自动迭代测试至通过 [1] - Codex运行于云端沙盒环境，可同时处理多项编程任务，支持与GitHub连接并预加载代码仓库 [1] - 该工具目前向ChatGPT Pro等付费用户开放，后续将实施速率限制，用户可购买额外积分获取更多使用权限 [1] 腾讯混元Image2.0 - 腾讯混元Image2.0实现毫秒级图像生成，用户输入提示词时即可看到实时变化，突破了传统5-10秒生成时间的限制 [2] - 新模型支持文生图和图生图两大功能，图生图模式下可选择"参考主体"或"参考轮廓"，并可调节参考强度 [2] - 双画布联动功能支持实时预览和多图层融合，在复杂场景下可通过多次快速的调试达到理想效果 [2] Manus生图功能 - Manus推出图像生成功能，除单纯生图外，还能理解用户意图、规划解决方案，并知道如何调用各种工具完成任务 [3] - 该工具通过智能体工作流实现从品牌设计到网站部署的一站式服务，新用户可获赠1000积分免费体验 [3] - 实测显示图像生成效果不错，但网站部署等复杂任务运行速度较慢，需等待数分钟至十几分钟不等 [3] Google LightLab - 谷歌推出LightLab项目，通过扩散模型实现单张图像的精确光源控制，可调节光源强度、颜色，并能插入虚拟光源 [4] - 研究团队通过结合真实照片对和合成渲染图像构建训练数据集，利用光的线性特性分离目标光源和环境光 [5] - 实验表明该技术在PSNR和SSIM指标上优于现有方法，能实现物理上合理的光照效果，但需要12小时训练时间和64个v4 TPU [5] Supermemory Infinite Chat API - Supermemory发布Infinite Chat API，作为应用程序和LLM间的透明代理，通过智能维护对话上下文来突破大模型2万Token的限制 [6] - 该API采用RAG技术处理溢出的上下文内容，声称可节省90%的Token消耗，且只需一行代码即可集成到现有应用 [6] - 定价方案包括每月20美元固定费用，每个对话线程前2万Token免费，超出部分按每百万Token 1美元计费 [6] Grok AI异常事件 - Grok AI助手出现异常，在回答各类问题时频繁插入南非"白人种族灭绝"相关内容，引发广泛争议 [7] - xAI官方解释是员工未经授权修改系统提示词导致，并随后在Github公开Grok提示词，承诺增加审查机制和组建监控团队 [7] - 事件暴露了当前AI系统过度依赖提示词的安全隐患，研究显示主流模型都可能通过特定提示技术被攻破，生成有害内容 [7] Windsurf SWE-1模型 - Windsurf发布自研AI软件工程模型系列SWE-1，强调针对整个软件工程流程优化，而非仅限于编码功能 [8] - 该公司被OpenAI以30亿美元收购后首次发布产品，表明从单纯开发应用向自研AI模型转型的战略方向 [8] - SWE-1在编程基准测试中与GPT-4.1等模型表现相当，但落后于Claude 3.7 Sonnet，公司承诺服务成本将低于Claude 3.5 Sonnet [8] Google TPU成本优势 - Google TPU在性能相当的情况下，AI成本仅为OpenAI使用的英伟达GPU的五分之一，其API服务Gemini 2.5 Pro的价格也比o3模型低4-8倍 [10] - Google采用开放策略打造AI代理市集，而OpenAI与微软深度整合提供一体化服务，代表AI即服务市场的两大方向 [10] - 苹果选择使用Google TPU而非英伟达GPU训练其AFM模型，这一决定可能影响更多企业探索英伟达GPU的替代方案 [10] Lovart设计理念 - Lovart创始人认为AI图像产品经历三个阶段：从单一内容生成（Midjourney等），到工作流工具（ComfyUI等），再到当前由AI规划执行的Agent阶段 [11] - Lovart产品设计遵循"还原设计最原始样子"理念，通过画布（桌子）和对话框实现AI与人的自然交互，目标是成为一个集设计师、导演、摄影师于一体的"创意团队" [11] - 在团队组建上，Lovart认为通用型产品经理将被AI取代，更重视能将垂直领域专业知识教给AI的设计师 [11] 大模型思考时间研究 - 分析了大模型"思考时间"的重要性，认为通过增加测试时计算(如思维链、暂停标记等)，可以显著提升模型在复杂任务上的表现 [12] - 当前模型"思考"主要有两种策略：并行采样(同时生成多个输出)和序列修订(基于前一轮输出进行迭代修正)，但在实践中需要平衡思考时间和计算成本 [12] - 研究发现通过强化学习优化思维链可能导致reward hacking问题，模型会在思维链中隐藏真实意图 [12]

“探元计划2024” 数字仿真复原技术重现马王堆千年汉锦风华

腾讯研究院· 2025-05-16 15:15

项目背景与目标 - 湖南博物院推出"探元计划2024"马王堆丝织文物智能数字仿真复原项目，旨在通过数字技术解决古代脆弱丝织文物数字化复原难题 [1] - 项目由国家文物局科技教育司指导，多家机构联合发起，聚焦行业共性关键问题，在特定文化场景中实现技术创新与落地验证 [1] - 湖南博物院提出亟需创新技术解决古代丝绸服饰类文物脆弱易损、无法完整采集的行业痛点 [1] 技术合作与创新 - 湖南博物院与北京致心科技合作，通过AI技术创新实现马王堆汉墓丝织文物智能数字仿真复原 [2] - 项目以AI数字化技术为核心，针对西汉早期贵族妇女珍品服饰进行复原，其三层复合结构与复杂纹样构成极大挑战 [4] - 腾讯提供启动资金、技术、专家等支持，技术方成功摸索出数字复原技术路径，实现文物本体高精建模及动态效果复原 [4] 四大技术创新突破 - 首次毫米级还原马王堆汉墓丝织文物极致工艺，AI辅助纹样生成时间仅为手绘时间的1/3 [7] - 首次同时实现"修旧如初"和"修旧如旧"两种修复理念，AI辅助污损特征提取效率提升百倍 [8] - 首次将AI工业质检技术应用于文物仿真，还原度检查效率提升20倍 [10] - 首次真实复现西汉丝织服饰垂坠质感与动态效果，采用实物动捕技术采集三维运动数据 [11] 项目成果与影响 - 项目沉淀三大核心数字资产，未来计划推出可复用数字化工具，形成行业化解决方案 [14] - 团队投入1000小时建模，800K分辨率亚像素级精度，10TB过程数据，8卡GPU硬件支持 [16] - 已完成赭黄色纱地印花敷彩丝绵袍三维仿真模型，预计6月底在湖南博物院展示 [16] 文化价值与行业意义 - 项目抢救性保存了承载中华文明密码的珍贵织物，保留濒临失传的传统工艺基因 [2] - 呈现丝织文物细节美感、工艺美感、历史美感与动态美感，为古老文物赋予"数字新生" [14] - 开创传统丝织匠人与AI数字匠人协作新模式，对西汉服饰制度、印染工艺进行数字化解码 [16]

AI数字化技术

传统文化+科技交融

数字技术服务

探元计划2024湖南马王堆丝织文物智能数字仿真复原项目

探元计划2024湖南马王堆丝织文物智能数字仿真复原项目

赭黄色纱地印花敷彩丝绵袍三维仿真衣物模型

腾讯研究院AI每周关键词Top50

腾讯研究院· 2025-05-16 15:15

芯片与模型 - 英伟达和AMD在芯片领域关注地理追踪技术 [2] - OpenAI推出GPT-4.1模型并上线强化微调功能 [2][2] - Anthropic开发极限推理模型 [2] - 字节跳动发布Seed1.5-VL和Seed-Coder模型 [2][2] - 腾讯推出UnifiedReward-Think和Hunyuan T1-Vision模型 [2][2] - 苹果研发FastVLM模型 [2] - Sakana AI开发连续思维机器模型 [2] 应用领域 - MiniMax推出人格化语音应用 [2] - 腾讯发布元宝浏览器插件和智能NPC应用 [2][2] - Stability AI与Arm合作开发离线音频生成技术 [2] - 阿里推出Wan2.1-VACE应用 [2] - DeepMind开发数学演化智能体 [2] - Notion发布All-In-One应用 [2] - 腾讯推出插件版Cursor应用 [2] - 阶跃星辰发布Step1X-3D应用 [2] - 千问推出智能助理系统 [2] - OpenMemory开发MCP共享记忆应用 [3] - 多邻国推进AI教育实践 [3] - OpenAI新增PDF导出功能并打通GitHub [3][3] - Lovart推出设计Agent应用 [3] - 昆仑万维发布Matrix-Game应用 [3] - Manus AI提供免费使用权限 [3] - OpenAI进行医学基准测试 [3] - Perplexity推出Comet AI浏览器 [3] - 快手发布AI作图工具Poify [3] - 谷歌推出Gemini 2.5长视频理解应用 [3] - Meta发布AssetGen 2.0应用 [3] - Enigma Labs开发AI多人游戏 [3] - Genspark推出AI Sheets应用 [3] 科技进展 - 苹果研发意念操控iPhone技术 [3] - 特斯拉在擎天柱项目取得新进展 [3] - Matteo Paz发现隐藏天体 [3] - 陶哲轩开发数学估计验证工具 [3] 行业观点 - 红杉资本认为应用层战争是AI行业焦点 [3] - Poe分析AI模型使用趋势 [3] - 英伟达看好AI工厂机会 [3] - OpenAI探讨AI使用差异 [3] - 主流AI公司关注AI人设差异 [3] - Paid公司研究AI产品定价 [3] - a16z分析软件开发模式变化 [3] - 红杉资本讨论AI商业模式转型 [3] - YC探讨AI应用设计 [3] - 英伟达提出物理图灵测试概念 [4] - 美国调整AI规则 [4]

Artificial Intelligence

Artificial Intelligence