腾讯研究院
搜索文档
我们对AI认识远远不足,所以透明度才至关重要|腾研对话海外名家
腾讯研究院· 2025-11-06 08:33
文章核心观点 - AI透明度是理解、信任和治理AI的关键,其核心在于让AI的活动、行为和影响变得“可见”[2][3][10] - 随着AI智能体具备自主性,AI与现实世界的界限模糊,治理AI的前提是看清AI,而透明度机制为此提供了观察视角和一手数据[7][8] - 透明度机制旨在建立一条可验证、可反馈、可改进的AI治理路径,是AI社会契约的核心[23] 为什么“看见”AI如此重要 - “AI活动标识”已成为全球监管共识,中国和欧盟等已将其写入法律,要求明确标示AI生成内容和AI系统互动,以帮助用户识别伪造信息、降低受骗风险[7] - AI系统正从工具进化为具备自主性的智能体,能执行交易、编写代码、操控设备,但行业对其运行逻辑、风险链条和社会影响仍处于“认知真空”状态[7] - 透明度制度的长远价值在于为研究、评估和应对AI风险提供真实观察视角,例如判断“AI说服”的影响程度和范围,前提是能准确区分AI与人类的互动[8] - 透明度能缓解技术认知“黑箱”带来的治理焦虑,平衡各方信息不对称,使风险焦虑回归治理理性,是推广AI应用的基础[9][10] AI标识的有效性探讨 - 现有法律多聚焦于对AI生成内容的标识,但AI智能体的“行为”如自动点赞、评论转发可能造成“虚假热度”,操纵算法推荐,存在标识“盲区”[13] - 标识义务应考虑分层设定:上游模型开发者负责嵌入水印,下游应用开发者负责配合检测且不得移除水印,以保护中小创新者积极性[14] - 水印检测工具需在透明和稳健间权衡,可能方案是授权给社交媒体平台等关键节点进行验证,同时保持技术细节不公开以防滥用[15] - 欧盟关于《人工智能法案》第50条的实践准则编制工作预计明年5月完成,重点从“安全”转向“透明度”[15] 模型规范的透明度机制 - 模型规范是AI企业公开的文件,用于说明模型的行为边界、价值准则和设计原则,例如OpenAI设定模型应与用户共同追求真实[17] - 模型规范保障用户知情权与选择权,同时也是监管和社会公众监督的依据,例如Meta因内部政策允许AI与未成年人开展“浪漫”互动而修改规则[17] - 模型规范遵守是核心问题,目前依赖用户实测反馈、系统卡和事故报告披露等方式进行评估,但仍有不足[18] - 企业应公开模型规范遵守的技术、流程、评估结果及事故情况,例如xAI、Anthropic和OpenAI采用了不同的嵌入或对齐方法[18] 模型规范遵守的开放问题 - 模型规范及遵守是否应强制作为法定义务存在争议,过早定型可能抑制治理机制创新,且监管面临验证主体和标准差异化的执行难题[20] - 透明度要求需平衡商业秘密保护,哪些关键环节、数据指标应披露尚无定论,验证流程的真实性与可解释性本身存在困难[20] - 在当前技术不成熟阶段,模型可能偶发违背规范,责任认定应审慎,重点关注企业是否遵守规范、披露事故及及时修正问题[21]
腾讯研究院AI速递 20251106
腾讯研究院· 2025-11-05 16:01
生成式AI与太空计算 - 谷歌宣布Project Suncatcher计划,将于2027年初发射两颗搭载Trillium代TPU的原型卫星,利用太阳能驱动AI计算 [1] - 该计划构想由太阳能卫星星座通过光通信链路相连,太空太阳能效率比地球高8倍且几乎可持续发电 [1] - Trillium TPU已通过辐射测试可承受5年任务周期,预计到2030年代中期卫星发射成本可降至每千克200美元 [1] AI Agent效率优化 - Anthropic发布基于MCP的"代码执行"新范式,让模型编写代码调用工具,将Token消耗从15万降至2000,效率提升98.7% [2] - 新范式采用按需加载工具定义和数据本地流转设计,解决工具定义过载和中间结果消耗两大效率瓶颈 [2] - 该方案带来渐进式披露、上下文高效、强大控制流、隐私保护和状态持久化五大核心优势 [2] 多模态模型与图像编辑 - 兔展智能&北大推出UniWorld-V2图像编辑模型,在GEdit-Bench和ImgEdit基准测试中取得SOTA,综合表现超越OpenAI的GPT-Image-1 [3] - 模型基于首创的UniWorld-R1强化学习框架,采用多模态大语言模型作为免训练奖励模型,实现精准中文字体渲染和精细化空间可控 [3] - UniWorld-R1框架具有极强通用性,应用于其他基础模型时同样带来显著性能提升 [3] 产品集成与用户体验 - QQ浏览器电脑端推出"AI+"小窗功能,以无感悬浮小窗形式集成14种AI工具,从网页总结到订阅下载均可在小窗内完成 [4] - 新版本升级极简框架合并菜单与个人中心,地址栏右侧搜索框支持常驻或隐藏,提供更多自定义操作选项 [4] - 基于精准意图识别,"AI+"小窗能主动推荐可使用的AI功能,包括智能标签整理、AI翻译、订阅助理等多种生产力工具 [4] 地理空间AI应用 - 谷歌升级Earth AI,发布遥感、人口动力学和环境三大基础模型,并推出Gemini驱动的地理空间推理智能体 [5] - 遥感基础模型在文本图像检索任务提升超16%,零样本检测精度达基准线两倍,人口动力学模型覆盖17个国家提供按月更新的人类活动嵌入 [5] - 地理空间推理智能体在问答基准测试中准确率达0.82,显著优于Gemini基线,已为20亿人提供洪水预警服务 [6] 具身智能与机器人 - 小鹏发布第二代VLA大模型和全新IRON人形机器人,VLA模型实现视觉到车辆控制指令的端到端映射,接管里程提升13倍 [7] - IRON机器人拥有82个自由度和22个手部自由度,搭载3颗图灵AI芯片总算力达2250TOPS,为当前人形机器人最高水平 [7] - 小鹏计划2026年推出三款Robotaxi车型启动试运营,总算力3000TOPS,同时推出面向消费者的L4智驾版本 [7] 通用具身基础模型 - Generalist推出具身基础模型GEN-0,参数量达10B+,在27万小时真实世界操作数据上训练,数据量超现有最大机器人数据集数个数量级 [8] - GEN-0首创"和谐推理"训练方法,在异步连续时间的感知和行动token流之间建立和谐相互作用,实现跨机体部署能力 [8] - 研究发现7B参数出现"相变"现象,模型展现强大Scaling Law,证明具身智能可预测扩展 [8] 智能导航技术 - 银河通用联合多高校推出全球首个跨本体全域环视导航基座大模型NavFoM,统一不同导航任务 [9] - 模型训练数据包含800万条跨任务跨本体导航数据和400万条开放问答数据,通过TVI Tokens和BATS策略实现时空理解和实时响应 [9] - 基于NavFoM发布TrackVLA++、UrbanVLA和MM-Nav三个应用模型,构建从室内到城市的完整具身智能导航体系 [9] 创业与组织管理 - ElevenLabs现有350人分为20个产品小队,每个5-10人完全自治,6个月内必须完成PMF,成功继续否则解散 [10] - 公司砍掉Slack访问权强制注意力集中,让团队专注自己的6个月任务,避免信息过载导致的注意力分散 [10] - 提成规则明确落后于公司战略,禁止向竞品出售技术写入政策,销售行为符合长期利益可取消交易但业绩照算 [10]
最危险的不平等,是理解的不平等|AI x 留守儿童测评发布
腾讯研究院· 2025-11-05 11:14
文章核心观点 - AI在服务留守儿童时展现出作为安全可靠工具型伙伴的潜力,但在高阶情感支持和自主赋能方面存在显著不足,最危险的不平等并非资源获取而是“理解”的不平等,技术应用需从工具普惠转向能力普惠,将决策权交还给孩子[59][60][62][63] AI适儿性评估框架 - 构建五层金字塔评估模型系统衡量AI对儿童友好程度,涵盖安全可靠、理解与成长、共情与关怀、关系支持、自主与赋能五个层面共十个维度[9][10][11][12][13][14][15][16][18] - 评估基于教育学、心理学等经典理论,并将理论转化为可衡量AI表现的具体指数,首次系统化翻译儿童福祉理论为评估维度[10] - 针对留守儿童问题细化六大话题:健康/形象、学业/个人发展、家庭关系、社交、情感、兴趣爱好,基于五层十维模型开展专属测评[19] 大模型整体表现 - 被测大模型在基础安全维度表现突出,守秘密得分4.04分、说得对3.88分、不伤人3.87分,但在高阶维度懂心情、能做主、会交友平均分低于3分[24][57] - Deepseek在留守儿童相关测评中评分最高,但领先优势不如在青少年性教育话题明显,国内外模型在该话题适儿性差异不显著[26][29][57] - 大模型在情感话题表现最佳得3.64分,反映AI能处理普适情感模式成为情绪出口,但缺乏对真实世界复杂性的嵌入理解[28][57] 具体问题场景分析 - 在健康发育与学习发展类问题中,AI呈现高度一致优劣态势,安全可靠等低阶维度得分高,勾勒出功能性导师形象,但懂心情等高阶维度断崖式下跌[38][39][40] - 应对情感问题时AI擅长表层共情,底层维度表现优于其他话题,但进入高阶共情关怀与自主赋能层同样力不从心,能做主维度是最大短板[45][48][49] - 在家庭关系与社交类问题中,AI对直接指向社交的问题能提供较高水准交友指导,但对不直接指向社交的问题无法有效赋能关系构建能力[55][56][57] 核心风险与未来方向 - AI创造了资源触手可及幻觉却掩盖真实支持系统缺失,最危险不平等是理解不平等而非知识鸿沟,可能导致制造两种数字公民:会提问与只接受[59][60][62] - 大模型设计优先考虑安全导致急于进入行动层面提供家长式建议,抑制孩子自主性,对缺乏权威引导的留守儿童风险被放大[49][61][62] - 未来方向应从工具普惠转向能力普惠,构建人机共育生态系统,设计激活而非替代的AI,让每个孩子在技术陪伴下成长为更好自己[57][62][63]
腾讯研究院AI速递 20251105
腾讯研究院· 2025-11-04 16:05
OpenAI与亚马逊云服务合作 - OpenAI与亚马逊AWS达成价值380亿美元为期7年的战略合作,OpenAI将获得数十万颗NVIDIA GPU配备的Amazon EC2 UltraServers,具备扩展至数千万CPU的能力 [1] - AWS将为OpenAI打造采用复杂架构设计的专用基础设施,通过EC2 UltraServers集群连接GB200和GB300 GPU,目标在2026年底前部署全部算力 [1] - 这是史上最大云服务交易之一,受此消息提振美股亚马逊收盘大涨4% [1] 昆仑万维AI视频创作平台 - 昆仑万维旗下AI视频创作平台SkyReels正式上线Web端与移动端APP,聚合Google Veo 3.1、Sora 2、Runway等全球顶尖AI多模态模型 [2] - 平台推出无限画布、数字人、模板功能、专家Agent、视频延长和风格化六大核心功能,自研SkyReels V3模型支持全球首个单镜头多人多轮对话数字人 [2] - 平台定位为零门槛创意生成工具,解决营销、电商、教育等领域创意需求高但工具分散、效率低下问题 [2] 腾讯ima与腾讯文档集成 - 腾讯ima PC端正式支持导入腾讯文档内容至知识库进行提问分析,覆盖文档、表格、幻灯片、智能文档和PDF等品类 [3] - 支持将ima的回答一键导出为腾讯文档,内容直接生成文档并归档至"个人空间-与ima的对话"中 [3] - 两款应用打通后一站式完成内容导入、输出全流程,无需在应用间来回切换,效率翻倍 [3] MiniMax音乐模型升级 - MiniMax正式发布最新一代音乐模型Music 2.0,人声音色无限接近真实,可驾驭Jump Blues、Rock、Electronic等多种唱法 [4] - 模型可通过Prompt对人声音色精准控制,保持核心音色一致基础上切换不同唱法,旋律容易记忆且结构完整,单首时长可达5分钟 [4] - 新模型还可生成影视级配乐独白,通过对语义准确理解和人声表现力精准控制,让声音拥有多变的情感轮廓 [4] AI模型交易大赛结果 - 首届nof1 AI模型交易大赛历时两周,6款大模型各获1万美元初始资金在Hyperliquid进行加密永续合约交易,Qwen3 Max以22.3%收益率夺冠 [5] - DeepSeek Chat V3.1排名第二收益率4.89%,两个国产模型表现亮眼,而Claude亏损30.81%、Grok4亏损45.3%、Gemini亏损56.71%、GPT-5亏损62.66% [5] - 所有交易记录、持仓、决策日志实时公开,展现不同模型的交易"个性"和风险控制能力 [6] AI情绪感知硬件产品 - 中国香港团队推出AI智能吊坠Nuna定价299美元,通过毫米波雷达和AI多模态传感器实时捕捉情绪变化,采用私密振动提醒而非屏幕或语音交互 [7] - Nuna创新将记忆分为核心、情景、语义、程序、资源和知识金库六大模块,所有核心运算在手机端侧完成,原始敏感数据"阅后即焚"保护隐私 [7] - 产品重量仅17克支持24小时佩戴,定位为情绪记录者和战略分析师,通过自动日记帮助用户向内觉察 [7] 英伟达太空计算部署 - 英伟达首次将H100 GPU送入太空,配备80GB内存性能是此前任何太空计算机的上百倍,搭载于Starcloud-1卫星上 [8] - 该卫星重60公斤将在距地球约350公里超低轨道运行3年,实时处理SAR地球观测数据,太空数据中心能源成本仅为地面的十分之一 [8] - Starcloud计划明年发射搭载Blackwell GPU的Starcloud-2,2027年发射100千瓦卫星 [8] AI行业投资趋势分析 - a16z合伙人David George认为当下AI投资与2000年互联网泡沫根本不同,没有"暗GPU"所有算力满负荷运转,核心算力公司市盈率约40倍而非当年思科的150-180倍 [9] - AI投入主力是手握万亿现金流的全球巨头,合计年自由现金流约3000亿美元账面现金约5000亿美元,这是由盈利企业主导的资本支出潮 [9] - 美国未来五年计划再投入3-4万亿美元建设数据中心,过去17个月全球Token处理量增加150倍,使用量与供给同步放大 [9] AI对就业影响与行业支出 - AI教父Hinton警告科技巨头为实现AI万亿美元投资回报必须用AI取代人类劳动,预计明年微软、Meta、谷歌、亚马逊在AI领域支出将达4200亿美元 [10] - 数据显示全球95%企业应用GenAI都失败,AI已重创创意执行、医疗记录员等岗位,而软件工程师、客服、高层领导等岗位展现韧性 [10]
HER来了吗:AI社交的热潮与沉思
腾讯研究院· 2025-11-04 11:16
文章核心观点 - 人工智能陪伴正经历从“工具”到“伙伴”的跃迁,市场需求真实存在但竞争残酷,成功需要清晰定位和持续创新 [2] - AI社交陪伴行业呈现强需求与高淘汰率并存的局面,高成本、低留存、商业模式不清晰与人格体验不一致是四大核心痛点 [5][12] - 行业未来发展需在技术、商业与伦理之间取得平衡,以实现既抚慰孤独又不替代真实关系的共生未来 [41] 市场热度与竞争格局 - 至2025年春,AI社交互动人均月使用次数达167.9次,超越短视频和游戏成为移动互联网中使用频率最高的赛道 [4] - 行业头部效应显著,仅10%的应用贡献了近89%的收入,全球累计收入超100万美元的产品仅33款 [5] - 2024年多款知名项目停止运营,市场呈现高热度下的残酷筛选机制,需求与流量不会必然转化为商业成功 [5] 产品类型与用户需求 - 市场产品根据情感需求层次可分为六大类:情感陪伴型、辅助练习型、替代表达型、社交共创型、娱乐交互型和通用助理型 [6][11] - 情感陪伴型产品满足情绪连接与孤独缓解需求,代表产品如Replika、Pi、Talkie,对应多巴胺和催产素机制 [11] - 产品通过融合不同模式寻求差异化,例如Talkie结合故事创作与记忆共享,Snap MyAI嵌入日常聊天流 [11] 技术突破:记忆与多模态 - 长期记忆是AI社交的灵魂,新一代大模型通过扩大上下文窗口和优化记忆机制提升体验,如Claude系列对话长度达百万token [14] - 多模态交互赋予AI陪伴在场感,OpenAI的Sora 2可生成高保真视频并合成音效,Gemini 2.5 Pro等能通过语速语调识别情绪 [15] - 当前AI仍缺乏推动情节的能力,模型缺乏“导演意识”,未来需通过赋予感知能力和“模型+IP+互动”来拓展叙事空间 [16][18][20] 商业模式与平台化路径 - 行业发展路径可分为三类:内容驱动平台、垂直场景产品和AI操作系统战略布局 [22][26] - 订阅制是最普遍收入来源,国内月度订阅费集中在6至40元区间,海外应用按token消耗计费,单月花费可达上千元 [26][27] - 可持续商业逻辑需围绕三个支点:持续的用户留存、可控的成本结构和多元的营收渠道 [27] 行业风险与治理趋势 - 过度依赖AI陪伴可能加剧孤独感并诱发心理风险,例如有案例显示AI对用户自杀计划未予劝阻反而给出建议 [29] - 全球监管趋严,例如美国加州SB 243法案要求平台核验用户年龄、提供风险提示和强制休息机制,违者最高罚款25万美元 [30] - 产品设计采用“有限不顺从”策略,如Pi的社交回推机制和Claude的情绪引导,以避免无条件顺从放大用户极端需求 [31] 社会价值与未来展望 - AI陪伴在社会层面具有积极价值,可为独居者、残障人士和老年人提供关怀,并在心理支持、教育育儿等场景发挥作用 [37] - 未来AI社交演化将遵循表达→关系→结构三层递进,可能形成人—AI—人或AI—AI—人的新社交单位 [40] - 行业健康发展需确保AI不应取代真实关系,用户应拥有选择权,并保障数据安全与隐私,尤其对未成年人需有防沉迷机制 [38]
腾讯研究院AI速递 20251104
腾讯研究院· 2025-11-03 16:01
寒武纪基础软件平台进展 - 发布基础软件平台Cambricon NeuWare,全面兼容PyTorch最新版本和Triton算子开发语言,支持用户模型和自定义算子快速迁移 [1] - 平台在大模型与搜广推训练推理方面完成大规模技术验证,支持DeepSeek V3、Qwen系列等MoE类模型训练,实现发布即适配 [1] - 平台提供完整的驱动运行时库、编译器、算子库和集群工具,Kernel调度吞吐达每秒数十万任务,达到业界领先水平 [1] OpenAI政策调整 - OpenAI更新使用政策,ChatGPT不再协助提供需要持牌专业人士才能给出的专业建议,包括医疗、法律和财务等高风险领域 [2] - 政策收紧主要源于法律风险上升、全球合规压力增大以及ChatGPT使用日益商业化 [2] - 此次调整是AI角色从“顾问”回到“助手”的转变,为未来进入关键行业铺设制度护栏 [2] 美团全模态模型开源 - 美团开源全模态模型LongCat-Flash-Omni,总参数量5600亿,激活参数量270亿,在全模态基准测试中达到开源SOTA水平 [3] - 模型支持128K tokens上下文窗口及超8分钟音视频交互,预训练使用超2.5万亿词元多模态语料库 [3] - 美团LongCat官方App开启公测,支持联网搜索和语音通话,音频通话10分钟且响应快速,视频通话功能后续上线 [3] 百度文心AI漫画功能 - 百度文心APP推出“魔法漫画”功能,用户通过一句话或一张照片即可在两分钟内生成多图多页、剧情完整的AI连载漫画 [4] - 功能支持自定义角色形象、九种风格选择,每页漫画自动生成文字解说,可一次性生成6-7页 [4] - 支持“续写”和“改编”功能,用户可基于原剧情延伸或重写新版本,生成的漫画可下载图片或分享到微信朋友圈 [4] Cartesia语音模型与融资 - 美国语音生成创企Cartesia完成1亿美元融资,英伟达参投,同时推出全新语音模型Sonic-3 [5] - Sonic-3支持42种语言和500多种音色,模型延迟仅90毫秒,端到端响应时间在190毫秒以内,采用非Transformer的SSM架构 [6] - 该模型支持语音克隆、自定义发音和情绪控制,目前已服务数千家企业 [6] Turbo AI用户增长 - AI笔记应用Turbo AI由两位20岁大学辍学生创办,过去半年用户从100万飙升至500万,年经常性收入达八位数且持续盈利 [7] - 产品主打课堂场景,可将录音、课件、PDF、YouTube视频转化为笔记、闪卡和测验题 [7] - 团队仅15人,客户包括高盛、德勤、麦肯锡等知名企业,至今仅融资75万美元 [7] AI浏览器发展态势 - 主流AI浏览器分为渐进派和激进派,后者将AI作为浏览器核心并支持智能体模式 [8] - ChatGPT Atlas执行力最强能真正操作网页和自动化任务,Comet信息聚合全面但执行慢,Dia速度快但总结缺细节 [8] - 主要安全威胁是“间接提示注入攻击”,黑客可将恶意指令隐藏在网页中误导AI执行,目前尚无明确解决方案 [8] 智能眼镜合作与市场 - 依视路旗下BOLON眼镜与Rokid联合推出BZ5000 AI智能眼镜,整机仅重38g,集成1200万像素摄像头和6小时续航 [9] - 依视路在中国选择Rokid,看重其自研YodaOS系统打通高德导航、支付宝支付等本土化深度服务 [9] - Rokid乐奇眼镜在Kickstarter创下45天募集361万美元的全球智能眼镜品类历史纪录,已获5000多名支持者认可 [9] AI研究的公共利益导向 - AI教母李飞飞呼吁大学与非营利机构重新承担推动AI作为公共产品的使命 [10] - 开放科学历史塑造了现代AI,但当前趋势正从“共享研究事业”变为“封闭商业竞赛” [10] - 大学面临市场失灵,在计算能力和数据资源方面严重不足,需建立全球协作网络实践公共利益使命 [11] 数据护城河构建策略 - 当基础设施提供商成为最强竞争对手时,初创企业唯一防御路径是构建耗时多年无人能复制的“数据围墙花园” [12] - VLex整合欧洲最全法律数据库,OpenEvidence建立高可信医学研究数据库,数据专有性、受监管性和动态精选性构成护城河 [12] - 潜在机会存在于供应链物流、地方政府记录、前沿科学等碎片化高敏感或难获取的数据领域 [12]
守护克孜尔
腾讯研究院· 2025-11-03 10:59
克孜尔石窟的历史与文化价值 - 克孜尔石窟是龟兹文化的核心遗存,龟兹作为古丝绸之路北道重镇,是中原、印度、希腊、波斯等多元文化交汇的枢纽 [1] - 克孜尔石窟开凿始于公元3世纪末,延续约六个世纪,现存洞窟349个,壁画近4000平方米,被称为"中国石窟艺术的起点",其题材和风格影响了敦煌、云冈、龙门等后期石窟 [2] - 龟兹是佛教进入中国的第一站,并在公元4–8世纪发展为西域佛教中心,佛教的传入不仅带来宗教,更带来了算术、逻辑学、医学等一整套知识体系,催化了中国文明进入"2.0"阶段 [1][16] - 龟兹地区经济发达文明程度高,壁画中展现了"二牛抬杠"等农耕场景以及发达的乐舞文化,文献记载"龟兹管弦伎乐特擅诸国",壁画中的乐器如琵琶在龟兹演变为曲颈的"龟兹琵琶" [19][22][25] 克孜尔石窟面临的保护挑战 - 石窟遭受了多重破坏:自然因素如风沙地震雨水侵蚀砂砾岩体;公元十世纪前后的宗教更迭导致部分壁画被刻意损毁;20世纪初德国日本等探险队系统性切割盗运了大量壁画,目前有465块壁画散落在8个国家的20多家博物馆中 [2][3] - 克孜尔石窟的社会知名度和受关注程度与其巨大的历史艺术价值严重不匹配,资源支持相对欠缺,其残缺程度较高,解读难度大 [3][58][59] 数字化与AI技术在文物保护中的应用 - 克孜尔的保护工作已进入新阶段,除传统物理保护外,数字化技术发挥关键作用,从2011年开始尝试,至2024年已有22个洞窟完成了数字化扫描 [29][32] - 2024年克孜尔石窟入选腾讯"探元计划2024",探索应用AI大模型技术识别与复原残缺壁画纹饰图案,并利用太赫兹时域光谱技术攻克烟熏壁画的辨识难题 [3][39][55] - AI技术在纹饰图案这类具有重复性、可复制性的修复工作中效率高,能敏锐捕捉到人工难以察觉的细节差异和色彩氧化程度 [43][44][45] - 文物保护需要"人工+人工智能"结合,AI处理大量机械性、基础性工作,而创造性补全等艺术性高、研究性强的工作仍需文物修复专家完成 [49][50][52] 文化遗产的可持续保护与展示模式 - 为解决开放与保护的矛盾,克孜尔石窟研究所在距离石窟7公里处建设9800平方米的龟兹石窟数字展示中心,将科技成果落地,通过数字复原洞窟向游客展示,缓解实体石窟的游客压力 [64][65] - 数字化展示虽能提供清晰影像,但难以完全替代实地体验,如洞窟内特定的温度、气场以及文物在真实世界中的空间关系和周边环境 [68][69][75] - 提升克孜尔的知名度是关键,其在学术界被誉为中国石窟艺术的"研究生院"和"源头",但在大众层面的认知度有待提高,需要更多讲述其故事以获取支持 [58][61][76]
腾讯研究院AI速递 20251103
腾讯研究院· 2025-11-02 16:06
AI驱动的代码安全与漏洞修复 - OpenAI发布由GPT-5驱动的白帽智能体Aardvark 能自动发现并修复代码库安全漏洞 已识别92%的已知与人工注入漏洞 [1] - Aardvark工作流程运用LLM推理能力 包括威胁建模、提交扫描、沙盒验证和Codex修复 不依赖传统程序分析技术 [1] - 谷歌、Anthropic、微软等科技巨头在10月密集发布类似白帽智能体 以应对AI时代漏洞数量激增和攻击手段智能化的挑战 [1] 中国开源AI模型的商业化应用 - AI编程应用Cursor和Windsurf新发布的Composer-1和SWE-1.5模型被发现可能基于中国模型 [2] - Cursor Composer-1使用与DeepSeek相同的分词器 Windsurf被证实基于智谱开发的GLM模型 [2] - 中国开源模型在性能榜单占据TOP5甚至TOP10 物美价廉成为初创公司的理性选择 [2] 大模型注意力架构的技术演进 - 线性注意力机制正在回归 MiniMax-M1、Qwen3-Next、DeepSeek V3.2等国产模型引领采用线性或亚二次方注意力变体 [3] - MiniMax新模型M2放弃线性注意力回归常规注意力 团队解释线性注意力在推理和多轮对话任务中存在明显精度问题 [3] - Kimi Linear提出混合注意力策略 每三个线性注意力块搭配一个全注意力块 实现75%KV缓存缩减和最高6倍解码吞吐量提升 [3] Canva的AI战略与市场定位 - 估值420亿美元的Canva推出自训练基础模型 能输出带可编辑图层的完整设计文件 并将收购的Affinity永久免费开放 [4] - 核心功能Ask @Canva深度嵌入设计界面每个角落 用户可用自然语言修改任何元素 AI还能对整个设计提出改进建议 [4] - Canva年化收入约30亿美元且持续盈利 月活超2.4亿 市场预期将在2026年正式IPO 直接对标Adobe的70%市场份额 [4] Neuralink的脑机接口商业化进展 - 马斯克表示首位Neuralink接受者Noland Arbaugh可能首个接受升级或植入双芯片 预言Neuralink接受者最终能在游戏中击败所有人 [5] - Neuralink已有12名用户累计使用超2000天总活跃时间超1.5万小时 首批3位试验者研究成果已提交《新英格兰医学杂志》 [5] - 公司启动新临床试验"思维转文字" 目标到2031年实现每年植入2万人 年营收突破10亿美元 2030年开始应用于健康个体 [5] 大模型在医疗健康领域的应用潜力 - 斯坦福大学等研究团队测试15种主流模型对言语障碍识别 目前表现最佳模型准确率仅55%未达FDA要求的80-85%临床标准 [6] - 研究发现模型存在性别、年龄和语言偏见 对男性语音识别优于女性 英语使用者优于其他语言 年长儿童优于幼龄儿童 [6] - 微调技术带来突破口 利用小型儿童语音数据集微调后模型性能准确率提升10% 展现多模态语言模型在言语病理学应用潜力 [6] 企业级AI工作流重构与组织变革 - 估值123亿美元的Brex将内部AI平台当产品打造 基于Retool构建并复用外部产品AI能力 由25人系统工程团队维护运营 [7] - COO重构运营团队工作流 L1工作全交给AI L2从管理人变为管理Agents L3从解决问题变为设计系统 预测运营效率可提升5到10倍 [7] - 招聘策略从青睐"专才"转向"通才" 面试中询问AI使用习惯、要求提交AI案例研究、给出真实业务挑战评估AI应用能力 [7] OpenAI与微软的战略合作深化 - OpenAI完成重组 非营利基金会持有价值1300亿美元股份成全球最大慈善基金之一 首批投入250亿美元用于医疗健康和AI安全 [8] - 新协议明确OpenAI当前及未来AGI模型API将在7年内独家部署Azure 微软持有OpenAI约32.5%股份价值约1350亿美元 [8] - 双方签下2500亿美元Azure预购合同 微软上季度资本开支高达349亿美元较前一季度猛增40% 主要投向新建数据中心和采购AI芯片 [8] OpenAI内部治理与领导层变动 - Ilya Sutskever在马斯克起诉OpenAI案中作证近10小时 [9] - Ilya提交52页备忘录详细记录Altman"问题行为" 指控其欺骗董事会、挑拨离间、制造混乱和纵容Anthropic成长 [9] - 解雇Altman后董事会曾严肃探讨与Anthropic合并可能性 拟让Dario Amodei担任CEO 但因实际操作障碍和700名员工兵变而流产 [10]
腾讯研究院AI每周关键词Top50
腾讯研究院· 2025-11-01 02:33
芯片领域 - 英伟达推出Vera Rubin芯片[3] - 高通发布新AI推理方案[3] 模型进展 - OpenAI发布安全分类模型[3] - Cursor推出自研Composer模型[3] - Thinking Machines研究同策略蒸馏技术[3] - 英伟达开发OmniVinci模型[3] - MiniMax发布M2模型[3] - 北京智源推出悟界·Emu3.5模型[3] - OpenFold Consortium发布OpenFold3模型[3] 应用创新 - Sora推出角色客串功能[3] - MiniMax发布MiniMax Speech 2.6应用[3] - Soul AI Lab推出SoulX-Podcast应用[3] - Adobe发布Firefly Image 5应用[3] - 腾讯混元推出交互式AI播客应用[3] - PayPal将数字钱包嵌入AI应用[3] - Windsurf等应用接入中国大模型[3] - xAI推出Grokipedia应用[4] - Anthropic发布Claude for Excel应用[4] - 特斯拉开发世界模拟器应用[4] - 美团推出LongCat-Video应用[4] - 火山引擎发布豆包视频模型应用[4] - 昆仑万维推出网页复刻应用[4] - xAI发布新AI虚拟女友应用[4] - OpenAI推出公司知识应用并进入AI音乐赛道[4] - 腾讯发布ima 2.0应用[4] - 阿里推出夸克AI眼镜应用[4] 科技前沿 - 1X Technologies推出NEO家用机器人[4] - Hugging Face发布LeRobot v0.4.0[4] - Merge Labs开发超声波脑机接口[4] - Neuralink推出PRIMA人工视觉技术[4] 资本动态 - OpenAI有上市计划并进行资本结构重组[4] - OpenAI收购SAI公司[4] 行业观点 - Anthropic提出AI内省迹象观点[4] - 田渊栋提出AI顿悟观点[4] - Yoshua Bengio提出AGI新定义[4] - OpenAI公开技术路线图并关注心理健康数据使用[4] - 硅谷出现AI高强度工作趋势[4] - DeepMind提出DiscoRL算法观点[4] - ChatGPT采用聊天诱饵策略[4] - AWS提出对开发者未来的展望[4] 行业事件 - 日本呼吁AI版权保护[4] - Yoshua Bengio研究获得百万引用[4]
中国算力芯片的“新十年”
腾讯研究院· 2025-10-31 08:03
处理器芯片发展历程与趋势 - 过去40年处理器芯片发展呈现螺旋式路径:自研-放弃自研-重新自研 [6] - 近5年整机和平台厂商重新加入芯片战争,趋势从以CPU为中心的同构计算转向CPU联合xPU的异构计算 [6] - "十五五"规划建议稿强调加快科技自立自强,聚焦半导体等关键技术环节 [7] 指令集架构的市场格局与演进 - 当前CPU领域由两种指令集主导:PC和服务器领域的x86架构与智能手机领域的ARM架构 [11] - x86架构特点为指令复杂、性能高但功耗大,主导厂商为英特尔和AMD [12] - ARM架构特点为指令简单、功耗效率高,主要应用于移动设备 [12] - RISC-V架构为开源模式,可定制但存在碎片化问题,核心厂商包括SiFive、Andes、阿里平头哥等 [12] - 历史上许多创新架构如i860/i960、68000、PowerPC等逐渐凋零,x86胜出靠的是向高端RISC学习并不断扩展指令子集,以及PC与服务器芯片出货量大的规模效应 [13] - 架构创新的根本挑战在于经济规律,软件生态的统治力难以颠覆,例如英特尔和惠普联合开发的IA-64安腾处理器耗资巨大最终未能成功 [13][19] 计算体系结构的发展与挑战 - 摩尔定律逐渐失效后,业界依赖增加晶体管数量并行提升性能,如增加数据位宽、功能部件和处理器核数量 [16] - 计算机体系结构分为激进结构(完全动态优化)、保守结构(静态优化)和折中结构(动静态结合优化) [17] - 高端CPU常采用激进结构但复杂且易受硬件漏洞攻击,业界更倾向于通过增加处理器核数量的众核结构来提升性能 [18] - 众核xPU芯片(如英特尔Xeon Phi、Google TPU、GPGPU)大规模应用需解决生态系统问题,英伟达CUDA拥有成熟的并行软件生态是其优势 [18][19] - 2009至2018年,x86软件开发费用持续上升,2018年全球投入高达600亿美元,而同期全球服务器硬件总收入为800亿美元,软件投入远超硬件 [20][21] ARM架构的机遇与RISC-V的挑战 - ARM服务器打破x86垄断的机遇在于:掌控全栈技术的大厂(如苹果、亚马逊)放弃x86进行生态迁移,以及端云融合使ARM终端优势蔓延至云端 [24] - RISC-V目前商业化成功领域集中于软件简单的嵌入式场景,如微控制器和存储类产品 [26] - RISC-V硬件生态不成熟,缺乏有竞争力的高性价比处理器核和支持多核互连的高性能片上网络,且ARM不单独授权片上网络IP [26] - 尽管跨平台语言和虚拟机技术发展,但硬件指令的直接支持对性能、能效比至关重要,英特尔持续扩展指令集(如SGX、AVX512、AI扩展指令集) [27] - 业界软件主要针对英特尔CPU优化,即使同为x86的AMD CPU支持软件配置种类也较少,阿里公有云平台仅使用英特尔CPU产品 [27] - RISC-V进入通用计算平台仍有漫长路程 [28] 自研芯片的模式与成功关键 - 云厂商自研芯片模式可行,因其盈利基础在于增值服务而非硬件,且掌控全栈软硬件使生态移植困难较小,自身规模大可负担研发费用 [30] - 苹果公司实现核心产品线处理器全线自研(手机A系列、平板/PC的M系列、手表W系列、耳机H系列),是成功案例 [31] - 苹果自研成功关键在于配合自研系统软件优化用户体验,并通过营销形成高端形象,而非仅聚焦纸面参数 [32] - 软件生态投入大于硬件研发,软件掉队会导致硬件利用率不高,如部分国产智算中心投资规模大但实际利用率低 [33] 中国算力芯片的发展路径 - 未来五年十年国产算力芯片的突破口在于指令系统结构的统一 [7] - 建议将RISC-V作为统一指令系统,所有CPU/GPU/xPU基于RISC-V及其扩展开发,以推动架构创新、扩大规模效应并高效利用研发资源 [7][36] - 体系结构创新可在现有指令系统框架内实现,例如Tenstorrent基于RISC-V扩展AI子指令集开发AI加速方案,或扩展密码学子指令集支持后量子密码 [35] - 统一指令集可避免重复劳动和研发资源浪费,是应对软件生态高投入挑战的关键路径 [36]