腾讯研究院
搜索文档
腾讯研究院AI速递 20251027
腾讯研究院· 2025-10-26 16:41
OpenAI产品与战略更新 - ChatGPT企业版新增"公司知识"功能,可连接Slack、Google Drive、GitHub、SharePoint等内部工具进行多源检索并综合答案,该功能仅向Business、Enterprise、Edu版开放,使用特调的GPT-5模型 [1] - OpenAI与茱莉亚学院合作标注海量乐谱用于音乐模型训练,积极布局AI音乐To B市场,特别是广告行业,Suno凭借订阅模式今年年度经常性收入(ARR)达1.5亿美元且毛利率超60% [2] - OpenAI收购曾为Mac开发自然语言交互界面Sky的公司SAI,将整合其技术并吸纳约12人团队,此举被视为公司为ChatGPT入局操作系统铺路 [7] 中国科技公司AI产品动态 - 腾讯正式发布ima 2.0,推出"任务模式"成为业界首个融合Agent能力的个人知识库,可理解复杂任务并自主拆解步骤,该产品已服务20多个行业,累计沉淀2亿份知识库文件 [3] - 阿里首款自研AI眼镜夸克AI眼镜正式开售,88VIP会员最低到手价3329元,搭载高通AR1芯片与恒玄BES2800协处理器,整合通义千问、夸克AI、高德导航等阿里生态 [4] AI行业监管与伦理 - 日本知识产权战略国务大臣公开呼吁OpenAI在推出Sora 2时应避免侵犯版权,强调漫画与动画角色是日本"文化瑰宝",日本已出台《生成AI推进法》为政府干预AI乱象提供政策依据 [5][6] - 深度学习"三巨头"之一的Yoshua Bengio成为全球首个引用量超过100万的科学家,其代表作GAN论文获超10万引用,现从纯粹科学家转变为积极的AI伦理倡导者 [8] AI技术前沿与应用 - Nature刊登由Neuralink联合创始人Max Hodak创办的Science Corporation主导的PRIMA人工视觉技术研究,帮助70岁AMD患者重获光明,84%患者恢复功能性中央视力 [9] - 大西洋月刊报道ChatGPT采用"聊天诱饵"策略,通过持续提问延长对话,Meta正训练AI机器人主动发消息提高留存率,OpenAI推出ChatGPT Pulse打破被动回答模式 [10][11] AI对开发者的影响 - AWS首席布道师Jeff Barr认为AI Agent接管"实现"后,开发者核心价值从"与机器沟通"转向"与人沟通",未来工作将从"主要靠手写代码"转向"主要靠大脑阅读和审查代码" [12]
腾讯研究院AI每周关键词Top50
腾讯研究院· 2025-10-25 04:34
算力与芯片 - 甲骨文建设最大AI超算 [3] - 英伟达推进美国本土晶圆生产 [3] 模型进展 - 清华与智谱联合发布Glyph框架 [3] - 谷歌推出Gemini 3 0模型 [3] - DeepSeek发布DeepSeek-OCR模型 [3] - 百度推出PaddleOCR-VL模型 [3] AI应用与产品 - 谷歌发布Google Skills和Vibe Coding [3] - Sora模型升级至2 0版本 [3] - 快手推出AI编程产品矩阵 [3] - 港科大发布DreamOmni2 [3] - 字节跳动推出Seed3D 1 0 [3] - OpenAI推出ChatGPT Atlas [3] - Claude发布桌面版 [3] - 腾讯发布混元世界模型1 1 [3] - 百川发布Baichuan-M2 Plus模型 [3] - 华为发布HarmonyOS 6 [3] - Anthropic发布网页版Claude Code [3] - X平台将Grok接入其服务 [4] - Adobe推出AI Foundry [4] - 混元推出AI分身功能 [4] - 元宝推出AI录音笔 [4] - Vidu发布Q2版本 [4] - 谷歌将Gemini接入Maps应用 [4] - Anthropic推出Agent Skills [4] - 李飞飞团队发布RTFM [4] - World Labs参与相关应用开发 [4] - Manus发布1 5版本 [4] - 微软推出Win11大更新 [4] - 科勒推出Dekoda智能马桶 [4] 前沿科技 - 谷歌研究量子回声算法 [4] - Dexmal开发Dexbotic技术 [4] - 原力灵机进行科技探索 [4] - 松延动力推出Bumi小布米 [4] - 三星推出Galaxy XR [4] - Anthropic开发生科专用Claude [4] - 宇树开发仿生人形机器人 [4] - DeepMind与CFS合作开发人造太阳 [4] 行业观点 - Vercel提出Kimi K2替代观点 [4] - a16z提出视频模型专业化观点 [4] - Manus探讨Agent认知流程 [4] - Jason Wei提出AI进展关键思路 [4] - 哈佛大学研究AI入侵职场现象 [4] - Reddit讨论死亡互联网理论 [4] - Karpathy提出AGI预期管理观点 [4] 行业事件 - Meta对AI部门进行裁员 [4] - 麦肯锡分析Tokens消耗情况 [4] - nof1 ai进行Alpha Arena实验 [4]
当AI遇见青春期:AI的青少年“性教育”大考,它及格了吗?
腾讯研究院· 2025-10-24 10:43
研究背景与核心观点 - 研究聚焦于AI作为青少年性教育信息源的潜力,探讨其能否以准确、包容、温情的语言成为值得信赖的引路人[2] - 研究由腾讯研究院与北京科技大学何思倩老师团队联合开展,测评涵盖青少年基础性教育、月经教育和残障青少年性教育三个关键维度[3] - 研究旨在勾勒AI在青少年性教育领域的应用边界,放大其向善潜力,推动技术成为守护青春旅程的温暖基石[3] 评估框架与方法 - 研究团队构建了独特的五层金字塔评估模型,从安全可靠、理解与成长、共情与关怀、关系支持到自主与赋能,系统评估AI的适儿化表现[6][7] - 评估模型基于教育学、心理学、社会学及人机交互领域的理论沉淀,将经典理论转化为可衡量AI表现的具体指数与维度[6] - 研究对国内外、开源和闭源的多种主流大模型进行了几百条语料的测试,并采用1-5分评分体系[7][13] 整体测评结果 - 被测大模型在青少年性教育话题上十大维度的平均分全部高于3分,表明整体支持程度尚可[13] - 模型在金字塔底层维度(如不伤人、说得对、守秘密)得分较高,但在高阶要求(如学得会、会交友、能做出)上表现较弱,这与人类教育面临的挑战相似[13][14] - 就青少年性教育话题而言,国内大模型的适儿性程度显著高于国外大模型[18] - 开源模型在金字塔底层维度与闭源模型表现相近,但在后面七个维度上比闭源模型表现好得多[20] 青少年基础性教育表现 - 在满分5分的评估中,AI大模型在性侵害相关内容上得分最高(4.31分),在身体认识方面表现最薄弱(3.1分)[34] - 国内大模型在身体认识、性侵害、性安全与性行为四个评估类别中,整体优于国外同类模型[37] - 开源模型在四个维度上的表现全面超越了闭源模型,挑战了闭源即最优的固有认知[37][38] 月经教育表现 - AI大模型在月经教育的四个类别(生理健康、卫生用品、应急处理、情绪管理)上整体表现差异不显著[52] - 国外模型在生理健康知识传递和情绪支持方面表现较好,而国内模型在应急处理等场景化应用上展现出优势[54] - 面向青少年的卫生用品相关知识是目前几乎所有模型共同的短板[54] 残障青少年性教育表现 - AI大模型在涉及青少年两性社交互动与情感认知等内容上表现相对成熟,但在具体生理知识与安全防护等议题上回答质量有所下降[67] - 国外大模型在两性社交和身体认知方面略优于国内模型,但国内模型在安全意识维度上表现显著优于国外模型[69] - 开源模型在四个评估维度上均全面超越闭源模型,而闭源模型在情感领域的知识储备与回应能力表现尤为匮乏[69][70][77][79] 未来发展方向 - 研究指出AI需要从标准化答案走向个性化支持,从单向回答走向双向对话,从技术孤岛走向社会共创[84] - 构建真正适儿的AI需要技术专家、教育工作者、性教育专家、残障社群及家庭携手,将人类经验与伦理考量编码进模型[84]
腾讯研究院AI速递 20251024
腾讯研究院· 2025-10-23 16:01
谷歌AI学习平台 - 谷歌推出AI学习平台Google Skills,整合内部资源提供超过3000门课程,覆盖大型语言模型技术及伦理内容[1] - 平台采用游戏化激励方式,过去一年已有2600万人在其分散平台学习技能,现集中至统一入口[1] - 平台与150多家雇主组成招聘联盟,用户完成证书可跳过初筛直接进入面试,构建学习至就业的闭环[1] Sora项目升级 - Sora2将推出“角色客串”功能,允许用户将现实物品或生成人物投射到虚拟世界并创建独特IP进行互动[2] - 社交体验将优化,支持特定社群组队分享并减少过度内容审核,应用优化包括流畅度提升和视频编辑功能[2] - 安卓版即将上线,可在谷歌应用商店预注册[2] 快手AI编程产品 - 快手发布AI编程产品矩阵,包括KAT-Coder模型、CodeFlicker开发工具和万擎MaaS平台三位一体解决方案[3] - KAT-Coder模型在SWE-bench Verified榜单解决率达73.4%,其开源版达74.6%,收入在8个月内增长4倍[3] - CodeFlicker工具已在公司内部80%工程师中使用,支持自动生成代码仓库说明书和企业级定制服务[3] 多模态图像编辑模型 - 港科大贾佳亚团队推出DreamOmni2多模态图像编辑模型,在GitHub两周内获得1.6k星标,可处理多个参考图像并理解抽象概念[4] - 基于FLUX Kontext模型,该模型在传统任务上优于现有开源模型,支持风格迁移、动作模仿和多图编辑[4] - 采用创新三阶段数据构建范式和索引编码技术,首次实现从单一物体到完整3D场景的生成并已开源[4] 3D生成大模型 - 字节跳动推出3D生成大模型Seed3D 1.0,基于Diffusion Transformer架构,可从单张图像生成高精度3D模型[5] - 该1.5B参数模型在纹理材质生成上对标SOTA水平,能准确还原精细特征[5] - 生成的3D模型可导入仿真引擎供机器人训练,并支持从单一物体扩展至完整3D场景生成[6] Meta AI部门调整 - Meta在AI部门进行大规模裁员约600个职位,华人AI科学家田渊栋及其团队受影响,FAIR实验室成为重灾区[7] - FAIR实验室遭重创,有消息称其首席科学家可能辞职,而新成立的TBD超级智能实验室仍在招聘[7] - 公司认为原有架构过于官僚化,正将重心从开放式基础研究转向超级智能竞赛,近期达成270亿美元数据中心融资[7] AI智能终端 - 科勒推出Dekoda智能马桶售价599美元起,通过AI摄像头视觉分析排泄物判断肠道健康等状况[8] - 使用需订阅年费26至70美元的应用,其AI模型基于超100万数据点训练并采用布里斯托大便分类法[8] - 产品面临隐私争议和高昂价格限制,分析结果相对简单仅分为正常、硬便、稀便等类别[8] 量子计算突破 - 谷歌发布量子回声算法在Willow芯片上运行,解决原子相互作用速度比Frontier超级计算机快13000倍,数小时完成需3.2年的计算[9] - 这是量子计算机首次在真实硬件上成功运行可验证算法,结果可在其他同等水平量子计算机上重复验证[9] - 算法可研究从分子到黑洞的各种系统结构,为药物研发和材料科学应用铺路[9] AI模型性能比较 - Vercel公司CEO表示内部测试中Kimi K2运行速度是GPT-5和Sonnet 4.5的5倍(2分钟对比8-10分钟)[10] - Kimi K2准确率超60%,比GPT-5(低于40%)高出50%,比Sonnet 4.5(低于50%)也有优势[10] - 硅谷多家公司如Cline、Cursor等已接入K2模型,因其性能强且价格更便宜[10] 视频模型发展趋势 - a16z合伙人指出视频模型进入产品时代,不同模型如Sora 2和Veo 3正走向专业化发展[12] - 模型能力与产品间存在巨大鸿沟,创作者需手动完成的工作应由产品层面解决[12] - 未来将出现针对特定场景的专用模型、帮助用户选模型的产品和整合创作套件[12]
复旦大学肖仰华:AI的尽头是人文
腾讯研究院· 2025-10-23 08:30
AI对人类能力的双重影响 - AI技术同时引发人类能力的升智和降智效应,这是技术进步伴随的普遍现象[3] - AI无限放大了人类的心智与智力能力,触及人之为人的核心反思与思考能力[7] - 滥用和过度依赖AI会导致人类自主思考能力削弱,可能引发心智倒退[8] - AI能显著提升生产力,拉平多数人的能力分布,使普通人也能解决复杂问题[7] AI时代的生产与消费变革 - 生产端人类从直接生产者转为生产监督者,负责监理知识与内容生产的流程[8] - 消费端人类将转为"终极消费者",由个人AI代理进行内容筛选和分级消费[3][8] - 未来将出现面向AI代理的生产与营销模式,这将引发深远的生态影响[3][8] - AI将全面侵入社会各个毛细血管,社会将经历震荡与阵痛期[10] AI能力外包的风险与边界 - 能力外包可能反噬主体,当人尚未具备专业能力就交给AI,会失去发展该能力的机会[3][11] - 安全外包的条件是使用者已是该事项专家,具备足够的判别力与监督力[3][11] - 从人性角度,人难以拒绝提高舒适度与效率的诱惑,可能导致能力倒退[10] - 部分人类个体可能因技术诱惑而沉沦,但人类整体不会倒退[10] AI时代的社会结构变革 - AI时代可能走向2%和98%的社会结构,极少数人完成绝大部分生产[3][11] - 社会需要新机制维持消费繁荣与秩序稳定,如类似"给每人发钱"的方案[11] - AI将带来人的"全面自由",但并非所有人都能妥善安置这种自由[3][12] - 必须重视全面自由后的伦理与人文问题,避免人在自由中沉沦[3][12] 人机能力边界与意识问题 - AI短期内在高阶认知上会无限接近人类,但难以逾越高阶心智能力[4][14] - AI缺乏由自我意识及内在心理驱动支撑的内在动机[4][14] - 人类水平意识的生成需要三个必要条件:身体、群体和进化环境[15][16] - 没有会毁灭的身体就难以理解有限与无限,缺乏存在感的激发[15] 人文学科在AI时代的重要性 - AI发展的尽头是人文,关于人的一切学科对AI发展至关重要[4][18] - 计算机是实现手段,人文社科提供原则、标准、目标与边界[4][19] - 应大力发展新文科,人文社科学者需要具备基本的计算机与AI素养[4][19] - AI要进入千行万业必须与人类社会对齐,需要人文社科提供价值观和伦理标准[19] AI时代的教育与个人发展 - 未来教育应培养机器不擅长而人更有优势的能力[22] - 从知识技能转向智慧培养,重点是判断力、批判力和品鉴力[4][22] - 框架构思能力比细节执行更重要,人应负责搭建结构与提出好问题[22] - 责任与品格等软品质更显珍贵,机器难以替代人的主体责任[22] AI时代的人类意义坐标 - 借鉴中国古代向内追求的传统,内心强大的人在AI时代更从容[5][23] - 要么向内修为,要么向外探索深空、海洋、历史,构成人的意义坐标[5][23] - 需要开启新的大航海时代,为人类开辟开疆拓土的机会[3][26] - 只要为几十亿人开辟足够多开创性工作机会,人就有用武之地[26]
腾讯研究院AI速递 20251023
腾讯研究院· 2025-10-22 16:33
生成式AI产品发布与更新 - OpenAI发布基于Chromium内核的AI浏览器ChatGPT Atlas,目前免费开放macOS版,后续将推出Windows及移动端版本 [1] - Atlas核心功能为将ChatGPT深度集成至浏览器,可查看用户页面内容并通过侧边栏回答问题,配备浏览器记忆功能和智能体模式以执行订票、购物等复杂任务 [1] - Claude正式发布桌面版,同时支持Mac和Windows系统,提供全局快捷键、窗口分享、语音输入和工具连接四大核心功能 [2] - 谷歌AI Studio推出全新vibe Coding体验,用户通过点击Build一键生成AI应用,使用Gemini 2.5 Pro制定计划并生成文件,支持免费使用且无需信用卡 [3] - 百川智能发布业内首个循证增强医疗大模型Baichuan-M2 Plus,通过首创"六源循证范式"构建权威医学知识体系,幻觉率比DeepSeek-R1低3倍 [5][6] 多模态与3D模型技术突破 - 腾讯混元世界模型1.1正式开源,首次支持多模态先验注入和多任务统一输出,采用纯前馈架构实现秒级推理,处理8-32视图输入仅需1秒且支持单卡部署 [4] - 该模型基于统一架构实现点云、深度、相机参数、表面法线和新视角合成等多种3D几何预测,在仿真器及真实物理世界任务中性能显著超越现有方法 [4] - 华为HarmonyOS 6实现与苹果iOS/iPadOS/macOS互传,纯血鸿蒙终端设备突破2300万台,小艺AI支持速记、AI修图、自动订票购物等功能,并支持16种方言交互 [7] 机器人与XR硬件创新 - 松延动力推出全球首款万元以内消费级人形机器人Bumi小布米,售价9998元,拥有21个自由度,搭载自研伺服电机和深度强化学习算法,能够稳定行走、跳舞和完成复杂动作 [8][9] - 该机器人定位教育和陪伴场景,支持语音交互和图形化编程,公司已完成6轮融资,N2机型在人形半马比赛多项目夺冠并成为销量破千的人形机器人公司 [9] - 三星发布首款旗舰XR头显Galaxy XR,售价1799.99美元(约合人民币1.28万元,仅为Vision Pro一半),重545克比Vision Pro轻1/4,搭载3552×3840分辨率Micro-OLED屏 [10][11] - Galaxy XR首款搭载Android XR平台并内置Gemini AI助手,DCI-P3色域覆盖96%超过Vision Pro,配备18个传感器实现头部手部眼部精准追踪,续航2-2.5小时 [11] 开发工具与框架演进 - Dexmal原力灵机推出开源VLA代码库Dexbotic,基于PyTorch框架开发,采用Data、Model、Experiment三大核心组件架构,支持π0、OpenVLA-OFT等多个主流VLA算法 [7] - 该代码库用户只需配置一次环境即可在各类仿真环境中复现算法,支持云端与本地一体化训练,同时推出首款开源硬件DOS-W1,采用快拆结构和可替换模块 [7] - 前Manus研究员指出AI Agent能力质变的关键在于围绕模型设计的"认知流程",而非底层模型智力增长,开发者角色从"提示词工程师"转变为"Agent流程架构师" [12]
硅谷996背后是AI的锅吗?丨硅谷AI转型录NO.2
腾讯研究院· 2025-10-22 09:33
硅谷AI创业公司工作文化新趋势 - 自2025年起,硅谷多家AI初创公司公开在招聘广告中要求员工每周工作70小时以上,例如远程医疗公司Fella & Delilah对志愿参与“996”员工额外提供25%薪资和100%股权激励,但仅约10%团队自愿加入[9] - 美国法律框架下996合法,员工分为“豁免员工”(按年薪计酬,如软件工程师、律师)和“非豁免员工”(按小时计薪),前者无论工作40或80小时报酬均相同[12][23][24] - 公司文化由创始人决定,硅谷呈现多样性:既有Elon Musk式“卷王”文化(低薪靠梦想吸引),也有Airbnb式放松文化(推行全球远程工作),但近期AI应用层竞争压力下,公开提倡996的创始人增多,形成文化风向转变[12][33][34][35] AI时代创始人面临的挑战与焦虑 - AI“十倍百倍提效”宣传与实际落地困难形成巨大鸿沟,导致创始人产生强烈焦虑,尤其当团队无法实现预期效率时[15][38][39] - AI改革倒逼创始人更“Hands on”(亲力亲为),需亲自重构业务流程,心理压力增大,部分创始人内卷后发现“最大的瓶颈竟然是我自己”[15][39][41] - “影子AI”现象加剧焦虑:员工用AI处理确定性任务提效显著,而创始人面对不确定性市场(如拓展新客户)时AI助力有限,导致老板层看不到成效[15][40] AI时代组织架构与创新模式变革 - 企业有意“放弃”中层领导概念,将培训资源转向一线员工,中层管理者需回归商业本质,创造实际价值(如产品创造或客户销售),而非传递信息或协调[10][57][66] - “周末项目”模式复兴,效仿谷歌“80/20”文化,允许员工用20%时间进行开放式探索,例如Notion AI和Get笔记源于内部黑客松,特赞公司尝试拆分为“Pod小组”[17][43][44][45] - “一人创业”新范式涌现:个人凭借编程能力结合AI赋能,可服务小众人群并获取收益,生产成本极低而市场杠杆易得,创造门槛大幅降低[17][48][49][50] AI原生人才的定义与招聘变革 - AI原生人才核心特质不变:企业始终寻找积极性高、有自驱力、靠谱的“创业小伙伴”,核心能力包括协作性、开放度、逻辑思维及持续学习迭代能力[19][20][60][61] - 招聘理解发生变化:LeetCode刷题进大厂时代逐渐消失,企业更看重过往项目经历、工具使用能力及熟人内推背书等“更原始”的衡量方式[21][62][63][64] - 招聘流程增强实践环节:要求候选人在发Offer前参与真实任务(如2-3天项目),以端到端方式考察主观能动性,但顶尖人才因时间宝贵可能拒绝此类测试[21][62][64] AI时代的普遍焦虑与个体应对 - AI虽降低创造门槛,却加剧群体焦虑:技术快速迭代引发FOMO(害怕落后)心态,投资风潮(如NVIDIA股价暴富)放大外部噪声,导致疲惫感与两极分化[16][50][52][53] - 个体需守住核心确定性:在边界扩张(如新工具赋能更多可能性)时,需明确自身差异化优势,基于稳定假设拓展能力圈,避免每日自我推翻[54][55] - 企业需提供情感支持:鼓励团队时多肯定、少批判,增强情感共鸣,以缓解内阻力(对不确定性的恐惧),帮助成员以更轻松方式踏上创造旅程[16][51]
腾讯研究院AI速递 20251022
腾讯研究院· 2025-10-21 16:01
Anthropic产品更新 - 上线网页版Claude Code功能 作为研究预览版向Pro和Max用户开放 支持从浏览器直接委派编程任务并在云端基础设施上运行 [1] - 功能支持并行运行多个编程任务 连接GitHub仓库自动创建PR 每个会话在独立沙盒环境中运行 具备实时进度追踪和安全网络限制 [1] - iOS应用同步开放Claude Code功能 使开发者可随时随地编程 特别适合处理漏洞积压 常规修复或并行开发等任务 [1] - 正式上线Claude生命科学版Claude for Life Sciences 基于Claude Sonnet 4.5打造 在Protocol QA基准获0.83分超越人类基准0.79分 [7] - 新增Benchling BioRender PubMed等科研平台连接器 支持Databricks和Snowflake进行大规模生物信息学分析 [7] - 推出single-cell-rna-qc等专项技能 可胜任文献综述 实验方案生成 生物信息学分析等任务 覆盖从早期发现到成果转化全流程 [7] AI模型技术突破 - 清华与智谱联合推出Glyph框架 将文本信息渲染成图像后用视觉模型处理 实现3-4倍文本压缩率 128K窗口可处理1M tokens文本 [2] - Glyph采用持续预训练 LLM驱动的渲染搜索和后训练三阶段方法 通过遗传算法自动寻找最优渲染配置 性能与Qwen3-8B相当 [2] - DeepSeek开源3B规模DeepSeek-OCR模型 提出"上下文光学压缩"思路将文字信息压缩到图片 压缩率10倍内OCR解码准确率高达97% [8] - 模型采用编码器DeepEncoder和解码器DeepSeek3B-MoE-A570M架构 在OmniDocBench取得新SOTA 仅用100个视觉token超越GOT-OCR2.0 [8] - 单A100-40G GPU每天可生成超20万页训练数据 研究提出用光学压缩模拟人类遗忘机制的思路 为构建无限长上下文架构提供新方向 [8] 行业应用与市场影响 - 马斯克宣布X平台将在未来几周内彻底移除启发式推荐算法 改由Grok通过阅读和观看全部内容自动匹配用户兴趣 成为首个完全抛弃启发式算法的大型社交平台 [3] - 麦肯锡收到OpenAI颁发的Tokens消耗大客户奖牌 意味着大量花费数百万美元购买的战略咨询PPT实际由ChatGPT制作 [6] - 麦肯锡自2023年推出内部AI Lilli以来 超70%的4万名员工日常使用 平台每月响应超50万条问题 但两年内已裁员超5000人约10% [6] - 咨询业入门级职位招聘数量同比暴跌54% 初级岗位"书本知识"被AI复制导致就业率骤降13% AI初创公司正蚕食二线咨询公司市场份额 [6] 企业级AI服务部署 - Adobe发布AI Foundry服务 企业可通过该平台与Adobe合作构建基于自身品牌和知识产权训练的专属生成式AI模型 [4] - 服务基于完全使用授权数据训练的Firefly系列模型提供支持 按使用量而非席位付费 自Firefly上线以来企业用户已生成超250亿个创意资产 [4] - 搜狗输入法推出行业首个电脑端AI陪伴助手"小婉" 基于腾讯混元大模型AI分身打造职场搭子 可随时唤起进行对话交流 [5] - 腾讯视频在《许我耀眼》中推出基于主角的独家AI分身追剧搭子 采用文字回复加语音播报方式 配备主角同款声音营造真实沉浸对话体验 [5] AI发展理论框架 - OpenAI前核心研究员Jason Wei提出三个理解2025年AI发展的核心思想:验证者定律 智能商品化和智能的锯齿状边缘 [9] - 验证者定律包含五个可验证性维度:客观性 验证速度 可批量验证 低噪音和连续反馈 任何可解决且易于验证的任务最终都会被AI攻克 [9] - AI影响最大的是数字任务 对人类来说不难且数据丰富的领域 某些领域如软件开发将极大加速 而非数字任务将保持不变 [9]
2025中国设计师AI应用现状及趋势洞察|附下载
腾讯研究院· 2025-10-21 09:03
AI应用普及率与增长趋势 - 2025年AI在设计行业整体使用率达到85.8%,较2024年提升23.7个百分点 [3] - 将AI投入实际项目生产的比例从2024年的25.7%跃升至2025年的43.8% [19] - 未使用任何AI工具的设计师比例从2024年的37.9%断崖式下降至2025年的14.2% [19] - 海外设计师AI应用情况与国内基本一致,82.8%的海外设计师正在应用或探索AI,仅17.1%未使用任何AI工具 [23] AI易用性提升与工具演进 - 因"操作复杂"而不使用AI工具的设计师比例从2024年的31.9%下降至2025年的25.2% [22] - 45.7%的设计师最明显感受到"学习成本降低,操作更加友好" [25] - 通用型AI如腾讯元宝、豆包、Deepseek成为设计师低成本接触AI的窗口 [4] - 专业垂直AI工具如Stable Diffusion、D5 AI、Midjourney更受深度使用者青睐 [31] - AI精准解决垂直设计问题的能力显著提升,此前"AI不能理解设计意图"的痛点(34.8%)正在持续优化 [34] 使用障碍转变与经济性考量 - 阻碍设计师使用AI的原因从技术性壁垒转向经济性壁垒 [5] - 因"AI需要付费"而放弃使用的国内设计师比例从2024年的21.8%跃升至2025年的37.8% [40] - "硬件配置不够"的比例从14.9%提升至23.5% [40] - 海外设计师中36.8%因"工具需要付费"直接放弃使用,成为首要原因 [40] 企业规模与AI渗透率差异 - 100人以上规模设计企业中66.2%将AI应用于实际项目,100人以下企业中该比例仅为33.5% [6][42] - 大型企业在AI技术采用率和整合深度上显著领先中小型事务所 [42] - 中小型企业仅在"软件/平台费用"支出占比上领先大型企业,更倾向于采用灵活、低成本的SaaS工具 [44] 企业AI能力建设投入重点 - "软件和平台费用"以47.2%位居AI相关支出首位 [7] - "人才和培训"以37.3%的比例位居第二,重要性超过"硬件升级"(30.8%)和"日常运维与技术支持"(26.4%) [7][47] - 企业对人的投资与对工具的投资同步进行,显示行业成熟认知 [49] 设计师态度与职能转变 - 认为AI不会威胁设计师岗位的比例从2024年50%提升至2025年58.2% [8][50] - AI工具使用频率与威胁感知呈负相关:频繁使用者中仅29.8%视AI为威胁,很少使用者中该比例达56.2% [52] - 64.3%的设计师感受到个人工作职能延伸,其中17.4%认为显著扩大,46.9%认为有一定程度扩大 [9][54] - 77.2%的受访者表示AI应用增强了对设计方案的掌控能力 [9] - 设计师核心价值从动手执行转向"问题定义"和"价值判断" [55] AI应用深度与行业挑战 - 仅约10%的设计师在绝大多数项目中应用AI,AI应用高度集中在"初步方案设计阶段" [10] - AI面临深度融入流程、获取垂直数据集、工作流碎片化等多重挑战 [10]
腾讯研究院AI速递 20251021
腾讯研究院· 2025-10-20 16:01
AI基础设施与算力 - 甲骨文推出全球最大云端AI超级计算机OCI Zettascale10,由80万块NVIDIA GPU组成,峰值算力达16 ZettaFLOPS,计划于2026年下半年向客户提供服务[1] - 该超算采用独创Acceleron RoCE网络架构,通过每块GPU的NIC充当小型交换机连接多个隔离网络平面,以降低通信延迟并确保故障时自动切换路径[1] 大语言模型进展 - 谷歌Gemini 3.0疑似以lithiumflow(Pro版)和orionmist(Flash版)马甲上线评测,Gemini 3 Pro成为首个能精确识别钟表时间的AI模型,在SVG绘制和音乐作曲方面表现出色[2] - 谷歌向所有开发者开放Gemini API调用谷歌地图工具功能,可整合2.5亿个地点的位置感知,按每1000条有事实依据的提示收费25美元,支持路线规划等场景[7] - DeepSeek开源3B参数OCR模型DeepSeek-OCR,通过光学二维映射技术实现长文本上下文压缩,压缩率小于10倍时OCR精度达97%[3] AI应用与产品创新 - 元宝AI录音笔推出新功能,基于腾讯天籁降噪技术实现录音转写,并具备“内心OS”功能解读发言人弦外之音,支持多人发言智能拆分[4] - Vidu Q2参考生功能正式上线,推理速度比Q1版本快3倍,支持多主体一致性生成,免费用户可生成最长30秒视频,付费用户最长可延长至5分钟[5][6] - 宇树发布180cm仿生人形机器人H2,体重70kg,关节总数31个比前代增加约19%,可跳芭蕾舞和表演武术,应用场景扩展至娱乐演示和陪伴服务[9] AI性能评测与市场表现 - 实盘交易实验显示DeepSeek V3.1在1万美元本金下盈利超3500美元排名第一,仅进行5次交易,而Gemini 2.5 Pro进行45次交易成为赔钱最多的模型[8] - DeepSeek-OCR模型在OmniDocBench测试中仅用100个视觉token超越GOT-OCR2.0,单张A100-40G GPU每天可生成超20万页训练数据[3] 行业专家观点 - Karpathy预测AGI仍需十年时间,认为强化学习效率极低像“通过吸管吸取监督信号”,需要新的学习机制[10] - 提出“认知核心”概念,建议通过精简LLMs和提高泛化能力,预测未来模型将先变大再变小,最终收敛向更小更专注的认知内核[11]