腾讯研究院

搜索文档
腾讯研究院AI速递 20250917
腾讯研究院· 2025-09-16 16:01
生成式AI - OpenAI发布GPT-5-Codex专为智能体编程优化 可自主连续工作超7小时 已在Codex所有使用场景上线并整合ChatGPT账号体系[1] - GPT-5-Codex在SWE-bench Verified和代码重构基准测试中性能超越GPT-5(high) 可根据任务复杂度动态调整思考时间[1] - 模型具备代码审查能力 能主动发现漏洞 上线两小时半流量占Codex总量40% 支持多种工具调用并计划API开放[1] 3D建模技术 - 腾讯发布混元3D 3.0模型 建模精度提升3倍 几何分辨率达1536³ 支持36亿体素超高清建模[2] - 新模型针对人物生成专项优化 实现精细面部重塑 达到真人手办级别效果[2] - 同步上线腾讯云API和专业级混元3D Studio工作台 覆盖3D管线七大核心环节 成为全球下载量超260万的最受欢迎开源3D模型之一[2] AI音乐创作 - 昆仑万维旗下AI音乐创作平台Mureka上线"Agent Studio"功能 用户只需说出想法 Agent自动生成歌词和匹配音乐风格[3] - 已上线六个Agent场景:创作专辑、塔罗音愈、热点写歌、Diss制造机、以歌致礼和撩人情歌[3] - 支持基于热门话题创作 结合网络实时搜索生成个性化音乐[3] 机器人世界模型 - 宇树科技开源机器人世界模型-动作架构UnifoLM-WMA-0 拥有理解机器人和环境相互作用物理规律的世界模型 可适配多种机器人本体[4] - 模型支持决策模式和仿真模式两种核心功能 在真机测试中预测与实际操作高度吻合[4] - 使用Open-X数据集微调视频生成能力 基于5个开源数据集完成全流程训练 GitHub发布后获100+星标 推理代码和模型检查点均已开源[4] AI智能眼镜 - 魅族发布AI拍摄眼镜StarV Snap 首发价1999元 重39g 搭载高通第一代骁龙AR1平台 支持12国语言同声传译、AI识物和语音转写[5][6] - 配备1200万像素镜头 支持109°超广角视野、720P长时间录制、1080P高清拍摄 具备EIS防抖等算法优化[6] - 与支付宝、蚂蚁国际达成战略合作 可直接通过眼镜完成扫码支付 设计有拍摄提示灯和防遮挡检测机制[6] - Meta即将发布AI眼镜 由Meta AI驱动 配备单眼抬头显示器和神经腕带交互系统 预计起售价800美元[7] - 新品以Ray-Ban品牌发布 主要用于Meta AI和步行导航 腕带支持手指滑动字母回复消息[7] - 泄露视频展示与EssilorLuxottica合作的智能眼镜产品线 包括Ray-Ban Meta、Oakley Meta HSTN和Oakley Meta Sphaera眼镜[7] 机器人技术 - 南方科技大学主动智能系统实验室发布宇树G1机器人测试视频 展示机器人在遭受推搡仍能保持平衡 倒地后迅速起身[8] - 视频在B站获25万播放量 在海外平台病毒式传播 众多国外网友误以为是CGI特效[8] - 实验室除抗干扰测试外 还研发声音"画地图"技术Acoustic Mapping和声源可视化系统Acoustic Camera[8] AI应用使用情况 - OpenAI与杜克、哈佛联合发布报告显示 截至2025年7月ChatGPT周活跃用户超7亿(占全球成年人口10%) 每周消息总量达180亿条[9] - 非工作类使用从53%增至70% 实用建议、信息查询、文书写作是三大主要使用场景 占对话80%[9] - 编程使用比例从12%骤降至5% 高学历用户工作相关使用比例更高:研究生48%、本科46%、无本科学历37%[9] - Anthropic报告显示Claude主战场是代码编写(36%) 用户将完整任务交给Claude的比例从27%提升到39%[9] - 企业API用户77%对话呈自动化模式[9] 企业AI战略 - 腾讯提出"向智能化要产业效率 向全球化要收入规模"的企业增长策略 发布腾讯云智能体战略全景图[10] - AI已成为腾讯新业务基因 腾讯元宝成为国内DAU排名前三AI原生应用 IMA知识库文件数量突破1亿[11] - QQ浏览器AI月活比4月增长17.8倍 助力广告、游戏等业务实现双位数增长[11] - 腾讯云国际业务持续高双位数增长 服务全球客户数同比翻番 90%以上中国互联网企业和95%以上头部游戏公司出海选择腾讯云[11] - 三年给伙伴带来商机规模同比增长330%[11]
腾讯汤道生:全面开放AI能力,助力产业增长
腾讯研究院· 2025-09-16 06:43
核心观点 - 腾讯云提出以智能化和全球化作为企业增长两大核心动力 通过AI技术全面开放和全球化基础设施升级 助力企业提升效率并拓展海外市场 [2][5][17] 智能化战略 - 腾讯云智能体战略全景图正式发布 通过智能体解决方案 SaaS+AI 大模型技术三大升级全面开放AI能力 [2][11] - 腾讯元宝DAU排名国内AI应用前三 用户日提问量达到年初月总量水平 ima知识库文件数量突破1亿 QQ浏览器AI月活数较4月增长17.8倍 [2][7][10] - AI深度融入广告业务助力Q2营销服务收入增长20% 游戏业务实现双位数增长 [10] - 智能体开发平台ADP 3.0支持第三方数据库对接 RAG能力强化 支持140多个MCP插件 新增Agent节点提升任务准确性 [12] - 与绝味食品合作的全链路AI营销效率达人工组2-3倍 内容点击率1.8倍 支付转化率2.4倍 交易金额3.1倍 [13] SaaS+AI应用升级 - 腾讯云CodeBuddy服务百万开发者 电商活动页开发时间从2天缩短至2小时 新增代码40%由AI生成 任务35%由AI评审 程序员月交付数提升34% 交付周期缩短10% [14] - 腾讯会议AI功能用户量同比增长150%+ AI纪要可捕捉参会者情绪态度 [15] - 腾讯乐享知识库支持102种格式 问答准确率达92% [15] - 腾讯电子签合同审核效率提升 复杂合同从1天缩短至10分钟 合规风险降低80% [15] 大模型技术进展 - 腾讯混元发布30多个模型 包括0.5B至A13B多款开源小模型 [16] - 混元翻译模型7B版本获2025国际机器翻译大赛30项第一 [16] - 混元3D模型开源社区下载量超260万 行业第一 已商用於拓竹科技和创想三维 [16] - 混元3D 3.0建模精度提升3倍 推出混元3D Studio一站式工具 [17] 全球化战略 - 腾讯云国际业务过去三年持续高双位数增长 海外客户数同比翻番 [4][19] - 服务90%以上中国互联网企业和95%以上头部游戏公司出海需求 客户包括GoTo集团 正大集团 美团Keeta 美的 泡泡玛特等 [4][19] - 海外开区速度国内云厂商最快 沙特投资1.5亿美元建中东首可用区 日本大阪新建第三可用区 全球设11个区域办公室和9大技术支持中心 [4][20] - 助力广汽海外业务复制 支持美的欧洲业务基于法兰克福数据中心提升系统稳定性 [21] 全球化产品与服务 - 音视频 边缘安全加速平台 小程序平台 AI数智人等产品成为出海企业标配 [19] - CodeBuddy和ADP推出海外版 云Mall Superapp as a Service 刷掌服务平台受海外客户欢迎 [22] - 服务阿联酋电信e&UAE 印尼人民银行BRI 中东游戏开发商PlaysOut等国际客户 [22] - 泰国CP AXTRA零售业务系统迁移至腾讯云 认可产品性价比和服务响应度 [23] 生态合作成果 - 伙伴通过腾讯云的收入增速远超行业平均水平 SaaS服务客户数增长60% [24] - 为伙伴带来商机规模同比增长330% 被称作合作第一选择 [24]
腾讯研究院AI速递 20250916
腾讯研究院· 2025-09-15 16:01
生成式AI - Google Gemini凭借Nano Banana图像编辑功能登顶App Store免费榜 超越ChatGPT [1] - Gemini集成画布、Veo3视频生成、Storybook故事板及Deep Research等多功能 形成完整AI工具集 [1] - Google AI全家桶包括NotebookLM知识库 支持最多上传300个文件 Flow视频生成支持1080p高清 AI Mode搜索和Gemini CLI本地助手 [1] AI模型性能突破 - xAI发布Grok 4 Fast模型 生成速度达75 token/秒 比标准版快10倍 具有实时交互优势 [2] - 新模型在编程题和初中数学题任务中表现准确且快速 能在不到2秒内解决LeetCode题目 [2] - Grok 4 Fast在速度领先的同时存在准确性妥协 适合简单查询或工具使用场景 [2] 数字人技术进展 - 可灵AI推出新版数字人功能 支持最长60秒单次输出 1080P/48帧规格 提升面部识别和口型精度 [3] - 新功能支持提示词控制角色情绪和动作 能准确执行"看提词卡"等特定动作 [3] - 可灵数字人在720P标准下价格为0.12元/秒 约为Heygen同类产品三分之一 接近业内最低价 [3] AI绘画技术优化 - 腾讯混元通过Direct-Align和语义相对偏好优化(SRPO)技术改进扩散模型训练 [4] - Direct-Align在整个扩散轨迹上进行优化 避免传统方法只优化后期步骤造成的"奖励作弊"问题 [4] - SRPO训练的FLUX1.dev模型真实感和美学评分提高3倍以上 仅需32块H20训练10分钟 [4] AI在政府治理应用 - 阿尔巴尼亚任命名为Diella的AI系统为"部长" 全面负责公共采购项目 成为全球首例 [5] - Diella将评估招标和选聘人才 以实现"公共招标100%廉洁"目标 作为政府透明改革试金石 [5] - 该举措旨在解决公共招标腐败问题 推动数字政府转型 强调AI决策的客观公正性 [5] 企业战略调整 - xAI裁撤数据标注团队约500名员工 占该团队三分之一 受影响员工将获得薪资支付至11月底 [6] - 公司减少通用型AI导师 将专业AI导师团队规模扩大10倍 招聘STEM、金融、医学等领域人才 [7] - 裁员前xAI要求员工参加决定岗位去留的测试 测试内容涵盖多个专业领域 [7] 前沿技术突破 - 加州大学洛杉矶分校开发几乎不消耗电能的光学生成模型 研究成果发表于Nature [8] - 系统利用数字编码器生成静态噪声 通过空间光调制器将噪声转化为图像 [8] - 能生成手写数字、时尚商品、梵高风格艺术作品等图像 适用于VR、AR显示和可穿戴设备 [8] AI开发生态影响 - 95%开发者需额外时间修复AI生成代码 "氛围编程清理专家"成为新兴职业 年薪可达10万美元 [9] - 资深开发者表示AI编程缺乏系统性思维 容易引入安全漏洞 50%时间写需求 30-40%时间修复AI代码 [9] AI经济应用趋势 - Anthropic报告显示用户完整任务交给Claude的比例从27%增至39% [10] - AI使用与地区经济特点相关:华盛顿特区和犹他州人均使用最多 夏威夷侧重旅游规划 马萨诸塞用于科学研究 [10] - GDP越高地区AI使用率越高 企业用户自动化率达77% 远高于个人用户 [10]
AI信仰正在推动经济增长
腾讯研究院· 2025-09-15 08:31
文章核心观点 - AI作为通用目的技术对生产率的提升存在显著滞后效应 当前企业采用率较低 尚未对生产率产生实质性影响 但资本开支的大幅增长正在推动GDP增长 这种增长更多由对AI的信仰和投资驱动而非实际生产率提升 同时核聚变作为潜在能源解决方案正获得科技巨头关注和投资 [3][6][7][11][13][15][18][23][24][26] 生产率滞后效应 - AI作为通用目的技术需要较长时间才能显著提升生产率 蒸汽机 发电机和计算机分别经历118年 91年和49年发明期及54年 40年和21年商业化期才开始明显推动生产率提升 [3] - 当前AI尚未显著提升生产率 欧盟2023年每小时劳动生产率下降0.6% 2024年仅增长0.4% 低于1995-2019年年均1%的水平 美国2020年以来劳动生产率平均增速1.8% 低于长期平均水平2.2% [6] - 未来十年AI对劳动生产率增长贡献仅0.4%-0.9% 对全要素生产率提升不超过0.66% [6] - 企业AI采用率处于早期阶段 欧盟各国企业普及率在3.1%-27.6%之间 总体为13.5% 美国企业采用率为9.2% [7] 对AI的投资推动GDP增长 - 美国四大互联网公司2024年资本开支达2450亿美元 2025年预计3540亿美元 连续两年年度增加约1000亿美元 [13] - 四大公司资本开支占GDP比例大幅提升 预计2025年达到1.16% 两年实现翻番 [13] - 2025年美国AI数据中心支出对GDP增长贡献已超过消费者支出 数据中心营建支出规模即将赶上办公楼 [15] - 中美互联网公司加大AI投入 2024年二季度美国四大互联网公司资本开支占收入比重达27.4% 中国BAT平均为12.5% 相较2023年均翻一番 [11] AI信仰或可照亮未来 - 核能发展历史显示技术推广存在预期落差 核能发电量占比在1980年代末达到顶点后持续下降 2022年仅有9.2% [20] - 核聚变作为潜在能源解决方案获得科技公司青睐 上市公司财报电话会议同时提及"数据中心"和"核能"次数大幅增多 [23] - 截至2025年7月核聚变企业累计融资达97.66亿美元 最近一年融资26.4亿美元 [24] - 主要核聚变企业获得科技巨头投资 CFS获得谷歌 英伟达 比尔·盖茨和美国能源部投资 Helion获得Sam Altman最大笔投资并担任董事长 TAE Technologies获得谷歌和雪佛龙投资 [26] - 美国政府积极推动核聚变研发 能源部为聚变创新研究引擎合作组织提供1.07亿美元资金 [26]
腾讯研究院AI速递 20250915
腾讯研究院· 2025-09-14 16:01
OpenAI与微软合作及发展前景 - OpenAI与微软发布非约束性合作备忘录 涉及云服务托管 知识产权归属和AGI控制权等核心问题 但最终合作条约仍未确定[1] - OpenAI预计成立估值超1000亿美元的公益公司(PBC) 非营利机构将持有股权并保持控制权 成为全球资源最充足的慈善组织之一[1] - OpenAI面临巨大成本压力 预计2029年前烧掉1150亿美元 仅2030年就需花费1000亿美元租赁服务器 未来几年几乎没有容错空间[1] AI影视内容创作突破 - 前谷歌X团队创立全球首家AI原生影视工作室Utopai 两部电影项目已带来1.1亿美元收入 锁定戛纳电影节[2] - Utopai突破AI视频生成三大难题:一致性 可控性和叙事延续性 实现毫秒级精准对口型 模型内置物理规律的3D数据训练[2] - 公司定位为内容+AI而非纯工具供应商 已获好莱坞顶级资源支持 为电影《科尔特斯》邀请奥斯卡提名编剧 八集科幻剧《太空计划》成功预售欧洲市场[2] 音乐生成技术进展 - MiniMax发布新一代音乐生成模型Music 1.5 支持长达4分钟的完整歌曲创作 具备强控制力 人声自然饱满 编曲层次丰富和歌曲结构清晰四大突破[3] - 模型支持"16种风格×11种情绪×10个场景"自定义音乐特征 能生成不同声线唱腔 并支持中国民族乐器生成 真正实现Intro/Verse/Chorus段落分明[3] - 基于MiniMax多模态自研能力积累 同步面向全球开发者提供API 适用于专业音乐创作 影视游戏配乐 虚拟偶像单曲和企业品牌专属音频内容多种场景[3] 本地生活AI应用发展 - 美团首个AI Agent产品"小美"开启公测 通过自然语言指令点咖啡 找餐厅 规划早餐菜单 大幅简化点餐流程[4] - 小美基于美团自研Longcat模型(5600亿总参数) 能根据用户口味偏好和地理位置实现从选品到支付的全自动操作 并记忆用户习惯[4] - 与Agent热潮相呼应 但目前仍有局限性:无法处理复杂模糊需求 无法进行语音回复 未来将在个性化和主动服务能力上进一步优化[4] 语音合成技术创新 - 小红书智创音频技术团队发布新一代对话合成模型FireRedTTS-2 解决现有方案灵活性差 发音错误多 说话人切换不稳定和韵律不自然等问题[5] - 模型在数百万小时语音数据上训练 支持逐句生成与多说话人音色切换 能够通过一句语音样本模仿音色和说话习惯 流式解码可实时输出音频[6] - 在主客观评测中均达行业领先水平 开箱即用支持中文 英语 日语等多语言 是AI播客等对话合成应用的工业级解决方案 已开源代码与模型权重[6] 开源语音合成技术突破 - 哔哩哔哩开源新一代零样本语音合成模型IndexTTS2 实现毫秒级精准时长控制 让AI配音能严丝合缝对上口型[7] - 模型采用"通用且兼容自回归架构的语音时长控制方法" 达到0.02%的时长误差率 同时通过两阶段训练策略实现情感和说话人身份的"解耦"[7] - 系统由T2S(文本到语义) S2M(语义到梅尔频谱)及BigVGANv2声码器三大核心模块组成 支持用大白话控制情绪 在跨语言产业应用上具有重大意义[7] 小型高效模型发展 - Meta AI发布MobileLLM-R1系列小参数高效模型 包括140M/360M/950M三种规模 专为数学 编程和科学问题优化[8] - 最大的950M模型仅使用约2T高质量token预训练(总训练量不足5T) 性能却与使用36T token训练的Qwen3 0.6B相当或更佳[8] - 在MATH基准上比Olmo 1.24B高五倍 比SmolLM2 1.7B高两倍 Token效率和性价比极高 完全开源模型中创造新标杆[8] AI数学研究突破 - 名为"Gauss"的AI Agent仅用三周时间完成了陶哲轩团队18个月未能完成的数学挑战——在Lean中形式化强素数定理(PNT)[9] - 该Agent由Math公司开发 生成约25000行Lean代码包含上千个定理和定义[9] - Gauss能协助顶级数学家进行形式验证 突破了复分析核心难题 团队计划在未来12个月让形式化代码总量提升100到1000倍[9] AI产业格局演变 - OpenAI推出GPT-5 首次真正让人感觉与博士级专家对话 内置"思考"能力 统一模型取代复杂选择界面 显著减少幻觉[10] - 发布前其他玩家也纷纷推出战略性新品:Anthropic推出Claude Opus 4.1瞄准高风险企业场景 Google推出Gemini 2.5 Deep Think和Genie 3分别强化推理和模拟能力[10] - 新AI版图已重新排布:OpenAI同时占据开放与封闭AI生态主导地位 Anthropic专注企业级精准稳定 Google专注基础研究长期布局 Agentic AI 先进推理和端侧能力已成顶尖模型核心特性[11] 科研AI战略布局 - DeepMind科学团队只瞄准三类问题:具有变革性 公认5-10年内无人能解 但DeepMind有信心快速攻克的"不可能任务"[12] - 团队从专用模型到通用智能的进化:将AlphaProof等专用数学模型的能力成功转移到Gemini通用模型 使DeepThink实现IMO金牌水平[12] - 未来目标是打造"科学API" 让全球科学家共享AI能力 从AlphaFold数据库到AI Co-scientist 降低科研门槛 使普通人也能做出诺贝尔奖级贡献[12]
腾讯研究院AI每周关键词Top50
腾讯研究院· 2025-09-13 02:33
芯片领域 - 英伟达推出Rubin CPX GPU芯片[3] - 特斯拉研发AI5和AI6芯片[3] 模型进展 - 阿里发布Qwen3-Max-Preview模型[3] - 微软推出rStar2-Agent模型[3] - 百度发布文心大模型X1.1[3] - Kimi开发checkpoint-engine模型[3] - 阿里推出Qwen3-ASR-Flash语音识别模型[3] - Seedream发布4.0版本模型[3] 应用生态 - Meta和Anthropic实施AI服务限制[3] - iPhone集成AI Key功能[3] - 腾讯推出混元游戏2.0和混元图像2.1[3][4] - 字节跳动开发Robix应用[3] - Rokid发布AR+AI眼镜[3] - Meta推出REFRAG框架[3] - OpenAI举办GPT-5黑客松并展示AI电影技术[3] - 港科大实现3D规模重建技术[3] - Vidu推出参考生图功能[3] - Claude推出文件生成应用[4] - 腾讯开发AI CLI工具和智能回复功能[4] - 快手推出短视频生成应用[4] - Fellou实现连续体体验技术[4] - OpenAI增加MCP支持[4] - 英伟达推出3D AI Blueprint[4] - 百度构建AI学术平台[4] - 腾讯开发会议AI托管系统[4] 科技创新 - XLeRobot开源机器人项目[4] - 自变量机器人发布WALL-OSS系统[4] - Audrey Lo开发养老机器人Sam[4] - 麻省理工研发外挂AI大脑技术[4] - 谷歌推出科研软件AI[4] 资本动态 - ASML投资Mistral AI[4] - Cognition完成融资破百亿[4] - Anthropic达成版权和解[4] 行业观点 - Sensor Tower发布AI应用报告[4] - OpenAI探讨AI幻觉问题[4] - Hugh Langley提出AI行业进入冷静期[4] - OpenAI两位核心研究员发表观点[4] - Lars Tvede分析AI经济影响[4] - Noam Shazeer研判大模型芯片需求[4] - a16z论述平台迁移本质[4] - 马斯克推进火星移民计划[4] - Thinking Machines探讨非确定性推理[5] - 宇树科技分析机器人核心问题[5] - Richard Sutton提出AI未来原则[5]
GPT-5 为啥不 “胡说” 了?OpenAI 新论文讲透了
腾讯研究院· 2025-09-12 08:58
文章核心观点 - OpenAI最新研究揭示语言模型幻觉产生的根本原因在于其统计学习本质,且后训练过程在当前评估体系下未能有效抑制幻觉,GPT-5可能通过非二元评估技术显著降低幻觉率 [9][12][24][32] 幻觉产生的必然性 - 幻觉是语言模型预训练阶段不可避免的副产品,因模型本质是通过统计规律生成内容,而非真实判断 [11][12] - 模型通过"是否有效"(IIV)判断器评估句子概率,但面对数据稀疏、复杂概念或训练数据错误时必然失效 [13][14] - 生成模型的错误率至少是IIV判断器错误率的2倍,因单个判断错误会衍生多种幻觉(如1+1=3和1+1≠2均属幻觉) [15][16] 后训练的局限性 - 后训练通过偏好反馈改变概率分布,将概率集中到"最佳答案"以减少不确定性幻觉,但可能增加过度自信风险 [19][20] - 主流评估基准(如GPQA、MMLU-Pro、SWE-bench)采用二元评分制,仅区分正确(1分)或错误(0分),系统性地惩罚"我不知道"的回答 [21][23] - 当前评估标准奖励猜测行为而非诚实回答,导致后训练在实践中未能有效引导模型降低幻觉 [24] 模型性能对比与技术路径 - DeepSeek R1采用二元奖励模型(ORM),在Vectara HHEM测试中幻觉率达14.3%,远高于其预训练模型DeepSeek V3的3.9% [30][31] - OpenAI o3使用过程奖励模型(PRM),通过逐步推理反馈降低幻觉率至6.8%,仅为DeepSeek R1的一半 [32] - GPT-5可能引入Universal Verifier技术,采用非二元评估标准(如评分细则Rubric),从根源上减少二元激励的负面影响 [32] 解决方向 - 后训练需引入带惩罚的评分机制,例如答对得1分、答错扣1分、过度自信答错扣9分,迫使模型成为"风险评估器"而非"得分优化器" [33] - 模型需专注于真实性而非单纯得分优化,才可能从根本上解决幻觉问题 [34]
腾讯研究院AI速递 20250912
腾讯研究院· 2025-09-11 16:01
估值120亿美元的Thinking Machines发布首篇研究博客 - 公司估值达120亿美元 创始团队多来自OpenAI 首款产品命名为Connection Machine [1] - 研究团队通过改进RMSNorm 矩阵乘法和注意力机制实现完全可复现的推理结果 性能损失可接受 [1] - 解决LLM推理中的非确定性问题 核心是批次不变性 [1] OpenAI ChatGPT支持MCP协议 - OpenAI宣布ChatGPT正式支持MCP Plus和Pro用户可一句Prompt实现自动化操作 [2] - MCP实现AI模型 工具和数据源的标准化交互 使不同模型能共享上下文 支持即插即用 [2] - 用户可通过开启开发人员模式连接第三方服务如Stripe 完成复杂任务 [2] 微信推出混元大模型智能回复功能 - 微信公众号推出由腾讯混元大模型支持的智能回复功能 解决运营者无法及时回复读者问题 [3] - 功能可自动学习公众号历史文章和回复风格 回复内容会标注该消息为智能回复 并可引用相关历史文章 [3] - 腾讯混元还将上线Roleplay模型和AI分身应用 提供沉浸式对话体验 [3] Kimi开源万亿参数模型中间件 - Kimi开源新中间件checkpoint-engine 能在20秒内完成万亿参数模型在数千GPU上的更新 [4] - 采用混合共置架构 通过分布式检查点引擎管理参数状态 实现参数广播和重载并行处理 [4] - 系统设计支持训练和推理引擎完全解耦 采用参数逐条更新的流水线方式 可抵御单点故障 [4] 英伟达发布文本驱动3D模型生成AI - NVIDIA发布新AI Blueprint 通过生成式AI技术让3D艺术家快速创建场景原型 [5] - 集成Microsoft TRELLIS NVIDIA NIM微服务 比原生应用快20% 支持所有配备16GB以上显存的RTX 50和40系列GPU [5] - 只需文本提示即可生成多达20个3D模型 工作流程自动化从创意到3D模型的转换 [5] 百度学术完成AI重构 - 百度学术推出AI学术搜索 AI文献总结 AI阅读 论文图谱等功能 打造行业首个一站式AI学术平台 [6][7] - 全面覆盖搜 读 创 编学术全链路 提供文献总结 全文翻译 选题推荐和专业排版等功能 [7] - 平台已收录6.9亿文献资源 覆盖104万学术站点 建立420万学者主页 [7] 腾讯会议推出AI托管功能 - 腾讯会议联合元宝推出AI托管功能 能替用户提前听会并实时记录 [8] - 用户只需在会议页面或列表点击AI托管 元宝将自动接入会议 生成智能AI纪要 [8] - 会后可直接向元宝提问会议内容 辅助决策推进 实现会议成果沉淀转化 [8] 宇树科技创始人谈AI与机器人发展 - 宇树科技创始人王兴兴表示最后悔2011年起专注机器人而错过AI发展 [9] - 公司已宣布IPO计划 预计2025年底提交申请 2024年营收突破10亿元且连续4年盈利 [9] - 修正此前关于数据的观点 承认机器人数据和模型都是核心问题 [9] 强化学习之父萨顿预言AI未来 - 萨顿认为AI进入经验时代 将从持续学习而非静态知识积累中获得智能 [10] - 指出对AI的恐惧被夸大 认为AI与人类繁荣源自去中心化协作 [10] - 提出四条预测原则 认为人类智能将被超越 权力将流向最聪明的智能体 [10]
关系5.0
腾讯研究院· 2025-09-11 08:31
文章核心观点 - 人类选择伴侣时会理性分析特质而非盲目追求爱情 并将关系组成部分拆解为可量化的现实因素[2][3][4] - 科技发展正逐步介入人类情感领域 人工智能和虚拟现实系统已能提供陪伴并模仿人类互动方式[5][6] - 社会对"人机关系"的接受度存在显著分歧 但调查显示接受比例正逐步上升(不信任比例从2019年50%降至2024年35.3%)[10][11][12] - "人造情感"通过媒体和宗教仪式等形式早已融入人类生活 科技公司持续投入资金开发更接近人类的情感体验产品[14][16][17] 人类伴侣选择机制 - 伴侣选择过程类似商品调研 会评估教育程度、年龄、家庭背景、政治观点和恋爱史等现实因素[2] - 关系维系取决于积极方面是否超过消极方面 而非完美匹配[3] - 存在"同质相婚"现象 社会阶层和教育程度相近的人更易结合[4] 科技介入情感关系的现状 - 现有机器人已具备打扫房屋、微笑、移动和辅助残疾人等功能[5] - 人工智能系统可模拟人类互动方式 但当前设计仍以功能为导向 缺乏情感魔力[5] - 关系4.0时代通过手机社交和约会网站实现伴侣选择的分解剖析[6] 社会接受度调查数据 - 2018年调查显示74%美国人担忧人工智能加剧社交孤立 70%认为会导致人类智力下降[10] - 认为科技变革太快的人群比例从2018年49%降至2024年32%[10] - 对人工智能公司不信任率从2019年50%降至2022年41% 2024年进一步降至35.3%[11] 人造情感的发展历程 - 戏剧、电影和书籍等媒介几个世纪来一直在设计人造情感[14] - 流媒体服务(如奈飞、苹果电视、亚马逊)以月费12.99美元形式提供情感内容[14] - 宗教仪式通过点蜡烛、唱赞美歌等方式设计情感体验 其效果与真实人际互动相当[17] 未来科技情感交互 - 科技巨头持续投入开发机器人、虚拟现实和增强现实等更接近人类的情感交互形式[17] - 关键问题在于人工情感是否会突破屏幕限制 以及人类对其的回应程度[17]
腾讯研究院AI速递 20250911
腾讯研究院· 2025-09-10 16:07
英伟达新一代GPU平台 - 推出专为长上下文推理设计的Rubin CPX GPU 支持一次性在数百万token范围内推理 适用于软件开发与视频生成长上下文任务[1] - 与NVIDIA Vera CPU和Rubin GPU组成Vera Rubin NVL144 CPX平台 单机架提供8 exaflops AI算力 是GB300 NVL72系统的7.5倍[1] - 系统配备100TB高速内存和1.7 PB/s内存带宽 预计2026年底上市[1] Claude文档生成功能升级 - 新增直接创建编辑Excel Word PPT和PDF文件能力 输出真正可用文件格式[2] - 配备私有计算环境 支持代码运行生成文档 具备高级数据分析与跨格式转换功能[2] - 功能已向Max Team和Enterprise用户开放 Pro用户需等待数周 支持导出或保存至Google Drive[2] 腾讯AI编程工具矩阵 - 发布AI CLI工具CodeBuddy Code并开放CodeBuddy IDE公测 国内版支持无限制使用DeepSeek模型[3] - CLI Agent通过自然语言驱动开发运维生命周期 支持多智能体协作与Git/CI/CD深度集成[3] - 内部使用显示编码时间缩短40%以上 AI代码评审贡献从12%增至35%[3] 快手AIGC视频生产系统 - 推出AIGC超级员工Kwali 通过一句话生成完整短视频 自动完成脚本拍摄剪辑到发布全流程[4] - 多Agent框架包含意图解析 脚本生成 镜头匹配和剪辑合成四大模块 接入千寻素材库与数字人模特库[4] - 支持私有素材拖入 所有元素拆分为可独立操控节点 实现实时预览与单独操作[4] Fellou连续体体验系统 - 创建无割裂连续体体验 实现交互连续 任务连续和记忆连续三大特性[5] - 支持跨应用自主执行与动态工作流编排 在Halluminate's Web Bench benchmark测试中取得72%成功率[6] - 推出深度搜索与可视化报告生成核心功能免费开放 引入任务可定时与知识可编辑特性[6] 腾讯开源文生图模型 - 混元图像2.1版本支持原生2K生图 在复杂语义理解与文字生成方面达到业界领先水平[7] - 支持最长1000个tokens提示词 实现多物体分别描述与文字精细控制 覆盖真人漫画等丰富风格[7] - 采用32倍超高压缩倍率VAE 配备双文本编码器 将推理步数由100步蒸馏至8步[7] 谷歌科研软件AI系统 - 结合大语言模型和树搜索算法 自动编写优化科研任务所需软件程序[8] - 作为搜索过程中的变异引擎 整合重组科学文献研究思路形成全新解决方案[8] - 在基因组学 地理空间分析等领域表现突出 解决方案常超越学术界最新研究成果[8] AI平台迁移与交互变革 - Agent趋向微服务化与领域专精 由多Agent组成系统 每个在特定任务成为专家[9] - 专家可获得10倍生产力提升 改变工作性质 解放开发者处理平台琐事[9] - 平台转型改变人与计算交互抽象层 可能出现数千个垂直场景创业机会[9] 马斯克科技项目进展 - Optimus人形机器人将拥有接近人类手部灵巧性 成本约2万美元 难点集中在硬件设计[10] - 特斯拉AI5芯片较AI4实现40倍性能飞跃 年底软件升级使汽车展现意识[10] - 第三代星舰运载能力超100吨 明年有望实现完全可重复使用 预计25年内火星实现自给自足移民[11]