Workflow
AI递归自我改进
icon
搜索文档
腾讯研究院AI速递 20251217
腾讯研究院· 2025-12-16 16:32
苹果AI芯片战略 - 苹果正开发首款代号"Baltra"的AI服务器芯片,与博通合作开发网络技术,采用台积电3nm工艺,预计2027年部署 [1] - 苹果已放弃自建大模型,转而每年支付约10亿美元使用谷歌定制的1.2万亿参数Gemini模型,Baltra芯片主要用于满足庞大的AI推理需求 [1] - 芯片架构将注重时延与吞吐量优化,采用INT8等低精度运算,可能采用64颗芯片互连配合大容量LPDDR内存的方案 [1] 大模型技术进展 - 英伟达推出Nemotron 3系列开源模型,包含Nano、Super和Ultra三种规模,采用突破性异构混合专家架构 [2] - Nemotron 3 Nano的吞吐量比上一代高4倍,在大规模多智能体系统中实现领先的每秒生成token数,推理效率显著提升 [2] - 模型通过先进强化学习技术和大规模并行多环境后训练实现卓越准确率,并提供完整的训练数据集和强化学习库 [2] - 逆向工程发现ChatGPT记忆系统采用四层架构:会话元数据、用户记忆、近期对话摘要和滑动窗口,未使用向量数据库或RAG检索 [3] - ChatGPT通过预生成的轻量级摘要和显式保存的结构化信息实现记忆,GPT-4最大上下文窗口为128k token,超出后最前面的内容会被遗忘 [3] AI应用与内容生成 - 腾讯元宝上线写作模式,支持自动补全剧情人设大纲并一键生成成稿,单次可直出数万字文本 [4] - 元宝可在约14分钟生成约3万字,半小时写出5万字,并支持将长稿一键导出至本地文档或腾讯文档 [4] - 通义万相2.6成为国内首个支持角色扮演的视频模型,支持音画同步、多镜头生成及声音驱动 [5] - 视频生成支持15秒长视频、多镜头叙事和自然音画同步,能参考输入视频角色外观和音色实现单人、多人合拍 [5] - 图像生成升级包括艺术风格高度美学可控、真实人像质感提升、文字生成图表插画、图文混排输出和多图融合生成等功能 [6] - 字节跳动发布Seedance 1.5 pro音视频联合生成模型,支持精准音画同步、多语言方言、电影级运镜和15秒长视频生成 [7] - 模型采用MMDiT架构实现视听流精准协同,原生支持中英日韩等多语种及四川话粤语等方言,音频指令遵循处于业内头部水平 [7] 自动驾驶进展 - 工信部附条件许可长安深蓝SL03和极狐阿尔法S两款L3级自动驾驶车型,成为我国首批获准入的L3车型 [8] - 深蓝SL03可在拥堵环境下最高时速50km/h实现单车道自动驾驶,仅限重庆内环等指定路段;极狐阿尔法S最高时速80km/h,仅限北京京台高速等路段 [8] - 两家企业已完成并通过产品测试与安全评估,将在指定区域开展上路通行试点 [8] AI行业趋势与挑战 - 谷歌前CEO Eric Schmidt提出"旧金山共识",认为语言智能体与推理能力结合将趋近人类核心能力,技术融合到一定阶段会出现AI递归自我改进 [9] - 他预测AI数学家将在未来一年内出现推动新数学理论诞生,行业普遍认为这一变革在2-4年内发生 [9] - 美中AI竞争路径分化:美国聚焦超级智能研发但电力不足,中国全力推动AI商业应用落地且电力充足,两国均依赖私营部门推动发展 [9] - 多款AI模型面对六指手图像无法正确数出手指数量,暴露出当前AI在视觉推理、因果关系理解上的缺陷 [10] - 问题根源在于训练数据中"人手=五指"的强关联和Transformer架构缺乏显式结构约束,单次前向传递无法追踪状态信息 [10]