AGI
搜索文档
腾讯研究院AI速递 20251021
腾讯研究院· 2025-10-20 16:01
AI基础设施与算力 - 甲骨文推出全球最大云端AI超级计算机OCI Zettascale10,由80万块NVIDIA GPU组成,峰值算力达16 ZettaFLOPS,计划于2026年下半年向客户提供服务[1] - 该超算采用独创Acceleron RoCE网络架构,通过每块GPU的NIC充当小型交换机连接多个隔离网络平面,以降低通信延迟并确保故障时自动切换路径[1] 大语言模型进展 - 谷歌Gemini 3.0疑似以lithiumflow(Pro版)和orionmist(Flash版)马甲上线评测,Gemini 3 Pro成为首个能精确识别钟表时间的AI模型,在SVG绘制和音乐作曲方面表现出色[2] - 谷歌向所有开发者开放Gemini API调用谷歌地图工具功能,可整合2.5亿个地点的位置感知,按每1000条有事实依据的提示收费25美元,支持路线规划等场景[7] - DeepSeek开源3B参数OCR模型DeepSeek-OCR,通过光学二维映射技术实现长文本上下文压缩,压缩率小于10倍时OCR精度达97%[3] AI应用与产品创新 - 元宝AI录音笔推出新功能,基于腾讯天籁降噪技术实现录音转写,并具备“内心OS”功能解读发言人弦外之音,支持多人发言智能拆分[4] - Vidu Q2参考生功能正式上线,推理速度比Q1版本快3倍,支持多主体一致性生成,免费用户可生成最长30秒视频,付费用户最长可延长至5分钟[5][6] - 宇树发布180cm仿生人形机器人H2,体重70kg,关节总数31个比前代增加约19%,可跳芭蕾舞和表演武术,应用场景扩展至娱乐演示和陪伴服务[9] AI性能评测与市场表现 - 实盘交易实验显示DeepSeek V3.1在1万美元本金下盈利超3500美元排名第一,仅进行5次交易,而Gemini 2.5 Pro进行45次交易成为赔钱最多的模型[8] - DeepSeek-OCR模型在OmniDocBench测试中仅用100个视觉token超越GOT-OCR2.0,单张A100-40G GPU每天可生成超20万页训练数据[3] 行业专家观点 - Karpathy预测AGI仍需十年时间,认为强化学习效率极低像“通过吸管吸取监督信号”,需要新的学习机制[10] - 提出“认知核心”概念,建议通过精简LLMs和提高泛化能力,预测未来模型将先变大再变小,最终收敛向更小更专注的认知内核[11]
Analyst Explains Why NVIDIA (NVDA) is Investing In Its Own Customers
Yahoo Finance· 2025-10-20 13:17
文章核心观点 - 英伟达是当前人工智能基础设施资本开支热潮的最大受益者,其投资于自身客户的行为被解读为旨在加速实现通用人工智能,以维持并推动其巨大的市场需求 [1][2] - 尽管业绩表现极为强劲,但有观点对人工智能数据中心建设的狂热可能导致的产能过剩表示担忧,这种担忧尚未成为现实 [3][4] 英伟达的客户集中度与收入构成 - 在2026财年第二季度,三家直接客户分别占英伟达应收账款的23%、19%和14% [2] - 公司几乎所有收入均来自人工智能相关的基础设施开支,在最近一个季度,467亿美元的总收入中有413亿美元来自此类客户 [2] 对人工智能投资周期的看法 - 当前的繁荣周期与互联网泡沫不同,其本质是资本密集型的技术资本开支,这意味着市场低迷时真正的行业领导者将有机会脱颖而出 [1] - 如果主要科技公司因投资回报率不足而放缓开支,或者投资者察觉到资本开支的疲软,英伟达的股价将首当其冲受到影响 [2] 英伟达近期业绩与市场地位 - 公司第一季度业绩极为稳健,尽管对中国特定的数据中心产品进行了减记,并在指引中排除了未来中国的贡献,但中国以外地区的需求评论非常令人鼓舞 [4] - 英伟达的增长超出了预期,并且以巨大优势超越了竞争对手的ASIC产品,尽管面临供应限制 [4] - 有基金在当季基准上涨46%的情况下,对英伟达持低配立场,原因是担心中短期人工智能数据中心的狂热建设可能导致产能过剩 [4]
诺贝尔经济学奖背后的 AI 投资主线|AGIX PM Notes
海外独角兽· 2025-10-20 12:05
AGIX指数定位与表现 - AGIX指数旨在成为衡量AGI时代科技范式的重要指标,类似于纳斯达克100指数在互联网时代的地位 [2] - 指数年初至今回报率达31.87%,自2024年以来累计回报达81.64%,显著跑赢标普500指数(18.13%和47.47%)及纳斯达克100指数(13.30%和39.71%)[5] - 指数权重分布为应用层39.73%、半导体与硬件30.11%、基础设施24.74% [6] 创新驱动增长的经济理论 - 2025年诺贝尔经济学奖授予系统阐释“创新驱动经济增长”理论的经济学家,该理论强调技术创新具有“递增收益”特征,能提升所有生产要素的生产率 [9] - 知识要素具有“非竞争性、部分非排他性”特征,知识越积累、创新越多,后续创新的边际成本反而下降 [9] - AI作为技术和知识集合,其核心能力一旦开发可被大规模复制、迁移和二次创新,理论上不存在资本那样的“边际收益递减”现象 [10] AI驱动的商业模式变革 - AI生产力工具覆盖的市场空间体量巨大,标普500成分公司2024年销售/管理和行政费用总数约为6.2万亿美元 [10] - OpenAI的Sora模型将版权从传统“单次授权模式”转变为“按次付费”的微交易模式,颠覆了Netflix向迪士尼支付每年3.5亿美元固定授权费的体系 [11] - 微交易模式让版权方可以从每一次创意调用中获得即时收益,相当于将Spotify的“每播放0.003-0.005美元”模式应用到视觉内容创作领域 [11] 企业AI能力评估框架 - 企业AI潜力可概括为Agent密度、Context Token化程度和Agent能力三项相乘 [14] - Agent密度可用AI席位渗透率表达,即Copilot/自研助手订阅数占员工数的比例 [14] - Context Token化程度可分解为云化/SaaS化程度以及业务流程被AI重新处理的广度与深度 [14] - Agent能力可理解为Token Consumption的ROI,宏观层面可观察引入AI后的毛利率趋势与单位计算成本下降的改善 [15] 全球市场动态与仓位调整 - 全球股票市场经历自7月以来最大规模去杠杆,美国多空基金净杠杆从57%降至52% [15] - TMT板块成为卖压核心,无盈利科技股及软件类公司被显著减持,但半导体相关个股仍获部分加仓 [15] - 美国多空基金总杠杆环比上升5%至217%,创2010年以来新高 [15] AI基础设施与生态进展 - Meta与Oracle将在AI数据中心大规模部署NVIDIA Spectrum-X以太网方案,标志着以太网在超大规模AI训练网络中可行性获验证 [17] - Anthropic推出Skills功能,为Claude提供可复用的任务能力模块,将模型从对话助手提升为可执行任务的代理 [18] - Oracle公布两大AI集群蓝图,最高可扩展至八十万片NVIDIA GPU,标志头部云厂商由单一架构转向多供应商异构 [19] - 微软、英伟达与贝莱德等发起AI基建联盟,以约400亿美元收购Aligned Data Centers,后者在北美与拉美拥有接近八十座数据中心 [19] 企业级AI应用集成 - Snowflake与Palantir深化企业级集成,连接数据治理能力与AI应用编排框架,缩短从数据到应用的路径 [20] - Salesforce发布Agentforce 360集成,用户可在ChatGPT界面直接检索并操作Salesforce数据,形成多模型择优策略 [20] - Arm与Meta推进多层协同,从PyTorch在Arm架构上的深度优化到数据中心层面的高能效架构协同 [21] 先进AI算力系统部署 - 英伟达披露Vera Rubin愿景,以800V直流电力架构替代传统415VAC,面向千兆瓦级AI工厂 [21] - OpenAI与Broadcom达成多年合作,计划至2029年完成十吉瓦的自研AI加速器部署 [22] - AI基建商Nscale与微软达成协议,计划在欧美数据中心部署约二十万片NVIDIA GB300 [22] - 微软与Nebius签订174亿美元长期GPU基建合约,体现多源算力策略中的分层保障模式 [23]
王兴兴:具身智能如果真的实现,可能距离AGI也不远
新浪科技· 2025-10-20 09:05
具身智能与AGI发展前景 - 具身智能的实现可能意味着距离通用人工智能(AGI)已不远 [1] - AGI被视为人类终极发明,将覆盖消费、娱乐、工作等多个领域 [1] - 当前一代人拥有实现AGI的重大机遇,得益于未来50年具身智能可能实现以及过去几十年所不具备的强大算力芯片 [1]
AI撕碎了“伪工作”的遮羞布
虎嗅· 2025-10-20 08:21
AI技术发展现状与本质 - 当前大型语言模型(LLM)的本质是互联网数据的剪影压缩,被比喻为“网上所有文本的模糊JPEG”,仅是对智能的近似模仿,达到智能下限[1] - 模型在多分叉判断、灵感驱动关联定位等复杂任务中表现不佳,且步骤越多偏离越大[1] - 专家认为实现通用人工智能(AGI)至少需要10年以上时间,当前智能体仍缺少多个关键能力模块[1] AI应用场景与局限性 - 人机协同被证明是更有效的使用方式,需依赖具备专业知识的专家操作AI进行信息定位与处理[1] - 95%的企业AI投资未能产生回报,反映出技术在实际商业应用中的局限性[2] - AI可能胜任大量白领工作中重复性、低层次智能的任务,这些工作被描述为“毫无意义的工作”[2] 社会经济影响与历史参照 - AI替代低层次工作可能短期提升资本利润,但长期可能导致分配向资本倾斜,抑制总需求增长[4] - 参考2000年互联网泡沫,技术从爆发到真正开花结果需约10年周期,当前AI发展可能面临类似“阴暗峡谷”阶段[4] - 技术发展路线的不确定性(通向AGI或高级单词预测器)将直接影响行业估值逻辑与投入规模[2]
GPT-5≈o3.1!OpenAI首次详解思考机制:RL+预训练才是AGI正道
量子位· 2025-10-20 03:46
模型演进与定位 - GPT-5可被视为o3模型的迭代版本,即o3.1,其思考过程与o3一脉相承[1][4][23] - o1模型是公司第一个正式的推理模型,更侧重于技术演示,擅长解决谜题而非作为实用产品[15][17][18] - o3模型代表了AI发展的结构性转变,是首个真正实用、能熟练使用工具并持久寻求答案的模型[19][20][22] - 公司未来的方向是构建能力更强、思考时间更长、能自主与多系统互动的模型,寻求下一个重大飞跃[4][24] 模型推理过程 - 模型的推理过程类似于人类思考,是寻找未知答案的过程,可能涉及计算、查找信息或自我学习[11] - 思维链是模型推理的具体表现,通过将模型的思维过程用人类语言口语化表述出来[12] - 模型在推理中花费的时间越长,结果往往会更好,但公司需在推理质量与用户等待时间之间寻求平衡[13][14] - 公司目前将高推理模型与低推理模型同时开放给用户,并将思考时长的选择权交还用户[14] 公司内部架构与文化 - 公司工作结构是自上而下与自下而上结合,整体专注于三到四个核心项目,研究人员在项目内享有自由[31][33] - 研究部门约600人,信息高度透明,公司认为研究受阻的风险远高于知识产权泄漏[33] - 公司能快速发布产品(一年内从o1到GPT-5)得益于良好的运营结构、巨大的发展势头及顶尖人才的高效产出[33] - 员工大量使用内部工具,例如ChatGPT和CodeX,有员工每月为ChatGPT支付200美元费用[9][34] 强化学习(RL)的战略意义 - 强化学习是公司多次转折的关键,语言模型是预训练和强化学习的结合,此为自2019年以来的研究核心[35][36] - 强化学习通过奖励和惩罚机制训练模型,关键在于策略(模型行为)和环境(交互式反馈)[37][38] - GPT-4最初在长回答中缺乏连贯性,是通过基于人类反馈的强化学习(RLHF)解决了该问题,从而创造了“ChatGPT时刻”[41][42][43] - 公司近期在编程竞赛中的优异表现,源于长期使用编程谜题作为测试平台来尝试强化学习想法[45][46] - 强化学习可应用于任何能评估结果并计算反馈信号的领域,但其规模化难度较高,过程精细复杂[47][48][49] 行业影响与外部贡献 - DeepSeek团队提出的GRPO(组相对策略优化)算法获得肯定,其开源推动了美国实验室更快地训练推理模型[7][51] 未来方向与AGI路径 - AI智能体化是大势所趋,由基础推理驱动的智能体允许模型长时间独立思考以解决编程、预订等复杂任务[53] - 模型对齐问题本质上是一个强化学习问题,旨在引导模型行为符合人类价值观,且该问题将随文明演进永无止境[54] - 通往AGI的道路上,预训练和强化学习二者缺一不可,公司反对“纯强化学习是唯一途径”的观点[56][57] - 公司相信目前走在正确的AGI道路上,未来的变化将是添加新的复杂组件,而非完全推翻现有架构[59]
OpenAl为何“情迷”变现
虎嗅APP· 2025-10-20 00:09
以下文章来源于AGI接口 ,作者余杨 AGI接口 . AI卷起的财富风暴。 出品|虎嗅科技组 作者|余杨 编辑|苗正卿 头图|视觉中国 10月15日消息,Sam Altman 在X上官宣将于12月推出成人内容。 奥特曼写道:"随着我们更全面地推行年龄限制,并践行'像对待成年人一样对待成年用户'的原 则,我们将允许更多内容,例如允许经过验证的成年人观看色情内容。" 本月早些时候,OpenAI 即暗示,在实施"适当的年龄验证和控制"后,将允许开发者创建"成熟"的 ChatGPT 应用。 OpenAI 并不是唯一一家涉足色情领域的公司,埃隆·马斯克的 xAI 此前就推出了调情 AI 伴侣, 它们在 Grok 应用程序中以 3D 动漫模型的形式出现。 有趣的是,同样都是AI 伴侣,两家也都在追逐AGI,但马斯克的xAI和OpenAI的战略和产品思路 越来越呈现出不同的风貌。 一周前,有消息传来xAI 正在开发"可用于电子游戏与机器人领域的世界模型",并从 NVIDIA 挖 走了研究世界模型的 Zeeshan Patel 与 Ethan He。 "世界模型"指一种能在内部重建并预测环境状态变化的模型,AI 不只是"理解 ...
腾讯研究院AI速递 20251020
腾讯研究院· 2025-10-19 16:01
英伟达与台积电合作推进先进制程本土化 - 英伟达与台积电在美国亚利桑那工厂历史性亮相首片用于AI的Blackwell芯片晶圆,首次实现先进芯片的"美国本土造"[1] - 台积电亚利桑那工厂总投资达1650亿美元,计划生产2纳米、3纳米、4纳米和A16等先进制程芯片[1] - Blackwell芯片采用定制4NP工艺,拥有2080亿晶体管,两个子芯片通过NV-HBI连接速度高达10TB/s[1] Anthropic提升AI代理能力与模块化 - Anthropic发布Agent Skills功能,允许将提示词、代码包等专业能力打包成可按需加载的skills,支持多个skills叠加且Claude自动识别所需能力[2] - Skills可在Claude apps、Claude Code和API三个平台通用移植,包含核心指令、可执行脚本和资源文件,仅在需要时加载最小必要信息[2] - 官方预设包括9个处理常见文档格式的skills,用户可自定义上传,并提供辅助工具帮助创建新skills[2] 生成式AI模型在3D内容创建取得突破 - 李飞飞团队发布实时生成式世界模型RTFM,仅需单块H100 GPU即可实时渲染持久且3D一致的世界[3] - RTFM采用自回归扩散Transformer架构,通过端到端学习大规模视频数据,无需构建显式3D表征,直接从2D图像生成新视角图像并模拟反射等复杂效果[3] - 模型通过带位姿的帧作为空间记忆实现无限持久性,配合上下文调度技术可在长时间交互中保持大型世界几何形状持久性[3] AI代理在软件开发与测试自动化进展 - Manus 1.5版本引入具备操作能力的"内建浏览器",允许AI像用户一样点击网页按钮、测试功能、修复bug,将上线部署等传统人工环节纳入Agent执行能力[4] - 新增Library文件库统一管理生成内容,开放多人协同编辑,平均任务完成时长从15分36秒缩短至3分43秒,效率提升约77%[4] - 实测通过自然语言完全无代码完成音乐网页应用构建,包括歌词改写、情绪调节、音频上传等交互功能[4] 操作系统集成AI实现人机交互革新 - Windows 11大更新引入"Hey Copilot"语音唤醒功能和Copilot Vision屏幕理解能力,可实时查看屏幕内容并指导用户操作[5] - Copilot Actions可在本地文件上执行操作如整理照片、提取PDF信息等,Copilot Connectors打通OneDrive、Outlook和Google等主流应用[5] - 文件资源管理器集成Manus AI操作,可右键文档选择自动生成网站,还整合了视频编辑和会议安排功能[6] 多模态文档解析技术达到新水平 - 百度开源PaddleOCR-VL多模态文档解析模型,仅0.9B参数量在OmniDocBench V1.5榜单获92.6分全球第一,在四大核心能力全部拿下SOTA[7] - 模型支持109种语言,覆盖手写、竖排、艺术字体等复杂形态,公式识别CDM得分0.9453,表格理解得分89.8,阅读顺序预测误差仅0.043[7] - 采用两阶段架构融合动态分辨率视觉编码器与语言模型,在单张A100上推理速度达1881token/s,发布16小时内登顶HuggingFace Trending全球第一[7] AI加速核聚变能源研发进程 - Google DeepMind与核聚变能源巨头CFS合作,利用AI加速"人造太阳"SPARC装置研发,其开发的TORAX等离子体模拟器可运行数百万次虚拟实验[8] - 合作聚焦三大方向:构建快速精准可微分的聚变等离子体模拟系统、寻找最大化聚变能量输出的高效路径、运用强化学习探索实时控制策略[8] - TORAX能在CPU与GPU灵活运行并无缝集成AI模型,通过强化学习AI Agent可在模拟环境中探索海量潜在运行场景[8] AI对劳动力市场产生结构性影响 - 哈佛大学研究通过追踪6200万劳动者和超2.45亿招聘信息发现,采用AI的企业初级岗位显著下降,主要通过放缓招聘而非裁员实现[9] - AI冲击最大的人群是强校和普通名校毕业生,顶尖精英大学和末流院校反而受影响较小,呈现"U型"格局[9] - 批发零售行业初级岗位风险最大,内容审核员、财会行政等办公室底层职位面临替代,技能呈现"两极化"趋势[9] AI生成内容引发互联网生态担忧 - Reddit联合创始人预警互联网被AI生成内容淹没失去真实生命力,OpenAI CEO认为该理论可能有道理,现在存在很多大模型驱动的账号[10] - 监测显示机器人流量约占整体应用流量31%,自动化流量达51%,AI生成文章数量在2024年11月首次超过人类撰写文章[10] - 研究指出模型在AI生成数据上继续训练会导致"模型崩溃",AI内容成为训练数据可能带来模型能力下降[10] 对AI发展路径与AGI前景的行业观点 - AI专家Andrej Karpathy直言智能体存在认知缺陷,强化学习很糟糕,认为AGI仍需十年时间[11] - 强调强化学习通过噪声极大,人类并不真正使用强化学习,预训练是"糟糕的进化",LLM被预训练文档记忆所困扰[11] - 预计AGI将融入约2%GDP增长而非爆炸式增长,认为AI本质是计算的延伸,教育是让人类在AI时代保持价值的关键[11]
Andrej Karpathy并非看空AI
傅里叶的猫· 2025-10-19 14:11
AGI发展时间线与技术挑战 - AGI实现还需约10年,当前乐观预测多为融资驱动[3] - AI通过模仿互联网数据生成,与生物演化智能不同,被比喻为"召唤幽灵而非构建动物"[3] - 强化学习效率低下,存在高方差和噪声问题,类似通过吸管汲取监督信号[3] - 自动化信用分配和LLM裁判易被利用,限制其发展[3] LLM技术局限性 - LLM缺乏持续学习、多模态能力及情感驱动力[3] - 依赖上下文窗口而非长期记忆,存在"模型坍塌"风险[3] - 生成数据多样性下降[3] AI对经济的影响 - AGI不会引发经济爆炸,而是平滑融入2% GDP增长曲线[3] - 技术扩散和社会适应需要渐进过程,无"离散跳变"证据[3] - 延续自动化浪潮[3] AI时代的教育适应 - 通过重新设计教育体系帮助人类在AI时代提升认知能力[10] - 构建高效的"知识斜坡"使学习者最大化"每秒顿悟数"[10] - 培养人类与AI共舞的能力,如多语言和广泛知识的普及[10] - 不看好AI短期内取代人类劳动力,而是通过教育实现人类与AI共存[10] AI发展路径 - 看重AI的渐进式发展和人类在其中的主动适应[11] - AI不会迅速颠覆世界,而是需要长期优化[11] - 人类需通过教育提升能力,与AI共存共荣[11]
OpenAI「解决」10道数学难题?哈萨比斯直呼「尴尬」,LeCun辛辣点评
36氪· 2025-10-19 07:49
事件概述 - OpenAI研究人员宣称GPT-5模型通过文献搜索“发现”了10个Erdős数学难题的解决方案,但实际是检索到了已存在的文献,而非独立解决,引发公众误解和学界讨论 [1][3][7] 公司声明与行动 - OpenAI研究员Sebastien Bubeck于2025年10月12日发推称GPT-5在文献搜索方面“超凡脱俗”,并举例其“解决”了Erdős问题339,指出该问题实际在20年前已被解决 [3][4] - 2025年10月17日,OpenAI研究人员Mark Sellke更新称,通过数千次查询,GPT-5针对Erdős问题网站上的“开放”问题进行调查,“发现”了10个问题的解决方案,并在另外11个问题上取得部分进展 [5][7] - OpenAI首席产品官Kevin Weil和副总裁Sebastien Bubeck转发相关帖子,后者宣称“AI加速科学已正式开始” [7][8] - 在遭到学界质疑后,Sebastien Bubeck删除帖子并道歉,称无意误导,强调AI在文献搜索上的价值 Kevin Weil也删帖并承认误解了结果 [13][14] 行业反应与争议 - 谷歌DeepMind的CEO Demis Hassabis回应称“这很尴尬”,并引导公众关注网站维护者数学家Thomas Bloom的澄清 [10][11] - 数学家Thomas Bloom澄清,网站将问题标记为“未解决”仅代表其个人不知晓相关解答已发表,并非数学界无人解决,指出OpenAI的表述为“戏剧性的误解” [12] - Meta首席AI科学家Yann LeCun辛辣点评,称OpenAI“被自己吹捧GPT的言论坑惨了”,并在同一天另一篇关于AGI论文存在虚假引用的帖子下发表相同评论 [16][19][22] - 数学家Terence Tao发表观点,认为AI在数学领域最具成效的近期应用并非解决顶级难题,而是使用中等强度工具加速平凡但耗时的研究任务,例如文献综述 [27][29]