Seek . - 财报，业绩电话会，研报，新闻

Seek .(SKLTY)

搜索文档

环球时报· 2025-12-07 22:51

该产品在市场上引起热烈反响。据报道，这款原型机在中国一经发布便迅速售罄。虽然厂商并未透露总销量，但其转售价格已在市场飙升约43%。美国科技媒体Wccftech报道称，该产品让人联想到2025年初 DeepSeek引发的轰动，当时全球集体震惊于中国以极低的计算成本提供的顶级推理模型，如今中国科技公司再次推出全球首款真正具备智能代理功能的AI手机。《印度快报》报道称，目前全球尚没有其他手机能够达到豆包手机如此高的自主性，虽然商业化进程还有待观察，但是已清晰地展示了智能手机未来将如何改变我们的生活。同时，这款手机的问世也表明，首款真正意义上的智能体手机或许并非来自硅谷，而是来自中国融合人工智能和移动技术的生态系统。尽管这款产品目前只是豆包方面发布的"技术预览版"，不过，将语言大模型植入到操作系统层面，也引发业界关于数据授权、隐私、系统安全等问题的激烈争议。中关村信息消费联盟理事长项立刚告诉《环球时报》记者，"将大模型与操作系统进行深入融合确实存在很大的争议，其商业推广也阻力重重。但是如果要让AI Agent更加强大，必须深入到手机硬件和操作系统的底层，才能充分释放AI的能力。"项立刚认为，"这肯 ...

Artificial Intelligence

Smartphones

努比亚M153手机（豆包手机）

Artificial Intelligence

Smartphones

努比亚M153手机（豆包手机）

开源和闭源模型的差距在拉大：这是DeepSeek论文揭示的残酷真相

36氪· 2025-12-06 00:03

行业核心观点 - 开源大模型与闭源模型的性能差距正在扩大，而非缩小，尤其是在复杂任务上闭源系统展现出越来越强的优势 [1][2] 性能差距现状 - 在MMLU-Pro测试中，DeepSeek V3.2得分85.0，低于GPT-5的87.5和Gemini 3.0 Pro的90.1 [2] - 在GPQA Diamond测试中，DeepSeek V3.2得分82.4，低于GPT-5的85.7和Gemini 3.0 Pro的91.9 [2] - 在HLE测试中，差距尤为明显：DeepSeek V3.2得分25.1，GPT-5得分26.3，而Gemini 3.0 Pro高达37.7 [3] - 尽管DeepSeek V3.2是当前最强的开源模型，但在需要深度推理和复杂任务处理的场景中，与顶级闭源模型仍存在明显差距 [4] 开源模型的结构性困境 - **架构限制**：开源模型普遍依赖传统的vanilla attention机制，该机制在处理长序列时效率极低，严重限制了可扩展部署和有效的后训练 [5][6] - **资源投入鸿沟**：后训练是关键环节，但大部分开源模型的后训练预算可能连预训练成本的1%都不到，而DeepSeek V3.2的后训练计算预算超过了预训练成本的10% [7] - **AI Agent能力滞后**：在真实应用场景中，开源模型的泛化能力和指令理解能力明显落后，阻碍了实际部署的有效性 [8] - 具体表现为：在MCP-Mark中，DeepSeek V3.2得分45.9，低于Gemini 3.0 Pro的51.0；在MCP-Universe中，前者为80.3，后者为87.9；在Tool-Decathlon中差距更明显 [8] DeepSeek的技术创新与应对策略 - **架构革新**：引入DSA机制，通过“闪电索引器”选择top-k个最重要的token参与计算，将计算复杂度从O(L²)降至O(L×k)，其中k=2048 [10] - 在128K上下文长度下，DSA大幅降低了推理成本且性能几乎无损，在AA-LCR和Fiction.liveBench等测试中表现甚至优于使用传统注意力的前代模型 [10] - **超常规资源投入**：持续强化学习训练预算已超过预训练成本的10%，为数学、编程、推理、Agent等六大领域分别训练专家模型 [12] - 在持续预训练阶段，模型经历了943.7B tokens的训练，并采用GRPO算法进行混合训练，整合推理、Agent和人类对齐任务 [12] - **系统化强化Agent能力**：开发了系统化的任务合成流程，合成了超过1800个多样化环境和85,000条复杂提示，涵盖24,667个代码Agent任务、50,275个搜索Agent任务、4,417个通用Agent任务和5,908个代码解释器任务 [13] - 效果显著：在MCP-Universe上达到80.3%的成功率，虽低于Gemini 3.0 Pro的87.9%，但已是开源模型最佳表现，显著缩小了与闭源模型的差距 [13] 行业启示与路径 - 开源AI的生存之道在于技术路线创新，而非硬碰硬拼资源 [14] - DeepSeek V3.2证明了通过更高效的架构和更科学的后训练，可以用更少的资源实现接近闭源模型的效果 [13][14] - 如果Gemini 3.0证明了持续扩展预训练的潜力，DeepSeek V3.2则证明了在大规模上下文环境中强化学习的可扩展性 [13]

DeepSeek-V3.2巨「吃」Token，竟然是被GRPO背刺了

36氪· 2025-12-04 10:38

DeepSeek-V3.2模型性能与效率分析 - 新发布的DeepSeek-V3.2 Speciale版本在处理复杂任务时暴露出Token使用效率不佳的问题，在相同任务上，Gemini仅消耗2万Token，而DeepSeek-V3.2 Speciale消耗了7.7万Token，是前者的3倍以上[1] - 独立分析提供商Artificial Analysis指出，DeepSeek V3.2在推理模式下比上一代更啰嗦，在运行AAII基准测试时，输出Token消耗从上一版本的6200万显著增加至8600万[7] - 官方技术报告承认，DeepSeek-V3.2-Speciale的Token使用效率明显低于Gemini-3.0-Pro[13]，为了降低部署成本并减少推理时延，官方版DeepSeek-V3.2在训练中施加了更严格的Token约束[14] 模型基准测试表现对比 - 在AIME 2025基准测试中，DeepSeek-V3.2-Speciale的Pass@1分数为96.0，消耗23k Token，而Gemini-3.0 Pro分数为95.0，消耗15k Token[13] - 在HMMT Feb 2025测试中，DeepSeek-V3.2-Speciale获得99.2的高分，消耗27k Token，Gemini-3.0 Pro为97.5分，消耗16k Token[13] - 在CodeForces基准测试中，DeepSeek-V3.2-Speciale获得2701的评分，但消耗高达77k Token，而Gemini-3.0 Pro评分为2708，仅消耗22k Token[13] GRPO算法固有缺陷分析 - DeepSeek-V3.2 Speciale输出内容又长又啰嗦但最终仍然出错的问题，根源在于GRPO算法本身的固有缺陷[2] - 研究论文指出GRPO算法存在长度偏置，当优势函数为负值时，较长的错误响应所受惩罚更弱，导致策略在错误样本中偏向生成更长的回答[18] - 在DeepSeek-R1-Zero的训练过程中，模型的响应长度在整个训练阶段持续增长，这一现象在DeepSeek-V3.2 Speciale中仍然存在[16]，DeepSeek-V3.2的技术报告显示，难度偏置已被优化，但长度偏置仍然保留[18] 用户反馈与性能指标 - 社区用户反馈，DeepSeek-V3.2 Speciale具备极强的推理能力，但Token消耗速度如喝水般迅速，显著高于同类模型[5] - 用户评价指出，如果DeepSeek-V3.2 Speciale的生成速度能从当前约30 tokens/s提升至100 tokens/s左右，其综合可用性和使用体验将获得大幅改善[5] - 在对比测试中，DeepSeek V3.2-Speciale的平均耗时为613秒，消耗34501 Token，而Gemini 3 Pro仅耗时113秒，消耗12116 Token[7] 行业技术发展动态 - 与Grok和Mistral对比，DeepSeek V3.2在输出Token方面存在明显延迟[10] - GRPO算法已成为大模型后训练的黄金范式，但其在理论和实际实现之间存在不一致性，在PPO的大多开源实现中加入了长度归一化，无意中引入了长度偏置[21] - DeepSeek研究者表示，Token效率仍将是未来一个至关重要的研究方向[14]

Seek .(US:SKLTY)

GRPO算法

Token使用效率

Artificial Intelligence

DeepSeek-V3.2

DeepSeek-V3.2 Speciale

GRPO算法

Token使用效率

Artificial Intelligence

DeepSeek-V3.2

DeepSeek-V3.2 Speciale

谷歌掀“美国版DeepSeek冲击”，投资人拆解算力赛道前景|华尔街观察

第一财经资讯· 2025-12-04 10:09

谷歌AI进展与市场影响 - 摩根士丹利报告显著上调谷歌自研AI芯片TPU的产量预测，预计到2027年达500万片，2028年达700万片，较此前预测的300万片和320万片大幅提升 [1] - TPU产量提升预计将为谷歌带来约130亿美元营收增量及0.40美元的每股收益提升 [1] - 谷歌最新大型语言模型Gemini 3完全由其TPU训练，在训练成本和效率上相比英伟达GPU更具优势 [1] - 谷歌母公司Alphabet股价冲破320美元，年初至今涨幅接近70%，市值逼近4万亿美元，市盈率从年内14倍翻倍至逼近28倍 [1] 谷歌的核心竞争优势 - 谷歌被投资经理视为最接近通用人工智能的企业，具备算力保障与数据两大关键优势 [2][4] - 算力优势源于自身强劲现金流，无需外部融资即可获取充足GPU [4] - 数据优势在于沉淀了数十年的搜索、视频、安卓移动等浅层与深层数据，是AI训练的核心“养料” [4] - 谷歌拥有“一体化”生态系统优势，包括搜索、Gmail、Workspace、Android，利于将AI融入数十亿用户工作流程 [5] - 谷歌联合创始人佩奇回归主抓AI，结合DeepMind技术，有望推出超越ChatGPT的产品 [4] 对英伟达及AI硬件格局的影响 - 市场担心谷歌AI进展，导致英伟达市值蒸发超千亿美元 [1] - 英伟达持股的数据中心运营商CoreWeave股价从历史高位下跌近50%，其竞争对手Nebius股价也持续下行 [7] - 分析认为TPU作为专用计算芯片，在特定推理场景有优势，但无法取代GPU的通用计算地位，两者是互补而非替代关系 [2][7] - 在AI解决“情商问题”（处理非确定性、概念性内容）的背景下，英伟达GPU是关键支撑，扮演“情商调动总协调师”的角色 [7][8] - 英伟达在算力领域的主导刚起步，行业资本开支上升趋势有望维持，其市盈率接近20倍，估值被认为合理 [8] AI投资格局与市场观点 - 巴菲特旗下伯克希尔·哈撒韦于2025年三季度首次建仓谷歌母公司Alphabet，持仓规模达43亿美元，引发市场震动 [4] - 当前大模型竞争格局从“谁拥有最智能的聊天机器人”转向“谁拥有最集成的一体化工作流程”，谷歌两者兼备 [5] - OpenAI面临挑战：若在多模态消费者功能上与谷歌竞争，将陷入消耗战；若退守企业市场，则面临谷歌通过生态系统渗透的威胁 [5] - 市场开始担心AI投资性价比，但认为AI是类似工业革命的重大变革，不能以单一企业短期收支衡量整个行业 [6] - 多位投资经理仍长期持有AMD和英伟达，认为以目前市盈率减持不明智，但短期内不利因素不太可能消失 [9] AI应用端的投资机会 - 未来投资者目光将更多聚集于AI应用端，因为应用端是“资本开支的接收者”和被AI真正赋能的部分 [10] - 垂直应用领域如教育、医疗、文创、通用办公等都可能跑出独角兽 [11] - 中国企业在AI应用层，特别是在用户体验打造方面占据优势，得益于庞大用户群体 [11] - 以哔哩哔哩为例，其被看好的原因包括：用户规模达3.6亿且具备消费力、内容生态适合知识类长视频与AI赋能、游戏与广告业务增长潜力清晰 [11] - 高盛、摩根士丹利等机构已发布报告提高哔哩哔哩目标价，看好其广告变现潜力与AI带来的效率提升 [11]

DeepSeek-V3.2被找出bug了：疯狂消耗token，答案还可能出错，研究人员：GRPO老问题没解决

36氪· 2025-12-04 02:21

模型性能与市场定位 - DeepSeek-V3.2模型，特别是其长思考增强版Speciale，以开源形式对闭源顶级模型构成了竞争压力[4] - 在解决相同复杂任务时，Speciale模型消耗的token数量显著高于竞争对手，例如Gemini仅使用2万个token，而Speciale需要花费7.7万个token[4] - 该模型允许生成极长的思维链，通过大量消耗token进行深度自我修正和探索，走的是一条“在超长上下文下持续扩展强化学习”的路线[14] 技术缺陷与算法问题 - DeepSeek-V3.2模型存在“浪费token”的问题，这是一个自DeepSeek-R1-Zero以来一直存在的“bug”[1][5] - 问题的根源被认为在于GRPO算法存在两个“隐藏偏见”[8] - 第一个是“长度偏见”：GRPO算法在计算奖励时会将答案长度纳入考量，导致短的错误答案被罚得更重，而长的错误答案惩罚较轻，这激励模型生成“又长又错”的答案来规避惩罚[8] - 第二个是“难度偏见”：算法会根据同一批题目得分的标准差调整权重，导致过于简单或困难的题目被过度关注，而中等难度的关键题目反而被忽略[9] - 根据研究，DeepSeek-V3.2已经通过新的优势值计算方式修正了“难度偏见”，但仍然保留了有偏的长度规范项，即“长度偏见”依然存在[10][11] 官方回应与成本考量 - DeepSeek官方技术报告坦承，token效率对于DeepSeek-V3.2而言仍然是一个挑战，模型通常需要生成更长的轨迹才能达到Gemini-3.0-Pro的输出质量[14] - 从输出成本角度看，DeepSeek-V3.2的价格仅为GPT-5的1/24，考虑到其百万token级别的输出，这一成本被认为尚可接受[14] - 有观点指出，DeepSeek模型的上下文长度维持在128K已久未提升，这可能与GPU资源有限有关[14]

DeepSeek-V3.2-Speciale

DeepSeek-V3.2-Speciale

Gemini-3.0-Pro

AI三国杀：OpenAI狂卷，DeepSeek封神，却被Mistral偷了家？

36氪· 2025-12-03 11:55

Mistral Large 3模型发布 - 公司推出MoE大模型Mistral Large 3，采用41B active / 675B total的MoE架构，具备原生图像理解能力、256k上下文长度以及强大的多语言能力[1][3] - 模型在LMArena排名中位列开源模型第6，其ELO得分在开源大模型中稳居第一梯队，与Kimi K2打成平手，仅略低于DeepSeek v3.2[3][6] - 在MMLU、GPOA、SimpleQA、AMC、LiveCodeBench等多项基础任务上，Mistral Large 3（Base）与DeepSeek 37B、Kimi K2 127B保持同一水平，属于开源系第一梯队底模[8] - 模型采用Apache 2.0开源协议，并与NVIDIA深度合作，采用FP4格式并重写了Blackwell的注意力与MoE内核，优化了推理链路[10] - 在真实任务评估中，Mistral Large 3（Instruct）在通用任务和多语言任务里对DeepSeek V3.1、Kimi K2取得53%–60%的胜率[33] Ministral 3小模型系列 - 公司推出Ministral 3系列小模型，包括3B、8B、14B三种规格，每个规格均有base、instruct、reasoning三个版本，全部为多模态且开源[1][11] - Ministral 3的instruct版本在综合智能指数上得分分别为31（14B）、28（8B）、22（3B），全部超越上一代Mistral Small 3.2，且参数量多40%[11] - 小模型经过优化可部署于多种设备，包括DGX Spark、RTX PC、普通笔记本及Jetson等嵌入式板卡，实现从数据中心到边缘设备的覆盖[11][18] - Ministral 14B的底模在数学、知识问答、多语言任务中全面领先Gemma 13B和Qwen 1.8B，其reasoning版本在AIME'25等推理任务上领先Qwen 14B「Thinking」[23][25] - Ministral 14B（Instruction）在WildBench、Arena Hard、数学推理和多模态任务上全面领先Gemma 13B与Qwen 1.8B，指令调优后综合能力几乎碾压同量级模型[28] 性能与基准测试表现 - Mistral Large 3相比上一代Large 2提升了11分，达到38分，但仍未进入GPT-5、Gemini 3、Claude Opus等顶级专有模型所在的第一梯队[13] - 在Artificial Analysis的综合榜单中，前排被GPT-5、Gemini 3、Opus系列占据，DeepSeek和Qwen持续贴近第一梯队，Mistral Large 3则位于两者之间[13] - Ministral 14B（Reasoning）在AIME'25数学推理任务上达到85%的准确率，在数学和代码推理方面几乎是同量级模型的天花板[20][25] 战略定位与行业影响 - 公司战略聚焦于企业市场，首席科学家指出超过90%的企业任务可通过微调的小模型满足，直接针对OpenAI等闭源模型成本高、可控性差的痛点[29] - 公司提供定制化服务，派遣工程师进驻客户公司，帮助构建企业专属AI，目标是用14B模型在企业场景中替代70B、400B的大模型[31] - 公司构建平台化能力，包括Mistral Agents API、Magistral模型系列及AI Studio，形成从模型到工具链的完整生态[33][35] - 公司代表欧洲式“软件制造业”哲学，将AI能力做成标准件供用户随取随用，与美国的“云端神谕”模式形成对比，在全球AI版图中开辟了新路径[37][38]

Seek .(US:SKLTY)

Artificial Intelligence

Artificial Intelligence

朱啸虎：DeepSeek对人类历史的改变被低估了 |未竟之约

新浪财经· 2025-12-03 10:40

节目信息 - 泛财经人文对话栏目《未竟之约》首期深度访谈即将上线 [1][3] - 节目由新浪财经、微博着力打造，微博财经与语言即世界工作室联合出品 [1][3] - 首期主持人为张小珺，对话嘉宾为金沙江创投主管合伙人朱啸虎 [1][3] 访谈核心议题 - 对话将直面AI浪潮下的激流与暗礁 [1][3] - 嘉宾朱啸虎提出观点：DeepSeek对人类历史的改变被低估了 [2][4] 内容性质声明 - 会议实录为现场速记整理，未经演讲者审阅 [2][4] - 新浪网登载此文出于传递更多信息之目的，不意味着赞同其观点或证实其描述 [2][4]

Seek .(US:SKLTY)

DeepSeek

老外傻眼，明用英文提问，DeepSeek依然坚持中文思考

36氪· 2025-12-03 09:14

DeepSeek模型新版本发布 - 公司推出DeepSeek-V3.2和DeepSeek-V3.2-Speciale两大新模型，推理能力显著提升[1] - DeepSeek-V3.2版本能与GPT-5硬碰硬，Speciale版本结合长思考和定理证明能力，表现媲美Gemini-3.0-Pro[1] - 海外研究者反馈DeepSeek推理速度显著提升，但在用英文询问时思考过程仍会使用中文[1] 多语言推理效率研究 - 微软论文《EfficientXLang》发现使用非英语语言推理可减少Token消耗并保持准确性，即使翻译回英语优势依然存在[5] - 在所有评估模型和数据集上，非英语语言推理能实现20-40%的显著令牌降低，DeepSeek R1的token减少量从14.1%（俄语）到29.9%（西班牙语）不等，Qwen 3韩语减少量高达73%[9] - 中文表达相同文本含义所需字符量明显少于英文，信息密度更高，但并非最有效率的语言[3][5][9] 长上下文多语言性能表现 - 马里兰大学和微软研究提出多语言基准OneRuler，评估26种语言在128K令牌长上下文理解能力[10] - 实验表明英语在长上下文任务中排名第6，波兰语位居榜首，低资源语言与高资源语言性能差距随上下文长度增加而扩大[10] - Gemini 1.5 Flash展现最佳长上下文性能，英语和中文均未进入排名前五语言[15] 大模型思考语言选择因素 - 国产大模型因训练数据包含更多中文内容，思考过程出现中文属正常现象，如AI编程工具Cursor 2.0核心模型思考过程完全由中文构成[17] - OpenAI的o1-pro模型也会随机出现中文思考过程，尽管其训练过程中英文数据占比更高[20] - 不同语言有不同特性，在大模型中会产生各种现象，中文训练语料日益丰富[24][25]

Seek .(US:SKLTY)

大模型推理语言选择

多语言推理效率

Artificial Intelligence

DeepSeek-V3.2

DeepSeek-V3.2-Speciale

Qwen 3 (235B-A22B)

大模型推理语言选择

多语言推理效率

Artificial Intelligence

DeepSeek-V3.2

DeepSeek-V3.2-Speciale

Qwen 3 (235B-A22B)

DeepSeek V3.2正式版发布：官方称推理比肩GPT-5

凤凰网· 2025-12-03 09:04

模型发布与性能表现 - 公司于12月1日正式发布新一代开源大模型DeepSeek-V3.2及其长思考增强版DeepSeek-V3.2-Speciale，并同步更新官方网页端、App及API至V3.2版本 [1] - DeepSeek-V3.2在公开推理基准测试中推理能力达到GPT-5水平，与Gemini-3.0-Pro接近，同时输出长度较Kimi-K2-Thinking显著缩短以降低计算开销 [1] - DeepSeek-V3.2-Speciale版本融合DeepSeek-Math-V2定理证明能力，在IMO、CMO、ICPC及IOI等国际竞赛中取得金牌成绩，其中ICPC成绩达到人类选手第二名水平 [1] 技术特性与能力提升 - 新版本首次实现思考模式与工具调用融合，支持在思考过程中调用外部工具 [5] - 通过大规模Agent训练数据合成方法，模型在1800多个环境和超过8.5万条复杂指令上进行强化学习训练，提升了泛化能力 [5] - 公司在智能体评测中达到当前开源模型最高水平，进一步缩小与闭源模型差距 [5] 版本演进与开放策略 - 此前实验版本DeepSeek-V3.2-Exp于两个月前发布，经用户反馈测试，其采用的DSA稀疏注意力机制在各项场景中未出现显著性能下降 [5] - Speciale版本目前以临时API形式开放，供社区研究与评测 [5]

Seek .(US:SKLTY)

开源大模型

Artificial Intelligence

DeepSeek-V3.2

DeepSeek-V3.2-Speciale

开源大模型

Artificial Intelligence

DeepSeek-V3.2

DeepSeek-V3.2-Speciale

聊DeepSeek、聊AI硬件、聊竞争对手，OpenAI首席研究官专访信息密度有点大

36氪· 2025-12-03 07:46

人才竞争与留存策略 - Meta在人才争夺上采取激进策略，每年投入数十亿美元用于招募，并试图挖走其直接管理团队中近半数成员，但多数人选择留下 [2] - 扎克伯格曾亲自向多位OpenAI员工送汤以招揽人才，作为回应，公司也开始向从Meta招募的员工送汤 [2] - 公司提供的薪酬倍数通常低于市场顶尖水平，但留住人才的关键在于员工对实现AGI共同愿景的信念，而非薪资竞争 [2] 研发资源分配与管理 - 公司内部同时推进的研究项目约300个，核心职责之一是对项目进行技术评估与优先级排序，并将有限算力分配给最有望推动AGI实现的项目 [3] - 公司将探索性研究置于首位，大量计算资源投入探索下一个范式，这部分投入经常超过最终模型训练本身的消耗 [3] - 管理挑战在于清晰拒绝非优先项目，通过透明原则保持研究组织高效运作，将算力集中于范式突破而非渐进迭代 [3] 技术发展重点与竞争优势 - 过去半年团队聚焦全方位提升预训练能力，实现关键环节突破，现已能在预训练领域与Gemini 3正面竞争 [5] - 当其他公司聚焦强化学习时，专注预训练成为公司的信息优势，近期模型因预训练强化而显著提升 [5] - 公司绝对会继续扩大模型规模，并已掌握支持进一步扩展的算法突破，在数据效率方面的算法非常强劲 [8] 对竞争与行业动态的应对 - 面对谷歌Gemini 3等竞争模型发布，团队关注但不会打乱自身节奏，将竞争对手发布视为行业方向一致的验证 [4] - 公司常用名为42问题的数学谜题测试模型，以考察数学推理与算法优化能力，但不会为在发布首日测试对手模型而熬夜 [4] - 面对DeepSeek开源模型冲击，公司选择坚守自身研究节奏，持续创新而非立即回应外界质疑 [10] AGI发展进程与衡量标准 - 关于AGI时间预测，公司更倾向将焦点从抽象时间预测转向具体进展指标，如是否产出新的科学知识和推进科学前沿 [6] - 公司认为正处在生产AGI的过程之中，自今年夏天起已观察到一个非常剧烈的阶段转变，AI在推动科学发现方面进入新阶段 [6] - AGI讨论往往陷入定义之争，即使内部也难以给出完全一致的定义，更倾向于用历史进程类比工业革命 [6] 未来技术路线图与目标 - 研究团队设定明确目标：一年内让AI成为研究实习生实质参与科研，两年半内实现AI端到端的完整研究能力 [7] - 当前流程由人类主导，但一年内将转变为人类把控方向，AI执行实现与调试的模式 [7] - 算力需求真实且迫切，如果今天多给3倍算力可立刻用完，多10倍几周内就能排满，看不到任何放缓迹象 [8] 硬件开发与交互体验演进 - 公司与知名设计师乔尼·艾维合作开发下一代AI硬件设备，旨在突破现有ChatGPT一问一答的交互局限 [9] - 未来设备应具备持续学习与记忆能力，能记住用户、理解意图、关联问题，并在每次互动中变得更聪明 [9] - 硬件设计流程与AI研究存在深层次相似性，均需经历大量探索、假设、试错与迭代，艾维是公司在品味上的鉴别者 [9]