Workflow
Agent
icon
搜索文档
AI转向”推理模型和Agent时代“,对AI交易意味着什么?
硬AI· 2025-03-10 10:32
行业趋势转变 - AI行业正经历从传统大模型向推理模型和Agent的转变 强调"巧"而非"大" [2][4] - 模型进化方向从死记硬背转向链式思考(CoT) 实现多步验证和精准输出 [5] - 应用范式从聊天机器人升级为能执行任务的Agent 覆盖客户服务 金融分析等场景 [7] 技术路径分化 - 两种发展情景:Chinchilla缩放持续有效则2028年模型达65万亿参数 或预训练停滞转向推理优化 [10][11] - 推理模型代表如OpenAI的o1/o3和DeepSeek R1 已展现更高基准测试成绩及成本优势 [5] - 算力需求结构变化:推理计算占比将超50% 2028年推理算力缺口达2500亿exaFLOPS [13] 产业链影响 - 芯片需求从通用训练芯片转向定制推理芯片 网络设备商持续受益 [9][18] - 开源模型(Llama/DeepSeek)发展迅速 但微调成本仅为大模型训练的小部分 [15][16] - 科技巨头自由现金流可能改善 因推理成本下降减少资本支出压力 [19] 投资逻辑重构 - 缩放定律有效时优先布局芯片/设备供应商 警惕高资本支出科技企业 [1][18] - 预训练停滞则关注科技巨头现金流回升及用户基数大的应用类公司 [1][19] - ChatGPT两月新增1亿用户显示Agent应用爆发潜力 [7]
昨夜3件事,加强中国AI科技叙事?
华尔街见闻· 2025-03-06 11:11
阿里通义开源RL新模型 - 阿里通义开源了QwQ-32B RL新模型 性能比肩满血DeepSeek R1 在AIME24数学测试和LiveCodeBench代码评估中表现优异 [1] - 该模型采用创新训练方法 通过校验生成答案正确性提供反馈 相比传统奖励模型训练时间大幅缩短 [2] - 公司预告将在Qwen Chat平台发布QwQ-Max-Preview模型 并承诺持续开源更多RL模型 [3][4][5] 大模型本地化部署进展 - 高性能大模型本地部署门槛显著降低 仅需NVIDIA 4090显卡或24G内存以上Mac mini即可实现 成本控制在4位数人民币 [6] - 苹果Mac Studio搭载M3 Ultra芯片(32核CPU/80核GPU)可实现满血DeepSeek-R1本地化运行 速度达20token/s 价格从70万降至7万人民币 [8][9] - 512GB内存配置的Mac Studio可支持更强大本地AI运算能力 [11][12] AI行业发展趋势 - RL技术突破将显著提升智能硬件性能 推动应用需求爆发 利好Agent技术发展 [7] - Manus AI等Agent产品引发市场关注 提升应用端对AI能力的期待 将带动算力需求增长 [13][14] - 中国科技公司在RL大规模强化学习领域取得突破 行业估值逻辑面临重塑 [14]
智谱完成超10亿元战略融资:今年为其「开源年」,杭州押注下一个DeepSeek
IPO早知道· 2025-03-03 01:16
融资与战略布局 - 公司完成超10亿元人民币战略融资,投资方包括杭州城投产业基金、上城资本等 [2] - 在杭州成立浙江智谱新篇科技有限公司,服务浙江省和长三角地区经济实体,推动数字产业转型升级 [2] - 2024年1月被美国商务部列入实体清单,但公司强调将继续提供世界一流的大模型技术并参与全球竞争 [2] 技术实力与产品 - 研发国产独立知识产权的GLM大模型预训练架构,最新基座模型GLM-4-Plus技术实力世界领先 [3] - 在Agentic LLM方向优势明显,先于OpenAI提出Phone Use概念并推出Agent产品AutoGLM及GLM-PC [3] - 构建开放平台bigmodel.cn,以Model as a Service(MaaS)理念推动AI生态繁荣 [3] - 2024年推出基座模型GLM-4-Plus、Agent模型AutoGLM、推理模型GLM-Zero等,技术对标GPT [5] - GLM预训练架构实现全栈自主创新,包括底层算子、训练框架等核心模块自主研发 [5] 开源与生态 - 2024年是公司的"开源年",将发布全新大模型并开源 [3] - 适配国内40多种GPU芯片,推动进口替代 [5] - MaaS平台支撑70余万企业开发者,私有化部署服务金融、医疗等20多个行业,在万余家企事业单位应用 [5] Agent技术领先 - 2025年或将是Agent爆发年,公司在Agentic LLM领域具有领先优势 [7] - 与三星合作,将Agent体验带到Galaxy S25系列手机,支持实时语音、视频通话等功能 [9] - Agentic LLM将整合物理与数字世界资源,从被动应答转向主动执行,提升生产力 [10] AGI发展路径 - 公司将AGI分为五个层级:L1预训练大模型、L2对齐&推理、L3自我学习、L4自我认知、L5意识智能 [12] - 坚定朝着AGI方向努力,推动AI从学习知识到具备自我认知和探索能力 [17]
Deep Research 团队:Agent 的终极形态是所有任务 All-in-one
海外独角兽· 2025-02-27 12:09
文章核心观点 - OpenAI推出第二个Agent Deep Research,可搜索多网站生成全面报告,团队分享构建技术细节、产品思路及使用场景,未来希望打造终极Agent整合多种功能,且Agent有望在2025年崭露头角 [1][11] 分组1:OpenAI的第二个Agent - Deep Research能搜索多在线网站生成全面报告,在ChatGPT中运行,回答时间5 - 30分钟,能深入研究并详细回答问题,是OpenAI第二个Agent,未来还会发布更多 [5] - 约一年前OpenAI采用reasoning范式训练模型,解锁长时任务处理能力,意识到完成任务需在线研究等能力,开发出对应模型训练方法,项目最初由Isa Fulford和Yash Patil合作原创demo,Josh Tobin 6个月前加入 [6] - Deep Research有澄清流程,在研究前向用户提问,确保用户提供模型所需细节,很多用户先与o1或o1 Pro互动完善prompt后再发给它 [9][10] - 过去几个月OpenAI推出三种不同的Deep Research,因模型构建方式等因素质量有差异,未来希望用户通过终极Agent自然融合多种功能 [11] 分组2:Agent能力来自模型端到端的训练 - Deep Research底层模型是O3微调版本,经复杂浏览和推理任务端到端训练,学会应对策略,能整合信息生成带引用报告 [13] - 端到端训练使Deep Research有创新的Agent能力,能对实时网页信息灵活反应,创造性搜索,与非端到端训练的AI搜索产品有差异 [14][15] - Josh Tobin曾尝试构建Agent,发现按常规方式构建在现实中会有问题,说明Deep Research强大源于端到端训练,还建议按需用人工编写逻辑,在模型整体基础上进行RL调优可能是构建强大Agent的关键 [16][18] - 高质量数据集是Deep Research模型成功的关键因素之一,Edward Sun会对所有数据集进行优化 [19] 分组3:Deep Research的优势 - 当用户需求详细时,Deep Research能通过阅读互联网内容提供最佳答案,问题模糊时也能理清信息,擅长收集冷门事实和综合信息,但提炼新见解和做出新科学发现效果不佳 [20] 分组4:Deep Research的使用场景 - 目标用户是从事知识性工作的人员,适合需大量收集信息、分析数据并决策的人,可应用于工作和个人生活场景 [21] - 商业和个人生活场景中,Deep Research能节省时间,赋予知识型工作者超能力,实现更多事情,访谈提及的场景包括医疗、投资、购物、旅行、编程和个性化教育等 [22][23] 分组5:Agent会在2025年崭露新头角 - OpenAI希望未来Deep Research在产品形态上嵌入图像和生成图表,扩展可访问数据源,提升浏览和分析能力,改进信息准确度,融入Agent路线图扩展应用场景 [30] - Deep Research能完成部分经济上可行的任务,为用户节省时间,OpenAI希望其和后续构建的Agent能根据用户工作类型节省1% - 25%的时间 [31] - Isa Fulford和Josh Tobin认为今年Agent会崭露头角,现在有强大预训练语言模型和监督微调方法,适合根据用户奖励函数调整模型用于各种用例 [32][34]
晚点对话 MiniMax 闫俊杰:千万别套用移动互联网的逻辑来做 AI
晚点LatePost· 2025-01-17 07:46
核心观点 - 公司认为AI行业的核心驱动力是技术迭代而非用户增长,智能水平的提升不依赖大量用户反馈[8][17][19] - 公司明确自身定位为技术驱动型企业,在技术路线与产品需求冲突时优先选择技术突破[22][23] - 行业存在方法论误区,多数企业仍用移动互联网推荐系统思维开发AI产品[12][20][97] - 开源是加速技术进化的有效路径,公司首个开源模型MiniMax-01采用创新线性注意力机制架构[9][14][15] 技术路线 - MiniMax-01系列模型突破性采用线性注意力机制新架构,可高效处理400万token长上下文[9][45] - 模型参数规模超4000亿,是全球首个在此量级实现线性注意力机制的大模型[76] - 技术目标聚焦Agent能力提升,重点突破长上下文记忆、多Agent协同等方向[40][44] - 明确不跟风o系列模型开发,认为蒸馏技术虽可行但非核心创新路径[53][54][58] 产品策略 - 旗下海螺视频生成模型月访问量已达全球第一梯队水平[77] - AI社区产品"星野"用户留存率优于字节等大厂竞品[7][92] - 放弃移动互联网式增长目标,2025年核心KPI转为技术研发指标[106][129] - 测试中的信息获取产品尝试重构推荐逻辑,实现精准学术内容推送[62][63] 行业认知 - 中美AI差距在于中国缺乏原创性技术benchmark,过度依赖对齐国外模型输出[72] - 大模型与推荐系统存在本质差异:前者依赖预设能力分级,后者依赖AB测试[21][66] - 行业已从"Scaling Law信仰"转向寻求算法、组织等层面的持续创新[33][34] - 竞争格局不应区分创业公司与大公司,关键在于技术进化速度[98][114] 组织管理 - 团队结构保持三级扁平化管理,强调客观技术评估文化[79][81] - 人才策略承认字节跳动的人才密度优势,但认为创业公司更利技术人才成长[82][130] - 决策机制建立在共同技术认知基座上,弱化明确分工边界[125][126] - 主动优化团队结构,淘汰非技术驱动型人员[115][116] 创始人反思 - 复盘早期失误包括过度关注用户指标、未及时开源、产品定位摇摆[13][15][24] - 认知升级关键点在于明确技术迭代优先于商业化目标[132][133] - 创业方法论强调简单专注,拒绝"天选之子"叙事[30][140] - 自我定位非技术天才型创始人,重视团队协作价值[96][136]
AI 月报:10 亿美元训练不出 GPT-5;低成本中国开源大模型走红;AI 幻觉不全是坏处
晚点LatePost· 2025-01-07 14:59
技术进展 - OpenAI训练GPT-5遇阻,已投入20个月和至少10亿美元算力成本,但性能提升未达预期,两次从头训练均未突破博士生水平目标[4] - 数据短缺迫使OpenAI采用人工生成数据(工程师/科学家每日5000字)和模型生成数据(o1模型)补充,但规模仍远低于GPT-4的10万亿字训练量[5] - o3模型在CodeForces编程竞赛得分比o1提升44%,数学测试EpochAI解决25.2%问题(其他模型<2%),但AGI评测得分因数据预训练存在争议[7][9] - 强化学习重要性提升,OpenAI推出RFT微调方法,LangChain报告显示人类反馈强化学习应用增长18倍[5][9] - 世界模型取得突破:DeepMind的Genie 2生成可交互虚拟场景,李飞飞团队实现AI图片转3D场景,CMU/英伟达开源机器人模拟系统Genesis[14] 行业竞争 - Google Gemini 2.0 Flash系列模型抢占Chatbot Arena前三,OpenAI首次失去榜首地位[18][21] - 中国开源模型崛起:DeepSeek-V3以578万美元训练成本逼近GPT-4o性能,Qwen2.5-plus超越Meta Llama 3.1[23][26] - 芯片领域博通市值破万亿美元,2024年AI收入增长220%至122亿美元,为Google/Meta等提供自研芯片方案[29] - 英伟达推出B300 GPU适配o系列模型,算力/显存提升50%,xAI计划将H100算力中心从10万张扩展至100万张[33][34] 应用与商业化 - OpenAI推出12项ChatGPT升级:订阅费最高2000美元/月,集成Sora视频生成、电话交互、生产力工具插件等功能[36] - Agent成为新趋势,Google Gemini 2.0专为Agent优化,YC预测其市场规模将比SaaS大10倍[12][13] - 大模型嵌入传统行业:Salesforce招聘2000人推广AI Agent,微软Phi-4模型(140亿参数)性能超越更大模型[38][12] - AI硬件进展:Meta计划为Ray-Ban眼镜增加屏幕,OpenAI重组机器人团队,中国预计2025年出现"百镜大战"[40] 投融资动态 - 21家AI公司获超5000万美元融资:中国智谱AI获30亿元(估值200亿元),阶跃星辰聚焦多模态模型,Liquid AI开发新型神经网络架构[42][43] - 基础设施领域Databricks融资86亿美元(估值620亿美元),Tenstorrent获7亿美元开发RISC-V架构AI芯片[44] - 应用层公司多成立于ChatGPT前:Zest AI(金融风控)、Tractian(工业设备监测)、Speak(语言学习)等获大额融资[46][47][48] 科学价值 - 大模型"幻觉"被科学家重新定义:加速抗生素研发(MIT)、生成全新蛋白质(诺奖得主Baker实验室获100项专利)[50][51]
为什么我们对 25 年 AI 极度乐观?| 42章经
42章经· 2025-01-05 21:54
AI市场发展回顾与展望 - 23年AI市场爆发初期,互联网从业者和美元基金迅速涌入,投资焦点集中在大模型公司,OpenAI背景人才备受追捧 [1] - 24年上半年一级市场跌至十年最低谷,大模型公司热度消退,Pre Training模式被质疑,具身智能成为新投资关键词 [2] - 24年9月后市场出现三大变化:融资复苏、多模态模型能力突破(图片/语音/视频生成达GPT-3水平)、AI创二代创始人涌现 [3] 技术演进趋势 - 大模型呈现四大趋势:基础设施化、开源快于闭源、多模型混合方案受青睐、产品价值高于技术 [2] - 多模态进展超预期,视频和3D模型发展速度显著快于语言模型,推理模型o1推动Agent落地 [3] - AI Native产品形态可能通过多模态实现突破,NotebookLM展示跨模态内容组织新范式 [13][14] 投资与创业格局 - 25年市场两极分化加剧:美元基金聚焦出海,人民币基金侧重硬科技/国产替代,初创公司首轮估值达3000-5000万美金 [4][5] - 应用落地成为共识方向,生产力工具类产品主导市场,20-30家应用公司估值超5000万美金,头部ARR达1000万美金 [2][6] - 创始人画像迭代:从互联网转型者变为AI创二代(大厂AI负责人/创业公司联创),认知水平和商业模式显著升级 [3] 商业模式变革 - Prosumer(小B大C)模式验证成功:兼具C端传播属性和B端付费能力,预计25年将出现千万美金ARR公司 [6] - Agent商业模式可能颠覆SaaS:按结果付费替代订阅制,销售体系重构,新创企业比现存SaaS公司更具转型优势 [7][8][9] - Perplexity案例显示搜索平台可能演变为任务完成型Agent,成为AI时代核心入口 [12] 未来重点方向 - Agent领域三大机会:2B场景落地、存量SaaS公司AI化、新商业模式创业公司反攻 [11] - 多模态潜在突破点:视频作为内容输出终局、用户从被动接收转向参与式消费、生产关系变革 [15] - 技术-商业协同效应:AI理解能力+多模态组织将重塑产品形态,如NotebookLM的交互式对话设计 [13][14]
为什么我们对 25 年 AI 极度乐观?| 42章经
42章经· 2025-01-05 13:54
市场趋势与行业动态 - 2023 年 AI 创业投资关键词是大模型,2024 年是具身智能,2025 年将是应用落地[2][4] - 2024 年 9 月后融资市场复苏,各种模态模型能力加强,创始人画像改变,市场进步将延续到 2025 年[4] - 2025 年市场环境将进一步变好,但会更加两极分化,资本方向上美元基金和人民币基金分化,创业融资更倾向背景好的人[4] 投资机会与潜在风险 - 2025 年看好应用落地方向,尤其是生产力工具类产品,预计会出现一批千万美金 ARR 的创业公司[4] - 2025 年看好 Agent 和多模态方向,Agent 主要在 2B 领域落地,新商业模式的 Agent 创业公司将冒头反攻现存 SaaS 企业[4][5] - 多模态可能藏着 AI Native 的答案,未来产品组织形态和使用逻辑可能彻底变化[7] 公司财务表现 - 当下市场约 20 - 30 家应用类公司估值超 5000 万美金,多数应用公司 ARR 年收入为 0,少数找到 PMF 的达 100 万美金 ARR,极少数头部项目达 1000 万美金 ARR[2] 技术发展趋势 - 大模型逐渐成为基础设施,开源进展速度超闭源,实际应用落地偏向多模型混合方案[3] - 推理模型能力提升解锁 Agent 可能性,未来各专业人群、垂直领域都有 Agent 机会[4] 商业模式分析 - Agent 若按结果付费,将对现有 SaaS 公司和模式产生颠覆式变化,销售人员管理和组织模式也会改变[5]
智谱CEO张鹏:加速Agent模型产品研发,期待尽快实现一句话操作电脑和手机
IPO早知道· 2024-11-30 02:36
本文为IPO早知道原创 作者|Stone Jin 微信公众号|ipozaozhidao 据IPO早知道消息,作为最早探索 Agent 的大模型企业之一,智谱于11月29日带来了多个新进展: AutoGLM 可以自主执行超过50步的长步骤操作,也可以跨 A pp执行任务 ; AutoGLM开启「全 自动」上网新体验,支持等数十个网站的无人驾驶 ; 像人一样操作计算机的GLM-PC 启动内测, 基于视觉多模态模型实现通用Agent的技术探索 。 具体来讲,新升级的AutoGLM可以挑战完成复杂任务:1. 超长任务:理解超长指令,执行超长任 务。2. 跨App:AutoGLM 支持跨App来执行任务。3. 短口令:AutoGLM能够支持长任务的自定义 短语。4. 随便模式:AutoGLM可以主动帮你做出决策。 同时 AutoGLM启动大规模内测,并将尽快上线成为面向C端用户的产品。AutoGLM同时宣布启动 「10个亿级App免费Auto升级」的计划,邀请 App 伙伴联合探索自己的Auto新场景。 此外,智谱还带来基于PC的自主Agent——GLM-PC是GLM团队面向「无人驾驶」PC的一次技术 探索,基于智谱的 ...