Workflow
智能体时代
icon
搜索文档
模型免费、推理翻倍:Gemini 3 Flash 深夜炸场,发放智能体时代的「入场券」
36氪· 2025-12-18 01:21
产品发布与定位 - 谷歌正式推出Gemini 3 Flash模型,并已将其设置为Gemini应用中的默认模型,全面取代之前的Gemini 2.5 Flash,全球数亿用户可免费体验其推理能力 [1] - 该模型定位为打破“高智”、“低成本”与“响应快”之间的不可能三角,其价格不到Gemini 3 Pro的四分之一,旨在提供高频、极速的开发工作场景支持 [1][2] - 模型已通过Google AI Studio、Gemini API和Vertex AI同步上线,标志着谷歌在大模型竞技场上拆除了速度与智能的最后屏障 [3] 性能表现与基准测试 - 在评估编码代理能力的权威基准测试SWE-bench Verified中,Gemini 3 Flash得分高达78%,超越了Gemini 2.5系列,并在逻辑深度上反超了Gemini 3 Pro [1] - 在衡量智能体编码与长程工具调用的SWE-bench和Toolathlon测试中,其得分不仅反超了Gemini 3 Pro,甚至在特定维度上压制了GPT与Claude的顶级型号 [3] - 根据第三方分析基准测试,Gemini 3 Flash运行速度达到了Gemini 2.5 Pro的整整3倍,在处理高容量法律合同、提取定义条款等任务时精准迅速 [5] - 在ARC-AGI-2视觉推理谜题上,Gemini 3 Flash实现了相较于Gemini 2.5 Pro近7倍的提升,但在处理极其复杂的架构设计时,与顶级SOTA模型仍存在差距 [4] 定价策略与成本优势 - Gemini 3 Flash的定价为每百万个输入tokens 0.50美元,每百万个输出tokens 3美元,音频输入价格仍为每百万个输入tokens 1美元 [2] - 其输入成本不到Gemini 3 Pro的四分之一,配合大幅度的缓存优惠,为智能体时代提供了更低的准入门槛 [1][5] - 通过极具竞争力的定价和上下文缓存技术,直接将前沿AI的部署门槛降至冰点,使得高性能、低延迟与极低成本可以同时拥有 [6] 技术特点与应用场景 - 模型具备极低的延迟,可以以几乎实时的速度更新应用程序,适合成为大规模复杂流中快速完成推理、纠错以及自我验证的“大脑” [2] - 面向普通用户推出“零门槛语音建站”功能,用户只需语音描述创意,模型即可在几分钟内将想法转化为功能齐全的应用程序 [2] - 在多模态领域展现出显著统治力,能以秒级速度将复杂的非结构化视频数据转化为可执行的商业计划,证明其“感知即推理”能力已趋于成熟 [6] - 在软件工程领域,其响应速度能让AI跟上工程师的直觉,使“编码Agent”变为近乎实时的同步协作;在法律与金融场景下,能在不牺牲速度的前提下实现15%的准确率提升 [9] 生态整合与战略布局 - Gemini 3 Flash已直接送入谷歌搜索体系,成为谷歌搜索AI模式的默认配置,使用户能直接感受到其强大性能 [7] - 谷歌针对用户需求进行了全面的模型产品布局:由Flash承担高频、极速的普惠性智能交互,由Pro承载低频但高价值的逻辑攻坚,未来AI交互将是根据任务复杂度进行的动态算力分配与智能分层 [7][8] - 模型在编码平台(如Cursor和DevIn)、法律金融平台(如Harvey和Box AI)、深度伪造检测平台(如Resemble AI)以及游戏开发领域(如Latitude)均已得到应用,证明了其从原型开发到大规模落地的能力 [9][11] - 结合在美国市场推出的“Thinking with 3 Pro”模式,谷歌旨在对复杂数学编程等重度计算任务进行动态可视化布局与交互式模拟呈现,而不仅仅是常规的AI检索 [8]
城记 | 续写智能体时代的“Deepseek时刻”,长三角AI产业何以爆款频出?
新华财经· 2025-11-27 15:24
人工智能时代趋势与长三角定位 - 2025年人工智能发展迈入“能思考、会行动、可协同”的智能体时代,即“Deepseek时刻”,AI从“工具型产品”向“智能体系统”跨越 [1] - 中国AI正完成从“中国制造”(应用模仿)到“中国创造”(算法原创)的战略转变,从全球AI竞赛的“跟跑者”加速成为关键赛道的“领跑者” [1] - 长三角地区近一个月以来AI成果密集“上新”,加速成为智能体时代的“爆款策源地” [1] 核心技术突破与全模态发展 - 上海AI企业MiniMax发布开源文本大模型M2,以仅100亿的激活参数(总参2300亿)构建轻量级架构,在全球权威测评Artificial Analysis中跻身前五、位列开源模型第一 [2] - Meta在大规模实验中采用了MiniMax原创的CISPO损失函数与FP32 Head技术,标志着中国AI算法首次被硅谷头部企业深度整合 [2] - MiniMax推出技术“全家桶”,构建起“文本+视频+语音+音乐”的全模态产品矩阵,标志着中国AI企业在全模态领域实现全面突破 [2] 垂直领域专业化应用 - 南京南智光电发布国内首个光子专用大模型升级版,系统可一键生成设计方案与核心参数,仿真效率提升30% [3] - 合肥智象未来团队研发的“灵感智能体”将复杂视觉内容创作转化为简洁对话交互,用户在同一界面内即可完成文本生图、指令修图及视频生成全流程操作,并斩获ACM国际多媒体会议最佳演示奖 [3] 场景应用与市场验证 - 杭州蚂蚁“灵光”应用上线后,4天内紧急扩容8轮,下载量迅速突破百万,截至11月24日下载量已突破200万,增速超过ChatGPT、Sora2等全球主流AI产品 [4] - 阿里千问APP开启公测一周后下载量突破千万,其Qwen3模型在全球AI大模型实时投资比赛“Alpha Arena”中斩获冠军 [5] - Qwen与DeepSeek两款中国AI大模型已成为全球唯二实现盈利的产品,而美国四大顶尖模型全部处于亏损状态,其中GPT-5亏损超60% [5] 产业生态与算法集聚 - 苏州工业园区新增4个算法通过国家网信办备案,截至目前已有35个算法通过备案,占苏州市总量的38%、江苏省的14%,均位列省市第一 [5] - 园区初步构建从基础层、技术层到应用层的完整生态,形成以“AI+制造”“AI+科研”“AI+政务”为核心的“3+N”人工智能应用体系,累计已有7款大模型通过国家网信办生成式人工智能服务备案 [5][6] 政策支持与区域协同发展 - 上海人工智能2024年产业规模突破4000亿元,同比增长超7%,预计2025年将突破4500亿元,并形成“西有徐汇模速空间、东有浦东模力社区”的“双AI小镇”发展格局 [7] - 杭州全国规模最大的AI开源社区“魔搭社区”开发者中心正式启用,汇聚超12万个开源模型、服务全球超2000万开发者 [7] - 苏州提出到2026年底实现“企业超3000家、核心产业规模年均增长超20%”的目标,明确打造20个市级AI产业园、350个垂类大模型、200个典型应用场景,同时组建超500亿元AI基金群,推动智算规模达17000PFLOPS [8] - 南京提出到2026年实现“核心产业规模600亿元、统筹智能算力超6000P FLOPS”的目标,计划引培基础大模型1个、打造行业大模型20个以上 [8] - 合肥已建成运行人工智能计算中心,正加快推进首个基于全国产华为昇腾910B芯片的3000P级通用人工智能算力集群建设 [9]
头豹研究院:智能体时代已来,从模型能力到场景价值
头豹研究院· 2025-11-18 14:05
报告行业投资评级 - 报告未明确给出具体的行业投资评级 [1][2][3][4][5][6][7][8][9][10][11][12][13][14][15][16][17][18][19][20][21][22][23][24][25][26][27][28][29][30][31][32][33][34][35][36][37][38][39][42][43] 报告核心观点 - 智能体时代已来临,AI Agent作为大模型核心落地形态,正从模型能力走向场景价值,重塑行业生态 [1] - 到2029年,中国大模型市场规模将超过1,413亿元,智能体市场规模将突破357亿元,年均增速达52.4%,展现出强劲的商业化放量潜力 [8][9] - AI大模型正通过内部流程整合与效率提升、外部产品创新与用户体验优化的双重路径,推动企业价值体系重构 [18][19] AI大模型市场规模及增长预测 - 中国大模型市场规模预计将从2023年的147亿元增长至2029年的1,413亿元 [8][9] - 中国智能体市场规模预计将从2023年的15亿元增长至2029年的357亿元,年均增速高达52.4% [8][9] 大模型市场规模增长驱动因素 - 算力与基础设施创新驱动成本结构优化:AI芯片性能提升及云计算平台成熟使得算力成本显著下降,推动模型训练和部署的经济可行性 [12][13][14] - 数据资源质与量的指数级增长与治理能力提升:多模态数据集成与先进的数据治理技术保障了训练数据质量与合规性 [15] - 行业数字化转型及智能化升级需求持续爆发:金融、医疗、制造等领域对智能认知和自动化决策的需求驱动市场高速扩张 [16] AI大模型赋能企业价值体系重构 - 企业内部赋能价值体现:57%的企业认为AI大模型能提升员工效率,53%的企业认为其能加速决策、减少重复劳动 [19] - 企业外部赋能价值体现:46%的企业认为AI大模型能优化用户体验,34%的企业认为其能创新产品形式和业务价值 [19] AI大模型的商业化发展现状 - 商业化呈现“三层演进”格局:嵌入式应用最为成熟,原生应用探索模式与用户转化,智能硬件仍处高成本与场景验证阶段 [22][23] - 大模型嵌入式应用将AI能力注入现有成熟软件,依托庞大用户基础,商业模式清晰 [23] - 大模型原生应用围绕AI核心能力构建全新服务,但商业模式尚在探索,用户转化与留存是关键 [23] AI大模型产品使用的流量分布 - To C网页端产品流量分布:AI对话助手占比60.2%,AI搜索引擎占比30.4%,AI写作助手占比4.0% [25][26] - To C移动端APP产品流量分布:AI对话助手占比83.8%,AI图像视频生成占比6.7%,AI搜索引擎占比4.1% [25][26] AI Agent智能体产品体系 - 产品体系呈现通用型、业务型与行业型三层结构 [27] - 通用型包括智能体开发平台(如百炼) [27] - 业务型包括代码Agent、办公Agent、客服Agent、营销Agent、知识助手Agent、数据分析Agent [27] - 行业型包括金融Agent、医疗Agent、教育Agent、工业Agent等 [27] AI Agent智能体供给场景分布 - 供给端以通用场景为主,占比68%,因其具备广泛市场需求、技术通用性和成本效益 [28][29] - 从业务场景看,办公场景占比30%,营销场景占比11%,知识助手场景占比10% [29] - 从行业场景看,通用行业占比68%,金融行业占比8%,医疗行业占比6% [29] AI Agent智能体行业需求场景分布 - 行业需求集中于高频交互场景:电商占比30%,金融占比20%,教育占比20% [32] - 先进制造承接数字化转型增长,需求占比20% [32] - 娱乐与医疗依托垂直细分场景释放潜力,需求各占比5% [32]
苹果前CEO发声:OpenAI成苹果AI时代劲敌
搜狐财经· 2025-10-13 04:45
核心观点 - OpenAI已被视为苹果几十年来的首个真正竞争对手,人工智能并非苹果特别突出的优势领域 [1] 人工智能竞争格局 - 苹果在人工智能竞赛中表现不尽如人意,与OpenAI、谷歌、亚马逊和Meta等公司相比显得滞后 [3] - 苹果计划对人工智能助手Siri进行全面升级的项目遭遇延迟,是产品推出方面的一大挫折 [3] 领导层与战略转型 - 外界猜测苹果首席执行官蒂姆·库克可能很快退休 [3] - 无论谁接替库克,都需要带领苹果从应用时代迈向智能体时代 [3] - 在智能体时代,智能体将取代众多应用,自主完成复杂任务,对苹果现有的业务模式产生巨大冲击 [3] 行业模式演变 - 智能体人工智能将助力知识工作者自动完成繁重的工作流程 [3] - 更多科技公司转向基于订阅的商业模式,该模式被认为是根据需求持续付费,比以应用为中心、销售工具和产品的模式更具优势 [3] 关键人物动态 - 苹果前设计主管乔尼·艾维最近出现在OpenAI [4] - OpenAI以超过60亿美元的价格收购了艾维的设备初创公司 [4] - 艾维希望团队研发的设备能解决智能手机和平板电脑引发的问题 [4] - 艾维与OpenAI首席执行官山姆·奥特曼的合作,或许能为大语言模型领域带来新的突破 [4]
理想MindGPT 3.1被大大低估了
理想TOP2· 2025-08-26 15:35
MindGPT 3.1技术能力 - 推理速度达每秒200 tokens 较MindGPT 3.0提升近5倍 显著高于GPT-4o-2024-05-13的每秒79.87 tokens [2][3] - 在工具调用准确率、复杂任务完成率、深度搜索及回复丰富度上较MindGPT 3.0明显提升 [4] - 深度思考模式下在多项基准测试表现优异 包括AIME 2024(0.8625)、AIME 2025(0.7969)、LCB(0.7286)、IFEval(0.8909)、CLUEWSC(0.9539)等 [4] 算法创新与优化 - ASPO算法借鉴DeepSeek R1 GRPO选择性学习核心思想 通过样本难度预估主动管理训练池 保留预测准确率20%-80%样本进行梯度更新 [7][8][9] - AWE算法降低高难度token损失权重 减少梯度更新干扰 类比"难题暂放"学习策略 [9] - 强化学习窗口长度动态调整 性能瓶颈时采用较长窗口 稳定收敛阶段切换至较短窗口 [9] 研发战略与价值观 - 明确反对刻意刷榜行为 基座模型负责人强调更关注用户体验与实际能力而非评测分数 [4][5] - 研发资源聚焦模型推理速度提升与智能体工具调用能力建设 注重长期能力构建 [5] - 每年投入几千万元与北京市自然科学基金委员会办公室、顺义区科学技术委员会发起联合基金 面向高校老师获取未发表研究成果 [10] 产品化与用户价值 - 卡片大师Agent体现理想AI产品化能力 其底层依赖MindGPT 3.1技术支撑 [1] - 广义信息交互需求涵盖游戏等场景 信息生产方为AI而非人类 物理世界组件调度能力优于手机 [7] - 模型能力提升驱动用户价值涌现 AI时代核心主线为"模型即能力" [5][6] 行业认知与创新内化 - 快速学习并内化AI社会优秀核心思想 如DeepSeek R1 GRPO选择性学习机制 并进行原创优化 [1][9] - AI时代技术评估明确 模型能力提升优先于产品化 后者属于辅助催化剂 [6] - 智能体语言模型具备自主思考与工具调用能力 代表行业技术发展方向 [2][4]
迈向智能体时代“第一步” DeepSeek-V3.1 发布
新京报· 2025-08-21 14:09
模型升级与技术架构 - 公司正式发布DeepSeek-V3.1版本 采用同时支持思考模式与非思考模式的混合推理架构 [1] - 相比DeepSeek-R1-0528模型 DeepSeek-V3.1-Think版本能在更短时间内给出答案 [1] - 通过Post-Training优化技术 新模型在工具使用与智能体任务中的表现获得较大提升 [1] 产品部署与功能特性 - 官方App与网页端模型已同步升级为DeepSeek-V3.1版本 [1] - 用户可通过"深度思考"按钮实现思考模式与非思考模式的自由切换 [1] - 公司宣称此次发布是迈向Agent时代的第一步 [1]
DeepSeek-V3.1震撼发布,全球开源编程登顶,R1/V3首度合体,训练量暴增10倍
36氪· 2025-08-21 12:04
模型技术特点 - 采用混合推理模式 一个模型同时支持思考与非思考两种模式并可自主切换[1] - 总参数量达671B 激活参数为37B 支持128K上下文长度[6][14] - 通过两阶段长上下文扩展策略构建 32K扩展阶段训练规模增加10倍达6300亿Token 128K扩展阶段增加3.3倍达2090亿Token[13] - 使用UE8M0 FP8缩放数据格式训练 确保与微尺度数据格式兼容性[14] - 基于DeepSeek-V3.1-Base通过后训练优化完成 而Base版本基于V3模型训练并进行了8400亿token持续预训练[6][12] 性能表现 - 在SWE-bench测试中获得66.0分 远超V3-0324的45.4分和R1-0528的44.6分[3][4] - 在SWE-bench Multilingual测试中获得54.5分 较V3-0324的29.3分提升86%[4] - Terminal-Bench测试得分31.3分 较V3-0324的13.3分提升135%[4] - Humanity's Last Exam测试获得29.8分 较R1的24.8分提升20%[20] - 在MMLU-Redux测试中 思考模式达93.7分 非思考模式达91.8分 均超过V3-0324的90.5分[15] - GPQA-Diamond测试思考模式获80.1分 接近R1-0528的81.0分[15] - AIME 2024数学测试思考模式获93.1分 超过R1-0528的91.4分[16] - LiveCodeBench测试思考模式获74.8分 超过R1-0528的73.3分[19] - Aider-Polyglot编码测试思考模式获76.3%准确率 超过Claude 4 Opus和Gemini 2.5 Pro[16] 效率提升 - 思考模式输出token减少20%-50% 与R1-0528性能持平但效率显著提升[6] - 推理速度较DeepSeek-R1-0528更快[3] - 在第三方Artificial Analysis基准测试中表现仅次于GPT-OSS[23] 应用能力 - 具备强大智能体能力 支持工具使用和多步骤任务处理[3] - 支持多种Code Agent框架 开发者可自主搭建智能体[16] - 支持Search Agent功能 可通过多轮工具调用流程完成复杂搜索任务[19][20] - 在BrowseComp测试中获30.0分 较R1的8.9分提升237%[20] - 在BrowseComp_zh中文搜索测试中获49.2分 较R1的35.7分提升38%[20] 行业地位 - 成为编程开源领域第一 编码实力超越Claude 4 Opus[1][16] - 是公司对OpenAI GPT-OSS的最强回应[8] - 开启智能体新时代 是迈向智能体时代的第一步[1][16]
智能体时代,人类与AI如何分工?
AI科技大本营· 2025-06-04 05:42
智能体时代的工作重构 - 智能体技术正在彻底重构工作的时空维度,打破工业时代固定的物理空间和时间段限制,使工作从时空耦合中解放出来[1][4] - 工作模式从同步线性协作转向异步碎片化,例如营销专员可将创意、客户沟通、数据分析等任务按自身能量周期分配,智能体在后台处理可标准化环节[5] - 全球自由职业平台Upwork数据显示,2024年Q1任务型合同同比增加73%,远超传统时间型合同的12%增幅,反映劳动力市场向短期任务合同的转型[8] 工作原子化与职业身份变革 - 工作流程被分解为最小任务单元(如市场调研拆分为数据收集、清洗、分析等),人类与智能体根据专长动态分配执行[9] - LinkedIn数据显示2024年用户更新职业头衔频率增加47%,多角色描述(如"数据科学家/投资分析师")成为新趋势[10] - 内容创作领域呈现典型原子化分工:人类专家提供框架,智能体完成研究、初稿生成,人类编辑进行质量控制[9] 协作模式与组织形态进化 - 智能体成为数字协作中枢,支持24/7跨时区异步工作,微软、谷歌等公司采用"选择性出勤"混合办公模式[6] - 未来智能体可能升级为"文化桥梁",理解不同专业背景的思维模式,促进跨团队高效沟通[12] - 斯坦福大学研究指出完全虚拟环境会降低21%创新能力,但混合模式能平衡深度协作与异步效率[6][16] 技能需求的结构性转变 - 哈佛商学院将"AI协作能力"定义为关键元能力,系统思维、判断力、决策能力成为智能体时代核心技能[19][21] - 提示工程(Prompt Engineering)从专业技术演变为基础素养,自然语言引导智能体输出成为普遍需求[22] - 人类角色从执行者转向价值锚点定义者,需掌握跨领域元技能以指挥智能工具并整合伦理考量[20][23] 技术驱动的产业实践 - GPT-4等模型从文本生成器进化为垂直领域知识合作伙伴,推动知识工作本质变革[5] - 特斯拉Optimus、谷歌AI实习生等案例显示智能体已具备自主规划、编码等高级能力[1] - Salesforce等企业实施"核心协作时间"政策,用技术工具管理工作生活融合边界[16] 智能体技术发展前沿 - 多模态智能体融合视觉、听觉等感知能力,提升环境交互水平[25] - 脑机接口与元宇宙技术加速智能体文明演进,形成人机共生生态[25] - 微软Viva等AI平台通过生物反馈数据优化工作安排,实现个性化时间管理[17]
超聚变CEO刘宏云:从“活下来”到“冲上去”,业务规模超400亿,押注智能体时代
搜狐财经· 2025-04-16 06:43
文章核心观点 超聚变在2025年探索者大会回顾三年发展历程,目标从“活下来”转变为“冲上去”,启动“超聚变2.0”计划,以AI重构业务流程,发布多款新产品,未来将探索业务本质 [1] 从“活下来”到“冲上去”,超聚变开启2.0时代 - 过去3年国内算力行业剧变,超聚变业务规模从百亿左右提升至400多亿,客户覆盖全球顶尖运营商、超算中心及能源巨头 [2] - 公司通过业务设计1.0实现从流程到组织的全面优化,收获“看不见的底层能力” [4] - 公司成立后首阶段目标是“活下来”,押注H800服务器方案并预判国产化趋势做针对性布局 [4] - 目前客户规模从3年前2000余个增长至24000多个,新阶段期望“冲上去” [4] - AI、数据、算力、能源、材料和生物技术将驱动未来世界变化,世界将迎来智能体时代 [5] - 公司选择AI、数据、算力、能源四个技术要素,通过跨界融合重构产业 [7] - 算力侧坚持“南北向安全异构”双生态战略,与芯片半导体公司合作研制BMC芯片 [7] - AI与数据侧推出智能应用生成平台和数据资源管理系统,已交付智能体化ERP解决方案 [7] - 能源侧打造智慧能源解决方案 [8] - 启动“超聚变2.0”计划,以AI重构业务流程,升级90多个关键流程,研发流程AI加持 [8] 三大领域密集发新品,涵盖算力、数字化转型、能源 - 企业智能化转型分单点探索、业务重构、全面数字化三阶段,算力是智能体时代基石 [10] - 算力产业面临技术路线多元化、生态不均衡等挑战,需协同解决“建好、管好、用好”问题 [12] - 算力层进行6大发布,包括升级版FusionPod开放架构液冷服务器等 [12] - 数字化转型解决方案领域发布超聚变xIBT服务方案和xRay AI服务使能平台 [12] - 自主知识产权系统将深度融合AI智能体,支持全球化与智能化需求 [12] - 能源方面发布智慧能源解决方案1.0战略,希望共建车桩网智能体 [13] - 能源领域发布分体式充电主机等产品及智能运维等服务,智能运维优化运营效率 [13] 结语:探索成超聚变下阶段关键词 - 公司定位为生态型企业,在生态构件中发挥协同作用 [16] - 探索是公司下一阶段关键词之一,公司将不断探索业务本质 [16]