Agent能力

搜索文档
DeepSeek-V3.1 发布,官方划重点:Agent、Agent、Agent!
Founder Park· 2025-08-21 08:16
核心产品升级 - 推出混合推理架构 单一模型同时支持思考与非思考双模式 用户可通过深度思考按钮自由切换[5][7] - 上下文窗口扩展至128K 显著提升长文本处理能力[7] - 采用思维链压缩技术 思考模式输出token数量减少20%-50% 非思考模式输出长度也显著缩短[12] 智能体性能突破 - 工具使用与智能体任务表现通过后训练优化大幅提升[8] - 编程智能体在SWE-bench评测达66.0分 较V3-0324版本45.4分提升45%[9] - 多语言代码修复能力达54.5分 较前代29.3分提升86%[9] - 终端命令行评测31.3分 较前代13.3分增长135%[9] - 搜索智能体在browsecomp中文测试达49.2分 较前代35.7分提升38%[11] 技术架构创新 - 基础模型在V3版本基础上额外训练840B tokens[15] - 采用UE8M0 FP8 Scale参数精度 分词器与chat template较V3版本有重大变更[15] - 提供Strict Mode Function Calling Beta接口 确保输出严格符合Schema定义[14] - 新增Anthropic API格式兼容 可无缝接入Claude Code等框架[14] 开源生态建设 - 基础模型与后训练模型已在Huggingface和魔搭平台全面开源[15][19] - 开源组织路径分别为HUGGINGFACE.CO/DEEPSEEK-AI和MODELSCOPE.CN/ORGANIZATION/DEEPSEEK-AI[19] 商业化进程 - 新版价格表将于2025年9月6日凌晨生效 同时取消夜间时段优惠[16] - 当前至9月6日前为过渡期 仍按原价格政策计费[16] - API服务资源已完成扩容以支持新定价策略[16]
DeepSeek-V3.1发布:更高效思考、更强Agent能力、更长上下文
生物世界· 2025-08-21 08:00
混合推理架构 - 引入混合推理架构 支持深度思考模式和非思考模式自由切换[2][3] - 深度思考模式适用于数学计算和复杂逻辑分析等深度推理任务 推理效率更高[3] - 非思考模式适用于日常对话和信息查询等轻量级任务 响应更迅速[4] Agent能力提升 - 通过Post-Training优化大幅提升工具使用和智能体任务表现[6] - 编程智能体在代码修复和命令行终端任务中表现优于前代模型 所需轮数更少效率更高[6] - 搜索智能体在多步推理搜索和多学科专家级难题测试中性能大幅领先DeepSeek-R1-0528[7] - SWE-bench指标达到66.0 较DeepSeek-V3-0324的45.4提升45%[7] - Terminal-Bench指标达到31.3 较DeepSeek-V3-0324的13.3提升135%[7] - Browsecomp指标达到30.0 较DeepSeek-R1-0528的8.9提升237%[8] - Browsecomp中文指标达到49.2 较DeepSeek-R1-0528的35.7提升38%[8] 思考效率优化 - 采用思维链压缩训练 输出Token减少20%-50%的情况下任务表现仍与DeepSeek-R1-0528持平[9] - 实现更快的响应速度和更低的API调用成本[9] API升级 - 上下文扩展至128K 处理长文档能力增强[10][12] - 新增strict模式Function Calling 确保函数调用符合Schema定义[12] - 支持Anthropic API格式 可接入Claude Code框架[12] 模型开源与定价 - Base模型和后训练模型已在Hugging Face和魔搭平台开源[11] - 使用UE8M0 FP8 Scale参数精度 分词器和chat template有较大调整[11] - API价格自2025年9月6日起执行新版价格表并取消夜间时段优惠[11]
DeepSeek-V3.1正式发布
第一财经· 2025-08-21 07:53
产品升级 - DeepSeek-V3 1正式发布 采用混合推理架构 同时支持思考模式与非思考模式 [3] - 相比DeepSeek-R1-0528 新模型思考效率提升 可在更短时间内给出答案 [3] - 通过Post-Training优化 新模型在工具使用与智能体任务中表现有较大提升 [3] 平台服务更新 - 官方App与网页端模型已同步升级为DeepSeek-V3 1 用户可通过深度思考按钮自由切换思考模式与非思考模式 [3] - API同步升级 deepseek-chat对应非思考模式 deepseek-reasoner对应思考模式 上下文扩展至128K [3] - API Beta接口支持strict模式Function Calling 确保输出Function满足schema定义 [3] - 增加对Anthropic API格式支持 可轻松将DeepSeek-V3 1能力接入Claude Code框架 [4] 价格调整 - 北京时间2025年9月6日凌晨起 执行新版API接口调用价格表 取消夜间时段优惠 [4] - 9月6日前所有API服务仍按原价格政策计费 [6]
官宣!DeepSeek-V3.1 发布,API调用价格低至0.5元/百万Tokens
新浪科技· 2025-08-21 07:05
API价格调整 - 公司将于北京时间2025年9月6日00:00起调整DeepSeek开放平台API接口调用价格 [1] - 输入价格调整为缓存命中0.5元/百万tokens 缓存未命中4元/百万tokens [1] - 输出价格调整为12元/百万tokens [1] 技术升级 - 新版本DeepSeek-V3.1采用混合推理架构 支持思考模式与非思考模式自由切换 [3] - 相比DeepSeek-R1-0528版本 新模型思考效率显著提升 能在更短时间内给出答案 [3] - 通过Post-Training优化 模型在工具使用与智能体任务中的表现获得较大提升 [3] 产品部署 - 官方App与网页端模型已同步升级至DeepSeek-V3.1版本 [3] - 用户可通过"深度思考"按钮实现思考模式与非思考模式的自由切换 [3]
大模型专题:2025年大模型智能体开发平台技术能力测试研究报告
搜狐财经· 2025-08-14 15:48
测试概述 - 测试背景聚焦大模型驱动的智能体在产业智能化转型中的多场景渗透态势,评估其知识增强、流程编排和智能决策能力 [7] - 测试选取阿里云百炼、腾讯云智能体开发平台、扣子及百度智能云千帆四个平台,围绕RAG能力、工作流能力和Agent能力展开 [7] - 测试方法构建标准化框架,涵盖场景构建、数据集设计、智能体配置及问题集设计,确保与实际业务高度贴合 [11][12] RAG能力测试 - 文本问答表现优异,单文档及多文档问答准确率超80%,但拒答与澄清处理差异显著,腾讯云对知识库外问题实现100%拒答 [20][21] - 结构化数据问答中百度智能云千帆表现稳定,多表关联查询准确率较高,阿里云百炼和扣子存在信息遗漏与聚合误差 [23][27] - 图文问答中阿里云百炼、腾讯云及扣子图片识别能力较强(83.3%-91.7%),但配图输出率分化,百度智能云千帆因流程bug识别率低 [30][33] 工作流能力测试 - 订单修改场景端到端准确率61.5%-69.2%,腾讯云意图识别准确率达93.3%,参数提取是主要差异点 [36] - 各平台在意图识别环节准确率达100%,但阿里云百炼和腾讯云参数提取准确率(75%)高于扣子和百度智能云千帆(61.5%) [37] - 工作流配置呈现差异化设计,腾讯云采用全局Agent机制,阿里云百炼和扣子分离对话与任务执行引擎 [40] Agent能力测试 - 单工具调用完成率83%-92%,多工具协同及提示词调用有提升空间,腾讯云因工具生态完整表现均衡 [48][50] - 任务分解能力标准化,如行程规划场景均能识别路径规划+天气查询+联网搜索工具组合需求 [48] - 平台工具生态依赖自身资源,百度整合文库/百科,腾讯打通文档/地图,扣子支持轻量化插件开发 [49] 总结与展望 - 平台基础能力趋同但路径分化,需在场景深度适配、技术链厚度构建、生态广度拓展上持续发力 [1] - 当前技术需优化自然语言到结构化查询的精准映射,增强字段格式兼容性校验 [28] - 工作流系统仍依赖人工干预,需结合业务经验与技术特性进行动态校准 [43]
全球知名Agent应用Perplexity CEO点赞阿里千问
快讯· 2025-07-24 02:56
阿里开源Qwen3-Coder获业界高度评价 - Perplexity CEO公开称赞Qwen3-Coder为"令人惊叹的成绩"并强调"开源赢爆了" [1] - Qwen3-Coder在SWE-Bench Multilingual、Aider-Polyglot、Spider2、Mind2Web等多项Agent能力指标中超越美国Claude4模型 [1] - Qwen3-Coder API定价策略具有显著优势 平均价格仅为Claude的三分之一 [1] Qwen3-Coder技术性能表现 - 该模型在多项国际基准测试中取得最佳性能表现 展现全球顶级Agent能力 [1] - 性能指标覆盖多语言编程(SWE-Bench Multilingual)、多语言协作(Aider-Polyglot)、数据库查询(Spider2)及网页交互(Mind2Web)等场景 [1] 市场竞争优势分析 - 技术性能直接对标并超越行业领先的Claude4模型 [1] - 成本优势显著 API价格体系较竞品降低约66% [1]
阿里开源最强AI编程模型Qwen3-Coder,性能比肩Claude4 | 钛快讯
钛媒体APP· 2025-07-23 00:01
模型发布与性能 - 阿里开源通义千问AI编程大模型Qwen3-Coder,编程能力登顶全球开源模型阵营,超越GPT4-1等闭源模型,比肩Claude4 [1] - Qwen3-Coder采用混合专家MoE架构,总参数480B,激活35B参数,原生支持256K token上下文并可扩展至1M长度 [2] - 模型在代码占比70%的7-5T数据上预训练,通过强化学习提升编程任务及智能体任务能力 [3] 技术指标与评测表现 - Terminal-Bench评测得分37-5,高于Claude Sonnet-4的35-5和GPT4-1的25-3 [2] - SWE-bench Verified评测中,w/ OpenHands 500 turns得分69-6,接近Claude4的70-4 [2] - WebArena评测得分49-9,超越GPT4-1的44-3;Mind2Web评测得分55-8,超越Claude4的47-4 [2] - 在工具调用评测BPCL-v3中得分68-7,超越GPT4-1的62-9 [2] 应用场景与商业化 - 模型擅长多步骤长任务,支持Agent调用工具解决复杂编程问题,适用于网页开发、AI搜索、深度研究等场景 [3] - 可大幅提升编程效率,代码测试、查询生成等工作从数小时降至数分钟,降低普通人编程门槛 [4] - 模型已在魔搭社区、HuggingFace等平台开源,将接入阿里AI编程产品通义灵码,API上线阿里云百炼 [4] - 千问系列编程模型全球下载量突破2000万次,阿里巴巴内部及一汽集团、建设银行等头部企业已接入使用 [4]
AI动态跟踪系列(六):OpenAIo3、豆包新品首发,关注原生Agent与多模态推理
平安证券· 2025-04-17 13:10
报告行业投资评级 - 强于大市(维持) [1] 报告的核心观点 - 近期新模型解题思路在思维链CoT基础上更重视模型原生Agent能力和多模态推理能力,全球大模型领域竞争激烈,看好AI主题投资机会 [3][34] - 当前Agent在企业端落地进度靠前,AI应用关注OA/ERP/编程/办公等领域,Agent拉动推理端及整体算力需求,看好国产AI算力产业链 [3][34] 根据相关目录分别进行总结 OpenAI o3、o4 - mini新增图像深度思考与Agent能力,Codex CLI智能体开源推动AI编程生态开放 - 4月17日OpenAI发布o3和o4 - mini,是其迄今最智能模型,核心突破在于图像深度思考和Agent能力 [3][4] - o3是强大推理模型,在多方面推动前沿发展,在多个基准设新SOTA,困难现实任务重大错误比o1少20% [5] - o4 - mini针对快速、经济高效推理优化,在数学、编码和视觉任务表现好,非STEM任务及数据科学领域优于o3 - mini [5] - 图像推理方面,o3和o4 - mini首次在思维链中用图像思考,实现高级推理与多工具无缝结合,o3提供多模态代理体验 [9] - Agent方面,o3和o4 - mini可访问ChatGPT工具及自定义工具,能推理解决问题并快速生成答案 [10] - o3和o4 - mini性价比高于前身,预计实际使用更智能、便宜 [12] - OpenAI发布轻量级编程智能体Codex CLI,支持零配置启动,运行安全,可让用户从命令行体验多模态推理 [15] 豆包1.5·深度思考模型对标全球推理模型第一梯队,视觉理解模型实现更强视觉定位能力 - 4月17日火山引擎发布豆包1.5·深度思考模型等新品,推理模型性能达或接近全球第一梯队,增加视觉理解能力,APP可“边想边搜” [3][17] - 多模态方面,豆包·文生图模型3.0在权威榜单排全球第一梯队,新版本豆包·视觉理解模型视觉定位和视频理解能力提升 [17][28] - 企业级服务方面,发布OS Agent、GUI Agent大模型(豆包1.5·UI - TARS)和AI云原生·ServingKit推理套件 [17] - 截至2025年3月底,豆包大模型日均tokens调用量超12.7万亿,是2024年12月的3倍、发布时的106倍,2024年火山引擎公有云大模型调用量市场份额46.4%居中国第一 [18] - 豆包1.5·深度思考模型采用MoE架构,总参数200B,激活参数20B,有高并发承载能力和20毫秒极低延迟 [21] - 豆包APP基于该模型定向训练实现“边想边搜”,如推荐露营装备经3轮搜索给出细致推荐 [24] - 该模型具备视觉理解能力,可用于国外餐厅点餐、分析航拍地貌、企业项目管理等 [27] - OS Agent解决方案可让企业和开发者构建轻量级应用,复杂应用可调用豆包1.5·UI - TARS模型,该模型已上线火山方舟平台 [32] - ServingKit推理套件可助企业快速部署模型、优化推理、运维可观测,能提高KV cache命中率和TPS吞吐量,降低GPU消耗 [33] 投资建议 - AI应用方面,AI + 企服建议关注泛微网络、致远互联等;AI + 办公推荐金山办公、福昕软件等,建议关注合合信息 [3][34] - AI算力方面,推荐海光信息、龙芯中科等,建议关注寒武纪、景嘉微等 [3][34]