Large Language Model

搜索文档
100轮工具调用,8B小模型也能做复杂长搜索!MiniMax&港科大最新开源
量子位· 2025-09-12 08:46
不圆 发自 凹非寺 量子位 | 公众号 QbitAI 网络搜索Agent效果不好,猛猛投喂一波数据,表现还那样,咋回事? 港科大&MiniMax团队指出问题核心:不是模型参数不够多,而是缺乏足够有挑战性的训练数据。 换句话说,别死记硬背了,来做点"真题"吧。 他们提出了一种构建高质量QA对的方法 WebExplorer 。 用该方法构建的数据集去训练,即使是较小的模型,也可以在复杂、长程的搜索任务上超越更大的模型。 训练后的8B模型支持高达 128K的上下文长度 和 100次工具调用轮次 的长期推理,能在参数量低于10B的模型中取得顶尖结果。 网友评价:用模型驱动的方式做探索,确实比传统图谱方法更能让智能体的浏览行为变灵活。 模型及数据集均已开源,链接可见文末。 优质训练数据稀缺 随着大语言模型(LLM)的快速发展,智能体的能力边界不断扩展。 网络搜索智能体作为这一发展的重要组成部分,能够自主地从广泛的在线资源中检索信息;长视野(Long-Horizon)网络智能体更是需要在 多个网站间进行复杂的推理和搜索。 可是呢, 现有的开源网络智能体在处理复杂搜索任务时往往表现有限,更强大的商业模型又缺乏透明的训练细节 ...
阿里通义千问发布迄今最大模型——Qwen3-Max-Preview
新浪财经· 2025-09-05 16:40
模型发布 - 阿里巴巴旗下通义千问推出Qwen3-Max-Preview模型 参数量达到1T 为迄今为止最大模型 [1] - 模型在中英文理解 复杂指令遵循 工具调用等维度实现显著增强 [1] - 模型大幅减少知识幻觉问题 [1]
神州泰岳(300002.SZ)目前尚未私有化部署Grok 2.5
格隆汇· 2025-09-03 09:00
业务布局 - 公司多条业务线多款产品已通过在线API接口及私有化部署方式接入DeepSeek等通用大模型[1] - 当前技术接入方式包括在线API接口与开源模型私有化部署双路径[1] - 尚未对Grok 2.5进行私有化部署[1] 技术应用 - 大模型接入服务于客户各类应用场景[1] - 采用DeepSeek等通用大模型支撑产品智能化升级[1] - 私有化部署与API接口并行推进技术落地[1]
Claude Code 的设计哲学:Keep Things Simple
Founder Park· 2025-08-31 02:06
核心观点 - Claude Code通过极简设计理念实现卓越性能 采用单一主循环结构、小模型优先策略及自主任务管理机制 在AI编程助手领域形成差异化竞争优势 [1][2][6] - 该方案显著降低运营成本 超过50%的LLM调用采用低成本Haiku模型 整体成本降低70-80% 同时保持系统高度可调试性 [7][17] - 技术架构具备高度可复制性 MinusX团队已验证其方法论可迁移至自定义LLM Agent开发 为行业提供新范式 [3][11][33] 架构设计 - 采用单主循环扁平消息架构 仅允许单层分支生成 避免多智能体系统复杂性 极大提升系统可维护性和调试效率 [14][15] - 工具系统采用三级分层设计 包含低级(Bash/Read/Write)、中级(Edit/Grep/Glob)和高级工具(WebFetch/Task) 根据使用频率和精度需求差异化配置 [24][25][29] - 创新性使用LLM搜索替代传统RAG 通过ripgrep/jq/find命令实现类人类代码检索模式 避免向量搜索的隐藏故障风险 [21][23] 成本优化 - 精细化模型调用策略 50%以上关键LLM调用使用claude-3-5-haiku小模型 处理文件读取、网页解析及对话总结等非核心任务 [17] - 通过模型分工实现成本效益最大化 大模型Sonnet仅处理关键决策 长上下文处理成本仍高于小模型节省的token成本 [7] 上下文管理 - 引入claude.md上下文文件机制 文件体积达1000-2000 token 记录用户编程偏好、项目配置及框架使用习惯 显著影响模型输出质量 [19][20] - 系统提示词采用结构化设计 系统提示部分占2800 token 工具描述达9400 token 通过XML标签和Markdown实现内容分层管理 [18][21] 任务管理 - 实现自主待办事项管理机制 模型主动创建/更新任务清单 避免长时间运行导致的上下文腐烂问题 提升复杂任务处理能力 [27] - 拒绝多智能体切换方案 通过待办列表+单分支调用组合 保持任务连贯性并充分利用模型交错思维能力 [14][27] 提示词工程 - 采用指令强化策略 使用"IMPORTANT"/"NEVER"/"ALWAYS"等强调性词汇约束模型行为 目前仍为最有效的控制方案 [31] - 开发启发式算法框架 通过<good-example>/<bad-example>标签提供决策示例 避免纯规则列表导致的指令冲突 [21][32] - 规范美学输出标准 明确限制非必要解释性内容 除非用户要求不得添加代码总结或操作说明 [31] 行业应用价值 - 验证极简架构可行性 证明单一智能体配合精心设计的工具系统可应对多数复杂场景 为AI Agent开发提供新方向 [33] - 实现技术方案开源化 MinusX团队通过网络请求拦截分析获得核心参数 使行业可快速复现该成功模式 [4][11]
每周观察 | 英伟达机器人“新大脑”推升芯片市场规模有望达4,800万美元以上;2Q25 NAND Flash营收季增逾20%
TrendForce集邦· 2025-08-29 03:44
英伟达机器人芯片发展 - NVIDIA推出Jetson Thor机器人物理智慧核心 采用Blackwell GPU和128 GB记忆体 提供2070 FP4 TFLOPS AI算力 是前代Jetson Orin的7.5倍 [2] - 该芯片帮助终端本体即时处理庞大感测数据与大型语言模型 实现高阶人形机器人的视觉、思考与行动能力 [2] - 在Agility Robotics、Boston Dynamics、Amazon等厂商采用下 预估人形机器人芯片市场规模有望于2028年突破4,800万美元 [2] NAND Flash市场表现 - 2025年第二季NAND Flash产业营收季增22% 达146.7亿美元 主要受益于原厂减产策略缓解供需失衡 以及中美政策推动出货位元大幅成长 [4] - 前五大品牌厂合计营收表现突出 其中SK Group营收季增52.5%达33.35亿美元 市占率从16.6%跃升至21.1% [4][5] - 三星保持领先地位 营收季增23.8%达52亿美元 市占率32.9% 其他主要厂商包括Kioxia、Micron和SanDisk [5] 显示面板市场动态 - 预期8月电视/显示器/笔电面板价格持平 其中电视面板需求呈现转强趋势 [12]
硅基流动:上线DeepSeek-V3.1,上下文升至160K
新浪财经· 2025-08-25 12:32
大模型技术参数 - 总参数规模达671B [1] - 激活参数为37B [1] - 采用混合推理架构 同时支持思考模式与非思考模式 [1] 上下文处理能力 - 率先支持160K超长上下文 [1] - 高效处理长文档 多轮对话 编码及智能体等复杂场景 [1] 产品发布动态 - 硅基流动大模型服务平台于8月25日上线DeepSeek-V3.1 [1] - 该模型由深度求索团队最新开源 [1]
苹果为Siri升级广撒网,谷歌Gemini AI或成关键“拼图”
环球网资讯· 2025-08-23 04:41
公司战略合作 - 苹果正与谷歌洽谈使用Gemini AI作为下一代Siri的核心技术 [1][4] - 苹果要求谷歌开发定制化人工智能模型 谷歌已开始训练可在苹果私有云服务器上运行的模型 [4] - 苹果同时与OpenAI和Anthropic进行过洽谈 这两家公司也在为苹果服务器开发模型版本 [4] 技术研发进展 - 苹果正在测试包括自家模型在内的多款大语言模型 以确定最佳消费者体验方案 [4] - 新一代Siri有两个版本在开发中 一个采用苹果自家模型 另一个运行第三方模型 [4] - 采用大语言模型的Siri有望于2026年春季推出 [4] 行业发展动态 - 人工智能浪潮正席卷科技界 推动智能语音助手升级 [1] - 科技公司通过合作方式加速AI技术落地 苹果采取广泛接触多方探索的策略 [4]
OpenAI头号叛徒,竟然是自学的AI???
36氪· 2025-08-22 03:12
公司发展历程 - Anthropic由前OpenAI核心团队成员创立 专注于AI安全和规模化发展 目前已成为OpenAI主要竞争对手 [29][30] - 公司初期仅有7位联合创始人和100多名员工 资金实力远不如OpenAI但通过技术突破实现市场逆袭 [30] - Claude产品线发展经历曲折 最早产品比ChatGPT早九个月但错失发布时机 直到Claude 3.5 Sonnet才获得市场突破 [10] 技术突破与产品表现 - Claude 3.5 Sonnet在多项基准测试中表现优异:研究生级推理GPQA达59.4%[11] 本科知识MMLU达88.3%[11] 代码能力HumanEval达92.0%[11] 数学问题解决MATH达71.1%[11] - 模型采用独特训练方法 注重内部基准和dogfooding实践 让工程师日常使用产品并进行迭代优化 [6][8] - 最新技术突破包括将上下文窗口扩大至100万tokens 直接针对OpenAI的GPT-5形成竞争压力 [16] 市场竞争格局 - Anthropic市场份额从两年前的落后地位跃升至32% 而OpenAI市场份额从50%下降25% [12] - 在编程细分领域 Anthropic市场份额超过OpenAI两倍以上 成为该领域领导者 [12] - 公司采取激进竞争策略 包括切断竞争对手API访问权限 直接针对OpenAI客户进行争夺 [15] 人才背景与行业影响 - 联合创始人Tom Brown通过6个月自学转型AI 曾参与GPT-3核心开发 负责将模型参数从15亿扩展到1700亿 [23][25] - 关键技术创新包括局部稀疏注意力和预正则化等模型设计改良 以及规模化计算规律的应用 [25] - 行业人才流动频繁 OpenAI前员工创业成功案例众多 但Anthropic团队对老东家形成最大竞争压力 [16][29] 产品开发理念 - Anthropic采用"快乐教育"式模型开发理念 不同于其他公司专注于基准测试刷分的"应试"方法 [6] - 公司将Claude视为用户而非工具 围绕模型设计兼顾平台和用户思维 鼓励开发者参与训练过程 [8] - 这种开发理念使得Claude在代理式编程和执行复杂任务方面表现出意外惊喜 超越团队预期 [10]
OpenAI头号叛徒,竟然是自学的AI???
量子位· 2025-08-22 02:30
公司发展历程 - Anthropic由前OpenAI核心团队成员创立 专注于AI安全和规模化计算[45] - 公司最初仅有7位联合创始人和100多名员工 资金实力远不如OpenAI[45] - 通过Claude 3.5 Sonnet实现技术突破 市场份额从追赶者跃升至32%[17] 技术突破与产品特性 - Claude 3.5 Sonnet在多项基准测试中超越竞品:GPQA钻石级推理59.4%(0-shot CoT)[15]、MMLU 88.3%(0-shot CoT)[15]、代码HumanEval 92.0%(0-shot)[15] - 采用"快乐教育"开发理念 注重内部基准测试和dogfooding实践[7] - 将模型视为用户而非工具 鼓励开发者参与训练过程[10] - 上下文窗口扩展至100万tokens 超越行业标准[25] 市场竞争格局 - OpenAI市场份额从50%下降25% 而Anthropic占据32%市场份额[17] - 在编程细分领域 Anthropic市场份额超过OpenAI两倍以上[17] - 获得Cursor等关键客户支持 其编程默认模型从GPT切换至Claude[20] - 主动切断Windsurf等竞争对手的API访问权限[21] 人才发展路径 - 核心技术人员通过6个月自学完成AI领域转型[2][36] - 学习路径包括Coursera机器学习课程、Kaggle项目和实践项目开发[38] - 关键突破来自规模化计算和Scaling Laws的应用[41] - 主导GPT-3开发 将模型参数从15亿扩展至1700亿[41] 行业技术演进 - Transformer架构持续优化 引入局部稀疏注意力和预正则化技术[41] - 模型展现卓越的少样本学习能力 实现多任务自然语言处理[41] - 计算资源分配和GPU管理成为模型训练的关键要素[46] - 模型在代理式编程和复杂任务执行方面出现意外突破[14]
DeepSeek 偷偷发布了v3.1
小熊跑的快· 2025-08-21 10:16
核心性能突破 - 上下文窗口扩展至128K tokens,较上一代64K实现翻倍提升,可处理约10万-13万汉字,相当于两本200页小说或400页书籍的文本量 [1] - 通过Transformer架构的内存管理优化,改进注意力机制计算效率与上下文状态追踪能力,解决上下文丢失与响应碎片化问题 [1] - 线上模型版本与开源版本保持一致的128K上下文能力,确保企业级用户与开发者获得同等长文本处理性能 [1] 场景验证与应用 - 在企业级应用中显著提升法律合同审查、学术论文综述等场景效率,可一次性输入400页合同或约10万字博士论文并保持逻辑连贯性与细节准确性 [2] - 在开发者场景中支持大型代码库依赖分析、技术文档解析及检索增强生成任务,解决旧版偶发的死循环输出或信息割裂问题 [2] - 处理接近上下文极限(约9%,即10万字级)输入时仍保持输出速度与准确性,支持持续数小时长对话场景,为智能客服等交互系统提供技术支撑 [2] 编程能力突破 - 在Aider Polyglot多语言编程基准测试中以71.6%得分超越Claude Opus 4,成为开源模型中表现最佳的非推理模型之一,且推理速度更快 [4] - SWE代码修复测试与Terminal-Bench终端任务表现显著提升,Python与Bash代码生成准确率达60%,较V3版本提升数个百分点 [4] - 支持复杂工程化开发,包括使用p5.js编写含重力与碰撞检测的交互程序、Three.js构建三层粒子星系系统,以及全栈开发中一次性生成800行无错误代码 [5][6] 成本优势与市场影响 - 完成典型编程任务平均成本仅1.01美元,为闭源模型的1/68,对中小企业开发流程具有颠覆性意义 [7] - "开源模型+高性能+低成本"组合打破编程工具市场现有格局,推动开发模式向本地化、高效率、低门槛方向演进 [7] 智能体能力增强 - 通过后训练优化提升工具使用与函数调用能力,支持代码编写、命令行操作及网络搜索整合实时信息,实现从顾问向工程师的角色升级 [8] - 原生支持Anthropic API格式,允许开发者直接复用Claude Code框架工具调用逻辑,降低生态迁移成本 [9] - Strict Mode函数调用在金融数据接口场景中格式准确率达99%,杜绝参数类型错误或字段缺失导致的调用失败 [10] 开发效率优化 - 工具调用模板库减少80%的Prompt工程工作量,平均接入时间从2天缩短至1天,效率提升50% [11] - 通过搜索Token与思考Token支持内部推理步骤拆分,使智能体自主规划工具调用顺序,减少人工干预环节 [12] 编程与搜索智能体 - 企业用户报告典型编程任务成本约1美元,远低于闭源竞品近70美元水平,且在创意开发中可复现Chrome断网小恐龙游戏核心功能 [14] - 搜索智能体在browsecomp复杂搜索测试与HLE多学科专家级难题测试中大幅领先前代版本,强化多步推理与跨领域知识整合能力 [14] - 在企业DevOps流程中自动化生成部署脚本,端到端任务成本仅为使用Claude-3.5的1/30,代码调试场景成本为传统专有系统的1/60 [15] API定价与成本效率 - API输入价格调整为缓存命中时0.5元/百万tokens、未命中时4元/百万tokens(此前V3为2元/百万tokens),输出价格为12元/百万tokens(此前V3为8元/百万tokens) [16] - Token效率提升20%-50%且推理速度达60 TPS,有效抵消价格调整影响,整体性价比保持行业领先 [17]