Large Language Model - 财报，业绩电话会，研报，新闻 - Reportify

Large Language Model

搜索文档

100轮工具调用，8B小模型也能做复杂长搜索！MiniMax&港科大最新开源

量子位· 2025-09-12 08:46

不圆发自凹非寺量子位 | 公众号 QbitAI 网络搜索Agent效果不好，猛猛投喂一波数据，表现还那样，咋回事？港科大&MiniMax团队指出问题核心：不是模型参数不够多，而是缺乏足够有挑战性的训练数据。换句话说，别死记硬背了，来做点"真题"吧。他们提出了一种构建高质量QA对的方法 WebExplorer 。用该方法构建的数据集去训练，即使是较小的模型，也可以在复杂、长程的搜索任务上超越更大的模型。训练后的8B模型支持高达 128K的上下文长度和 100次工具调用轮次的长期推理，能在参数量低于10B的模型中取得顶尖结果。网友评价：用模型驱动的方式做探索，确实比传统图谱方法更能让智能体的浏览行为变灵活。模型及数据集均已开源，链接可见文末。优质训练数据稀缺随着大语言模型（LLM）的快速发展，智能体的能力边界不断扩展。网络搜索智能体作为这一发展的重要组成部分，能够自主地从广泛的在线资源中检索信息；长视野（Long-Horizon）网络智能体更是需要在多个网站间进行复杂的推理和搜索。可是呢，现有的开源网络智能体在处理复杂搜索任务时往往表现有限，更强大的商业模型又缺乏透明的训练细节 ...

Artificial Intelligence

Large Language Model

Network Search Agent

Artificial Intelligence

Artificial Intelligence

Large Language Model

Network Search Agent

Artificial Intelligence

阿里通义千问发布迄今最大模型——Qwen3-Max-Preview

新浪财经· 2025-09-05 16:40

模型发布 - 阿里巴巴旗下通义千问推出Qwen3-Max-Preview模型参数量达到1T 为迄今为止最大模型 [1] - 模型在中英文理解复杂指令遵循工具调用等维度实现显著增强 [1] - 模型大幅减少知识幻觉问题 [1]

Large Language Model

Qwen3-Max-Preview（Instruct）

Large Language Model

Qwen3-Max-Preview（Instruct）

神州泰岳(300002.SZ)目前尚未私有化部署Grok 2.5

格隆汇· 2025-09-03 09:00

业务布局 - 公司多条业务线多款产品已通过在线API接口及私有化部署方式接入DeepSeek等通用大模型[1] - 当前技术接入方式包括在线API接口与开源模型私有化部署双路径[1] - 尚未对Grok 2.5进行私有化部署[1] 技术应用 - 大模型接入服务于客户各类应用场景[1] - 采用DeepSeek等通用大模型支撑产品智能化升级[1] - 私有化部署与API接口并行推进技术落地[1]

神州泰岳(SZ:300002)

Large Language Model

Large Language Model

Claude Code 的设计哲学：Keep Things Simple

Founder Park· 2025-08-31 02:06

核心观点 - Claude Code通过极简设计理念实现卓越性能采用单一主循环结构、小模型优先策略及自主任务管理机制在AI编程助手领域形成差异化竞争优势 [1][2][6] - 该方案显著降低运营成本超过50%的LLM调用采用低成本Haiku模型整体成本降低70-80% 同时保持系统高度可调试性 [7][17] - 技术架构具备高度可复制性 MinusX团队已验证其方法论可迁移至自定义LLM Agent开发为行业提供新范式 [3][11][33] 架构设计 - 采用单主循环扁平消息架构仅允许单层分支生成避免多智能体系统复杂性极大提升系统可维护性和调试效率 [14][15] - 工具系统采用三级分层设计包含低级(Bash/Read/Write)、中级(Edit/Grep/Glob)和高级工具(WebFetch/Task) 根据使用频率和精度需求差异化配置 [24][25][29] - 创新性使用LLM搜索替代传统RAG 通过ripgrep/jq/find命令实现类人类代码检索模式避免向量搜索的隐藏故障风险 [21][23] 成本优化 - 精细化模型调用策略 50%以上关键LLM调用使用claude-3-5-haiku小模型处理文件读取、网页解析及对话总结等非核心任务 [17] - 通过模型分工实现成本效益最大化大模型Sonnet仅处理关键决策长上下文处理成本仍高于小模型节省的token成本 [7] 上下文管理 - 引入claude.md上下文文件机制文件体积达1000-2000 token 记录用户编程偏好、项目配置及框架使用习惯显著影响模型输出质量 [19][20] - 系统提示词采用结构化设计系统提示部分占2800 token 工具描述达9400 token 通过XML标签和Markdown实现内容分层管理 [18][21] 任务管理 - 实现自主待办事项管理机制模型主动创建/更新任务清单避免长时间运行导致的上下文腐烂问题提升复杂任务处理能力 [27] - 拒绝多智能体切换方案通过待办列表+单分支调用组合保持任务连贯性并充分利用模型交错思维能力 [14][27] 提示词工程 - 采用指令强化策略使用"IMPORTANT"/"NEVER"/"ALWAYS"等强调性词汇约束模型行为目前仍为最有效的控制方案 [31] - 开发启发式算法框架通过<good-example>/<bad-example>标签提供决策示例避免纯规则列表导致的指令冲突 [21][32] - 规范美学输出标准明确限制非必要解释性内容除非用户要求不得添加代码总结或操作说明 [31] 行业应用价值 - 验证极简架构可行性证明单一智能体配合精心设计的工具系统可应对多数复杂场景为AI Agent开发提供新方向 [33] - 实现技术方案开源化 MinusX团队通过网络请求拦截分析获得核心参数使行业可快速复现该成功模式 [4][11]

Large Language Model

Artificial Intelligence

Large Language Model

Artificial Intelligence

每周观察 | 英伟达机器人“新大脑”推升芯片市场规模有望达4,800万美元以上；2Q25 NAND Flash营收季增逾20%

TrendForce集邦· 2025-08-29 03:44

英伟达机器人芯片发展 - NVIDIA推出Jetson Thor机器人物理智慧核心采用Blackwell GPU和128 GB记忆体提供2070 FP4 TFLOPS AI算力是前代Jetson Orin的7.5倍 [2] - 该芯片帮助终端本体即时处理庞大感测数据与大型语言模型实现高阶人形机器人的视觉、思考与行动能力 [2] - 在Agility Robotics、Boston Dynamics、Amazon等厂商采用下预估人形机器人芯片市场规模有望于2028年突破4,800万美元 [2] NAND Flash市场表现 - 2025年第二季NAND Flash产业营收季增22% 达146.7亿美元主要受益于原厂减产策略缓解供需失衡以及中美政策推动出货位元大幅成长 [4] - 前五大品牌厂合计营收表现突出其中SK Group营收季增52.5%达33.35亿美元市占率从16.6%跃升至21.1% [4][5] - 三星保持领先地位营收季增23.8%达52亿美元市占率32.9% 其他主要厂商包括Kioxia、Micron和SanDisk [5] 显示面板市场动态 - 预期8月电视/显示器/笔电面板价格持平其中电视面板需求呈现转强趋势 [12]

英伟达(US:NVDA)

Artificial Intelligence

Large Language Model

Artificial Intelligence

Large Language Model

硅基流动：上线DeepSeek-V3.1，上下文升至160K

新浪财经· 2025-08-25 12:32

大模型技术参数 - 总参数规模达671B [1] - 激活参数为37B [1] - 采用混合推理架构同时支持思考模式与非思考模式 [1] 上下文处理能力 - 率先支持160K超长上下文 [1] - 高效处理长文档多轮对话编码及智能体等复杂场景 [1] 产品发布动态 - 硅基流动大模型服务平台于8月25日上线DeepSeek-V3.1 [1] - 该模型由深度求索团队最新开源 [1]

Seek .(US:SKLTY)

Large Language Model

Artificial Intelligence

Large Language Model

Artificial Intelligence

苹果为Siri升级广撒网，谷歌Gemini AI或成关键“拼图”

环球网资讯· 2025-08-23 04:41

公司战略合作 - 苹果正与谷歌洽谈使用Gemini AI作为下一代Siri的核心技术 [1][4] - 苹果要求谷歌开发定制化人工智能模型谷歌已开始训练可在苹果私有云服务器上运行的模型 [4] - 苹果同时与OpenAI和Anthropic进行过洽谈这两家公司也在为苹果服务器开发模型版本 [4] 技术研发进展 - 苹果正在测试包括自家模型在内的多款大语言模型以确定最佳消费者体验方案 [4] - 新一代Siri有两个版本在开发中一个采用苹果自家模型另一个运行第三方模型 [4] - 采用大语言模型的Siri有望于2026年春季推出 [4] 行业发展动态 - 人工智能浪潮正席卷科技界推动智能语音助手升级 [1] - 科技公司通过合作方式加速AI技术落地苹果采取广泛接触多方探索的策略 [4]

Artificial Intelligence

Large Language Model

Software and Internet

Artificial Intelligence

Large Language Model

Software and Internet

OpenAI头号叛徒，竟然是自学的AI？？？

36氪· 2025-08-22 03:12

公司发展历程 - Anthropic由前OpenAI核心团队成员创立专注于AI安全和规模化发展目前已成为OpenAI主要竞争对手 [29][30] - 公司初期仅有7位联合创始人和100多名员工资金实力远不如OpenAI但通过技术突破实现市场逆袭 [30] - Claude产品线发展经历曲折最早产品比ChatGPT早九个月但错失发布时机直到Claude 3.5 Sonnet才获得市场突破 [10] 技术突破与产品表现 - Claude 3.5 Sonnet在多项基准测试中表现优异：研究生级推理GPQA达59.4%[11] 本科知识MMLU达88.3%[11] 代码能力HumanEval达92.0%[11] 数学问题解决MATH达71.1%[11] - 模型采用独特训练方法注重内部基准和dogfooding实践让工程师日常使用产品并进行迭代优化 [6][8] - 最新技术突破包括将上下文窗口扩大至100万tokens 直接针对OpenAI的GPT-5形成竞争压力 [16] 市场竞争格局 - Anthropic市场份额从两年前的落后地位跃升至32% 而OpenAI市场份额从50%下降25% [12] - 在编程细分领域 Anthropic市场份额超过OpenAI两倍以上成为该领域领导者 [12] - 公司采取激进竞争策略包括切断竞争对手API访问权限直接针对OpenAI客户进行争夺 [15] 人才背景与行业影响 - 联合创始人Tom Brown通过6个月自学转型AI 曾参与GPT-3核心开发负责将模型参数从15亿扩展到1700亿 [23][25] - 关键技术创新包括局部稀疏注意力和预正则化等模型设计改良以及规模化计算规律的应用 [25] - 行业人才流动频繁 OpenAI前员工创业成功案例众多但Anthropic团队对老东家形成最大竞争压力 [16][29] 产品开发理念 - Anthropic采用"快乐教育"式模型开发理念不同于其他公司专注于基准测试刷分的"应试"方法 [6] - 公司将Claude视为用户而非工具围绕模型设计兼顾平台和用户思维鼓励开发者参与训练过程 [8] - 这种开发理念使得Claude在代理式编程和执行复杂任务方面表现出意外惊喜超越团队预期 [10]

Artificial Intelligence

Large Language Model

Artificial Intelligence

Artificial Intelligence

Large Language Model

Artificial Intelligence

OpenAI头号叛徒，竟然是自学的AI？？？

量子位· 2025-08-22 02:30

公司发展历程 - Anthropic由前OpenAI核心团队成员创立专注于AI安全和规模化计算[45] - 公司最初仅有7位联合创始人和100多名员工资金实力远不如OpenAI[45] - 通过Claude 3.5 Sonnet实现技术突破市场份额从追赶者跃升至32%[17] 技术突破与产品特性 - Claude 3.5 Sonnet在多项基准测试中超越竞品：GPQA钻石级推理59.4%（0-shot CoT）[15]、MMLU 88.3%（0-shot CoT）[15]、代码HumanEval 92.0%（0-shot）[15] - 采用"快乐教育"开发理念注重内部基准测试和dogfooding实践[7] - 将模型视为用户而非工具鼓励开发者参与训练过程[10] - 上下文窗口扩展至100万tokens 超越行业标准[25] 市场竞争格局 - OpenAI市场份额从50%下降25% 而Anthropic占据32%市场份额[17] - 在编程细分领域 Anthropic市场份额超过OpenAI两倍以上[17] - 获得Cursor等关键客户支持其编程默认模型从GPT切换至Claude[20] - 主动切断Windsurf等竞争对手的API访问权限[21] 人才发展路径 - 核心技术人员通过6个月自学完成AI领域转型[2][36] - 学习路径包括Coursera机器学习课程、Kaggle项目和实践项目开发[38] - 关键突破来自规模化计算和Scaling Laws的应用[41] - 主导GPT-3开发将模型参数从15亿扩展至1700亿[41] 行业技术演进 - Transformer架构持续优化引入局部稀疏注意力和预正则化技术[41] - 模型展现卓越的少样本学习能力实现多任务自然语言处理[41] - 计算资源分配和GPU管理成为模型训练的关键要素[46] - 模型在代理式编程和复杂任务执行方面出现意外突破[14]

Artificial Intelligence

Large Language Model

Artificial Intelligence

Claude 3.5 Sonnet

Artificial Intelligence

Large Language Model

Artificial Intelligence

Claude 3.5 Sonnet

DeepSeek 偷偷发布了v3.1

小熊跑的快· 2025-08-21 10:16

核心性能突破 - 上下文窗口扩展至128K tokens，较上一代64K实现翻倍提升，可处理约10万-13万汉字，相当于两本200页小说或400页书籍的文本量 [1] - 通过Transformer架构的内存管理优化，改进注意力机制计算效率与上下文状态追踪能力，解决上下文丢失与响应碎片化问题 [1] - 线上模型版本与开源版本保持一致的128K上下文能力，确保企业级用户与开发者获得同等长文本处理性能 [1] 场景验证与应用 - 在企业级应用中显著提升法律合同审查、学术论文综述等场景效率，可一次性输入400页合同或约10万字博士论文并保持逻辑连贯性与细节准确性 [2] - 在开发者场景中支持大型代码库依赖分析、技术文档解析及检索增强生成任务，解决旧版偶发的死循环输出或信息割裂问题 [2] - 处理接近上下文极限（约9%，即10万字级）输入时仍保持输出速度与准确性，支持持续数小时长对话场景，为智能客服等交互系统提供技术支撑 [2] 编程能力突破 - 在Aider Polyglot多语言编程基准测试中以71.6%得分超越Claude Opus 4，成为开源模型中表现最佳的非推理模型之一，且推理速度更快 [4] - SWE代码修复测试与Terminal-Bench终端任务表现显著提升，Python与Bash代码生成准确率达60%，较V3版本提升数个百分点 [4] - 支持复杂工程化开发，包括使用p5.js编写含重力与碰撞检测的交互程序、Three.js构建三层粒子星系系统，以及全栈开发中一次性生成800行无错误代码 [5][6] 成本优势与市场影响 - 完成典型编程任务平均成本仅1.01美元，为闭源模型的1/68，对中小企业开发流程具有颠覆性意义 [7] - "开源模型+高性能+低成本"组合打破编程工具市场现有格局，推动开发模式向本地化、高效率、低门槛方向演进 [7] 智能体能力增强 - 通过后训练优化提升工具使用与函数调用能力，支持代码编写、命令行操作及网络搜索整合实时信息，实现从顾问向工程师的角色升级 [8] - 原生支持Anthropic API格式，允许开发者直接复用Claude Code框架工具调用逻辑，降低生态迁移成本 [9] - Strict Mode函数调用在金融数据接口场景中格式准确率达99%，杜绝参数类型错误或字段缺失导致的调用失败 [10] 开发效率优化 - 工具调用模板库减少80%的Prompt工程工作量，平均接入时间从2天缩短至1天，效率提升50% [11] - 通过搜索Token与思考Token支持内部推理步骤拆分，使智能体自主规划工具调用顺序，减少人工干预环节 [12] 编程与搜索智能体 - 企业用户报告典型编程任务成本约1美元，远低于闭源竞品近70美元水平，且在创意开发中可复现Chrome断网小恐龙游戏核心功能 [14] - 搜索智能体在browsecomp复杂搜索测试与HLE多学科专家级难题测试中大幅领先前代版本，强化多步推理与跨领域知识整合能力 [14] - 在企业DevOps流程中自动化生成部署脚本，端到端任务成本仅为使用Claude-3.5的1/30，代码调试场景成本为传统专有系统的1/60 [15] API定价与成本效率 - API输入价格调整为缓存命中时0.5元/百万tokens、未命中时4元/百万tokens（此前V3为2元/百万tokens），输出价格为12元/百万tokens（此前V3为8元/百万tokens） [16] - Token效率提升20%-50%且推理速度达60 TPS，有效抵消价格调整影响，整体性价比保持行业领先 [17]

Large Language Model

Artificial Intelligence

Large Language Model

Artificial Intelligence