Workflow
AI Agent
icon
搜索文档
红杉中国正式开源AI基准测试xbench评测集
快讯· 2025-06-18 00:37
红杉中国开源AI基准测试工具xbench - 红杉中国于6月18日正式开源其AI基准测试工具xbench的两个评测集xbench-ScienceQA和xbench-DeepSearch [1] - 公司表示未来将基于大模型和AI Agent的发展情况动态更新评测集 [1] - 采用"黑白盒"机制以服务更多大模型和Agent开发者并避免静态评测集的过拟合问题 [1] - 目标是通过动态更新确保xbench工具的长期有效性 [1]
腾讯研究院AI速递 20250618
腾讯研究院· 2025-06-17 15:40
一、DeepSeek-R1在编程领域表现优异 - DeepSeek-R1在LMArena榜单中整体排名第6,是开源模型中的第一名,编程测试排名第2 [1] - 在WebDev Arena网页编程竞赛中,DeepSeek-R1与Claude Opus 4并列第一,分数超过Claude Opus 4 [1] - 该模型在MIT开源协议下提供领先性能,标志着开源AI在编程领域达到与顶级闭源模型相当水平 [1] 二、MiniMax开源高效推理模型MiniMax-M1 - MiniMax-M1仅用380万元、3周时间训练完成,支持100万token输入和8万token输出,生成效率是DeepSeek-R1的4倍 [2] - 采用Lightning Attention混合架构和CISPO强化学习算法,训练效率提升2倍 [2] - 在多项基准测试中表现可比或超越DeepSeek-R1、Qwen3等开源模型,在工具使用和软件工程任务上甚至超越OpenAI o3和Claude 4 Opus [2] 三、Kimi发布开源代码模型Kimi-Dev - Kimi-Dev仅72B参数,在SWE-bench Verified中取得60.4%成绩,成为开源SOTA [3] - 核心设计融合BugFixer和TestWriter双角色,通过自我博弈协调bug修复与测试编写能力 [3] - 以Qwen2.5-72B为基础模型,利用GitHub数据中期训练和强化学习优化,采用MIT协议完全开源 [3] 四、阿里开源Qwen3全系列MLX量化模型 - 阿里开源32款Qwen3全系列MLX量化模型,每款提供4bit、6bit、8bit和BF16四种精度版本 [4] - MLX框架使Mac、iPad及iPhone均可部署Qwen模型,已在魔搭社区和Hugging Face开源 [5] 五、腾讯元宝上线AI编程模式 - 腾讯元宝电脑版使用DeepSeek V3模型,通过@AI编程指令实现一句话写代码功能 [6] - 支持双栏展示界面,左侧提需求右侧实时显示代码,支持HTML即时预览和多种语言在线运行 [6] - 适用于教学辅助、亲子编程、开发辅助等场景,可生成网页、图表、游戏等多种应用 [6] 六、松下发布多模态大模型OmniFlow - OmniFlow支持文本到图像、文本到音频、音频到图像等多种模态间任意转换生成任务 [7] - 采用模块化设计理念,各组件可独立预训练后灵活合并微调,提高训练效率和模型扩展性 [7] - 在MSCOCO-30K等基准测试中表现优异,文本到图像任务FID值显著降低 [7] 七、13岁少年创立AI智能体公司FloweAI - FloweAI开发通用AI智能体,可完成PPT制作、文档撰写、航班预订等任务 [8] - 支持网页端使用,免费用户每月10次任务,付费105元可无限使用并解锁高级功能 [8] - 已吸纳大学生加入团队,创始人设定月入1万美元目标并寻找联合创始人 [8] 八、中科院研制超高并行光计算芯片"流星一号" - "流星一号"首次实现超100并行度光子计算,50GHz主频下理论峰值算力达2560TOPS [10] - 通过波分复用技术和孤子微梳源提供超百波长信道,算力提升2个数量级 [10] - 未来单芯片算力有望突破5000POPS [10] 九、Django创始人警告AI Agent三大致命威胁 - AI Agent存在"致命三重威胁":访问私人数据、暴露于不可信内容、具备外部通信能力 [11] - 攻击者可诱导其窃取用户数据并外泄,LLM会遵循任何输入内容中的指令而无法判断来源可信度 [11] - 目前缺乏100%可靠的防范措施,用户需主动避免"致命三重威胁"组合以确保安全 [11] 十、Anthropic公开Claude深度研究功能构建细节 - Claude采用"指挥家-演奏家"多智能体架构,性能比单智能体高出90.2%但token消耗达15倍 [12] - 系统包含主智能体负责规划分解任务、子智能体并行执行、外部记忆存储和引用智能体验证 [12] - 总结提示工程八大原则和评估三大原则,需解决状态累积、调试困难、部署协调等可靠性挑战 [12]
憋大招,MiniMax发布全球首个混合架构开源模型M1 能后来者居上吗?
每日经济新闻· 2025-06-17 15:01
模型技术突破 - 公司发布全球首个开源大规模混合架构推理模型MiniMax-M1,具备百万Token级长文本处理能力,上下文窗口达100万Token,与谷歌Gemini 2.5 Pro持平,是DeepSeek-R1的8倍 [1][4] - 模型采用独创"Lightning Attention"混合架构,显著优化长文本计算效率,传统Transformer模型计算量随序列长度呈平方级增长的问题得到解决 [6] - 强化训练成本下降一个量级至53万美元,推理效率数倍于竞争对手 [1] 定价策略 - 采用分档定价策略:0-3.2万Token档输入0.8元/百万Token、输出8元/百万Token;3.2万-12.8万Token档输入1.2元/百万Token、输出16元/百万Token;12.8万-100万Token档输入2.4元/百万Token、输出24元/百万Token [4] - 前两档定价低于DeepSeek-R1,第三档为独家覆盖领域,自有平台App和Web端保持不限量免费使用 [4] 算法创新 - 提出CISPO算法(Clipped IS-weight Policy Optimization),通过裁剪重要性采样权重优化强化学习效率和稳定性,替代传统PPO/GRPO裁剪方式 [6] - 该算法未采用调整Token更新方式,而是另辟蹊径提升训练和推理成本效益 [6] 行业竞争格局 - 行业呈现技术快速迭代态势:阿里开源Qwen3参数量仅为DeepSeek-R1的1/3,百度文心大模型4.5 API价格仅为GPT-4.5的1% [7] - 专家认为基础模型仍有较大优化空间,算法突破方向将决定下一代科技巨头归属 [10] 公司战略方向 - 明确"加速技术迭代"为现阶段核心目标,结束半年战略摇摆期,将增长和收入目标置于技术突破之后 [8] - 2023年完成品牌整合(海螺AI更名MiniMax),2024年连续发布文本/视觉/语音多模态模型(01系列/VL-01/Speech-02) [8][9] - 布局AI Agent赛道,认为2025年将是关键发展节点,开源策略旨在促进长上下文研究和应用创新 [9] 商业化布局 - 采取B端+C端双线布局,覆盖国内外市场,在保持技术攻坚的同时推进商业化 [9] - 计划开展"开源周"活动,连续4个工作日发布新技术或产品更新 [10]
xbench评测集正式开源
红杉汇· 2025-06-17 13:27
开源AI基准测试xbench - 红杉中国正式开源xbench的两个评测集xbench-ScienceQA和xbench-DeepSearch,旨在量化AI系统在真实场景的效用价值并采用长青评估机制[1] - xbench-ScienceQA聚焦STEM学科,包含数学、物理、化学等8个主流学科,题目平均正确率仅32%,其中34%题目正确率低于20%[2][5][12] - xbench-DeepSearch专注评估AI Agent的深度搜索能力,要求综合运用规划+搜索+推理+总结的端到端能力,弥补中文语境搜索题库不足的弱点[3] 评测集特点 xbench-ScienceQA - 题目来源:邀请顶级院校博士和行业专家出题,确保来源可靠、多学科、搜索引擎未收录且答案明确[2] - 题型分布:包含77道问答题、14道多选题和9道单选题,降低模型"蒙对"概率[8] - 难度控制:采用LLM难度检验、同行检验等方式,实测不同模型得分差距超30%[2][10] xbench-DeepSearch - 题目设计:要求搜索空间大或推理步骤多,淘汰正确率>80%的题目[13][14] - 主题覆盖:参考OpenAI BrowseComp分类,确保多样性,涵盖历史、科技等方向[15] - 更新机制:每月汇报模型表现,每季度更新评估集,内部维护黑盒版本防止刷榜[3] 例题分析 ScienceQA示例 - 计算机题示例:考察图论单源最短路算法,正确答案为O(m√(log n·log log n)),被测模型平均正确率<5%[21][22] - 化学多选题:涉及物质结构最新研究成果,采用"全对才得分"评分方式,平均正确率<20%[24][26] DeepSearch示例 - 广度搜索题:计算东北三省接壤外国的地市数量,需跨省份数据整合,平均正确率47%[28][29] - 深度推理题:统计尼米兹级航母建造期间总统海军服役年限,侧重分步推理,正确率33%[29][30] 行业影响 - 填补高质量Agent评测集空白,动态更新机制适应AI技术快速迭代[3][31] - 开源模式吸引全球开发者参与,推动AI评估标准进化[1][33]
如何破解AI落地难题?与16位实战派对谈,把“别人的作业”变成你的路线图!
虎嗅APP· 2025-06-17 13:12
核心观点 - AI在零售消费行业已实现显著业务重构,如交个朋友通过AI智能选品实现GMV翻倍,叮咚买菜利用AI算法将损耗率控制在1.5%,物美AI样板间销售额增长5倍[4] - 多数企业仍处于AI落地观望期,面临"怕被割韭菜"与"怕落后"的矛盾心理,需通过一线实战案例破解落地难题[5] - AI落地研学营聚焦实战方法论,覆盖零售消费全链条场景,包括选品、供应链、营销服等,提供可复制的技术方案与ROI验证[6][7][12] 行业应用案例 - **直播电商**:交个朋友通过AI中控台实时优化流量分配,单场GMV突破千万[6] - **生鲜电商**:叮咚买菜前置仓采用AI算法管理400万品类组合,端到端损耗率压至1.5%[4][6] - **新质零售**:物美AI样板间实现选品、补货、出清全生命周期智能管控,销售额增长5倍[4][6] 技术落地方向 - **AI Agent应用**:智谱AI解析大模型技术底座到场景闭环构建,飞书AI提供协同零售的Agent趋势洞察[6] - **营销服一体化**:网易云商展示Agent实践,解决"AI如何帮企业赚钱"问题[6] - **供应链柔性化**:智能蜀海供应链构建消费者导向的全链路数字化方案,柠季分享AI全球化供应链实践[7] 研学营价值 - **实战内容**:1.5天高强度参访+案例推演,覆盖12家标杆企业如爱慕、特赞科技等,拆解智能客服、爆品预测等20+场景[7][9][12] - **资源网络**:提供30位CEO/CTO同行机会、头部甲方对接、50+AI案例报告及峰会门票[12] - **区域主题**:北京聚焦AI Agent颠覆效应(6月),杭州探讨营销服一体化(7月),上海主攻智能供应链(9月),北京研究AI组织文化(11月)[13] 目标受众 - **零售企业决策者**:解决库存压力、人力成本失控问题,明确AI落地切入点[9] - **数字化服务商**:破解技术能力与商业需求错位困局,直击甲方真实需求[9] - **产业观察者与投资人**:捕捉AI改造传统行业的早期信号与价值洼地[9]
第四范式(06682):2025Q1业绩超预期,Agent业务高歌猛进带动公司进入高速增长轨道
海通国际证券· 2025-06-17 11:33
报告公司投资评级 - 维持“优于大市”评级,给予公司2025年6倍PS估值,对应目标价为90.84港元 [4] 报告的核心观点 - 宏观承压下公司25Q1营收增速逆势高速增长,Agent加持下业务凸显,全年转盈趋势确定,2B+2C双轮驱动下长期增长可期 [1] - 预测公司2025 - 2027年营收为68.84/88.63/112.76亿元;EPS为0.11/0.56/1.19元 [4] 根据相关目录分别进行总结 财务摘要 |项目|2022A|2023A|2024A|2025E|2026E|2027E| |----|----|----|----|----|----|----| |营业收入(百万元)|3,087.63|4,206.95|5,260.65|6,883.82|8,862.78|11,275.54| |(+/-)%|52.73%|36.38%|25.13%|30.85%|28.75%|27.22%| |毛利润(百万元)|1,486.65|1,979.55|2,244.83|2,925.62|3,811.00|4,904.86| |净利润(百万元)|-1,644.90|-908.72|-268.79|51.96|277.74|589.43| |(+/-)%|7.88%|44.76%|70.42%|119.33%|434.56%|112.22%| |PE|-|-17.93|-87.84|435.26|81.43|38.37| |PB|-|4.37|4.69|4.42|4.18|3.77|[3] 业绩表现 - 2025Q1营收10.77亿元,同比+30.1%;毛利润4.44亿元,同比+30.1%;毛利率41.2%;标杆用户数达59个,标杆用户平均营收1167万元,同比+31.3% [4] - 2025Q1先知AI平台营收8.05亿元,同比+60.5%;SHIFT智能解决方案业务营收2.12亿元,同比 - 14.9%;式说AIGS服务业务营收为0.6亿元,同比 - 22.0% [4] 业务发展 - 2025Q1先知AI平台推出AI Agent全流程开发平台,企业级Agent已在超14个行业落地 [4] - 公司升级为范式集团,成立消费电子板块Phancy,实现2B+2C双轮驱动 [4] 可比公司估值 |股票代码|股票简称|收盘价(元)|市值(亿元)|营业收入(亿元)|PS(倍)| |----|----|----|----|----|----| | | | | |2024A|2025E|2026E|2025E|2026E| |688207|格灵深瞳|13.61|35|1.17|-|-|-|-| |688088|虹软科技|43.70|175|8.15|10.02|12.51|17|14| |0268.HK|金蝶国际|12.46|406|62.56|71.88|82.81|6|5| |CRM.N|Salesforce|283.42|2725|378.95|413.20|453.26|7|6| | | |平均值| | | | |10|8|[6]
在中国做AI难,做AI Agent容易
36氪· 2025-06-16 23:39
核心观点 - AI Agent在中国市场具有独特发展优势,相比基础大模型研发更易实现商业化落地 [1][9][16] - AI Agent从"数字助理"升级为"数字员工",实现从"回答问题"到"解决问题"的价值跃迁 [6][7] - 中国企业在AI Agent领域具备三大优势:应用场景丰富、数字基础设施完善、政策支持力度大 [10][13][14] AI Agent技术架构 - 感知模块:通过API/传感器接收数字/物理环境信息 [4] - 决策模块:基于知识库和推理能力规划行动路径 [4] - 行动模块:调用API/操作软件实现外部交互 [5] - 学习模块:通过任务执行持续优化知识库和决策模型 [5] 商业价值体现 - 实现业务流程自动化,半小时完成传统需半日的工作量 [2][3] - 商业模式从SaaS升级为RaaS(结果即服务),直接挂钩企业降本增效需求 [7][8] - 典型应用场景包括电商运营、医疗健康、交通管理等垂直领域 [14] 中国市场特点 - 训练GPT-4级大模型需数十亿至上百亿人民币成本,仅少数巨头可参与 [9] - 拥有全球最活跃的数字经济生态,为AI Agent提供复杂训练场景 [10] - 移动支付/物流网络/云服务等基础设施支持端到端任务闭环 [13] - 政府推动"人工智能+"行动,创造大量政策支持的市场需求 [14] 行业格局 - 互联网巨头通过Agent整合内部服务生态(如阿里"通义千问") [14] - 垂直领域创新企业分三类:深入实体(中科视语)、深耕行业(卓世科技)、平台赋能(斑头雁) [14][15] - 采用开源模型+场景微调的技术路径更符合中国企业特点 [11][12]
蚂蚁搭上稳定币的快车
华尔街见闻· 2025-06-16 13:03
公司动态 - 蚂蚁数科已启动申请香港稳定币牌照 并与监管进行多轮沟通[2] - 蚂蚁国际计划在新加坡和香港申请稳定币牌照 将在通道开启后提交申请[2] - 蚂蚁数科将香港列为全球总部 并完成监管沙箱先行先试[2] - 蚂蚁国际与德银合作 借助代币化技术和AI外汇技术提供跨境支付解决方案[5] - 蚂蚁国际旗下Antom和万里汇将参与拓展全球商户支付服务[5] 行业趋势 - 沃尔玛 亚马逊等巨头考虑发行自有稳定币[2] - 香港《稳定币条例》通过使稳定币从灰色资产转为合规金融工具[3] - 稳定币交易量达28万亿美元 超过Visa和Mastercard[4] - 渣打预测未来四年稳定币供应量将增长10倍 年吸纳4000亿美债[4] - 稳定币可能占外汇现货市场交易量的10%(目前约1%)[4] 技术特性 - 稳定币锚定法币(如美元 港币)保持1:1兑换率[3] - 相比传统加密货币 稳定币具备支付媒介 流通单位和金融工具多重功能[3] - 稳定币可实现跨国即时转账 大幅降低3-5天的传统银行结算时间[3] - 稳定币能激活16万亿美元的现实世界资产通证化(RWA)市场[5] 战略布局 - 蚂蚁国际将稳定币定位为全球资金流动基础设施[5] - 蚂蚁数科以香港为支点 推动稳定币在现实资产交易中的应用[5] - 通过稳定币布局链上债券 货币基金等业务 搭建传统与去中心化金融桥梁[5] - 稳定币将成为AI Agent经济中最基础的流通工具[6] - 蚂蚁计划构建支付到资产流通的全链条闭环生态[6]
字节打响Agent基建之战
华尔街见闻· 2025-06-16 12:56
字节跳动AI战略布局 - 公司正押注AI Agent作为新一代技术范式,试图通过换道超车实现技术突破 [1] - 火山引擎发布豆包大模型1.6系列,综合成本降低63%,支持256K上下文处理能力 [8][10] - 公司CEO梁汝波明确表态将长期投入AI技术研发,追求智能突破与产业应用结合 [1] AI Agent行业趋势 - AI Agent被视为继PC时代的Web、移动时代的APP后的下一代技术主体 [1][5] - IDC预测2025年将成为中国Agent落地元年,图像/视频类大模型调用量将显著增长 [6] - Agent技术将重构互联网入口格局,传统超级App可能面临边缘化风险 [3] 字节技术产品进展 - 豆包1.6系列包含三个版本,其中thinking模型在GPQA测评集达81.5分,达到国际第一梯队水平 [8][9] - 视频生成模型Seedance 1.0 pro价格低至3.67元/5秒视频,性能登顶全球榜单 [10] - 实时语音模型全量开放,AI云原生服务新增MCP、PromptPilot等工具链 [10][11] 云计算市场竞争格局 - 火山引擎在大模型调用量市场占比46.4%,但整体云计算市场尚未进入第一梯队 [4] - 公司通过价格战策略将大模型成本降至"厘时代",日均tokens调用量达16.4万亿 [13][14] - 2024年火山引擎收入增速三位数,目标规模超百亿并实现翻倍 [16] 行业生态与挑战 - 公司发起V-START加速器计划,扶持AI初创企业弥补B端生态短板 [17] - Agent落地面临基础设施成本、多平台验证等瓶颈 [17] - 竞争对手包括阿里/腾讯等全栈布局大厂及智谱AI等创新公司 [18]
Anthropic 详述如何构建多智能体研究系统:最适合 3 类场景
投资实习所· 2025-06-16 11:51
多智能体系统核心观点 - 多智能体系统最适合三类场景:高价值并行任务、超出单上下文窗口的信息处理、需要操作多个复杂工具的情况 [1][5] - 多智能体系统通过并行工作实现高效信息压缩,子智能体同步探索问题不同侧面后浓缩关键信息传递给主智能体 [3] - 内部测试显示多智能体系统在广度优先查询中表现突出,Claude Opus 4为主智能体的系统比单智能体版本性能提升90.2% [4] - 多智能体系统通过合理分配计算资源解决问题,token用量单独解释80%的性能差异 [4] - 实际运行中多智能体系统消耗token量是普通聊天的15倍,需匹配任务价值与性能提升 [5] 多智能体系统优势 - 研究工作具有不可预测性,AI Agent能根据进展灵活调整方向,传统线性处理无法胜任 [3] - 信息检索的核心在于从海量数据中提炼洞察,子智能体通过并行工作实现高效压缩 [3] - 当智能水平达到阈值后,多智能体系统成为扩展能力的必由之路,智能体群体能实现远超个体的成就 [3] - 最新Claude模型显著提升token使用效率,Claude Sonnet 4的性能增益超过在Claude Sonnet 3.7上双倍token预算的效果 [4] 研究架构设计 - 系统采用协调器-工作者模式,首席智能体协调流程并委托给并行操作的专门子智能体 [6] - 与传统RAG静态检索不同,采用多步骤动态搜索:持续发现信息、适应新发现、分析结果形成高质量答案 [8] - 主智能体规划方法后将方案存入Memory,创建承担具体研究任务的子智能体独立执行网络搜索 [11] - 主智能体综合结果决定是否深化研究,必要时创建新子智能体或调整策略 [11] - 信息收集完成后传递给CitationAgent处理文档和研究报告,确保每个主张都有准确引用来源 [11] 工程挑战与解决方案 - 早期智能体常出现创建过多子智能体、无止境搜索、过度更新互相干扰等问题 [13] - 提示策略聚焦启发式规则而非僵化条款,编码专家工作模式到提示中并设置防护栏防止失控 [13] - 构建能够从错误位置恢复的系统,利用模型智能优雅处理问题 [16] - 添加完整的生产跟踪功能诊断智能体失败原因,监控决策模式和交互结构保护用户隐私 [19] - 采用彩虹部署逐步将流量从旧版本转移到新版本,避免中断正在运行的智能体 [19] 性能优化策略 - 主智能体并行启动3-5个子智能体,子智能体并行使用3个或以上工具,将复杂查询研究时间缩短高达90% [17] - 教会协调者如何授权,明确具体目标、输出格式、工具指南和任务边界避免重复工作 [17] - 根据查询复杂度调整工作量,将工作量分级规则嵌入提示词 [17] - 工具设计和选择至关重要,为智能体提供明确启发式方法匹配工具使用与用户意图 [17] - 先广后深策略:鼓励智能体先从简短宽泛查询开始,评估可用内容后逐步缩小范围 [17] 评估方法 - 传统评估假设系统遵循固定路径,多智能体可能通过不同有效路径达成目标 [14] - 需要灵活评估方法判断结果正确性及过程合理性,而非检查是否遵循预先规定步骤 [14] - 采用LLM评估器按标准打分(事实准确性、引用准确性等),与人类判断最一致 [18] - 人工评估补缺发现自动化评估遗漏的边缘情况,如非常规查询的幻觉答案等 [18] - 对修改持久状态的智能体进行最终状态评估而非逐轮分析 [22] 应用场景与价值 - 前五类用途包括:跨专业领域开发软件系统(10%)、专业技术内容开发优化(8%)、业务增长与营收战略制定(8%)等 [21] - 用户反馈帮助找到未曾考虑的商业机会,解决复杂医疗保健方案,节省数天工作时间 [20] - 通过精心工程设计、全面测试、注重细节的提示和工具设计实现大规模可靠运行 [20]