Workflow
Grok 3 Mini
icon
搜索文档
马斯克新模型性价比拉满:1折价格实现Gemini 2.5性能,支持2M上下文
量子位· 2025-09-21 13:29
产品发布与核心特性 - xAI推出新一代多模态推理模型Grok 4 Fast 支持2M上下文窗口并与X平台无缝集成[1][3] - 模型具备智能搜索能力 可实时浏览网页和X平台 处理图像、视频等多种媒体内容并快速整合分析结果[21][22] - 采用端到端工具使用强化学习训练 擅长判断调用代码执行或网页浏览等工具时机[20] - 通过统一架构设计 同一组模型参数可处理长链思维推理和快速响应非推理任务 显著降低延迟与Token成本[24][25] 性能表现与基准测试 - 在推理基准测试中全面超越Grok 3 Mini 平均思考Token数量较Grok 4减少40%[11][12] - 在Artificial Analysis"人工分析智能指数"榜单中呈现业界领先的"价格-智能"比[14] - 文本竞技场排名第8 性能与grok-4-0709相当 同体量模型中表现最优(其他同类模型排名均在第18位及以下)[17] - 搜索竞技场以1163分强势登顶 较第二名o3-search领先17分[18] - 在BrowseComp测试中达44.9%(Grok 4为43.0%) BrowseComp中文测试达51.2%(Grok 4为45.0%)[23] 定价策略与市场定位 - 实现1折价格追平Gemini 2.5 树立性价比新标杆[10] - 输入Token定价为每百万Token 0.20美元(<128k tokens)或0.40美元(≥128k tokens) 输出Token定价为每百万Token 0.50美元或1.00美元[27] - 缓存输入Token定价为每百万Token 0.05美元[27] - 已面向所有用户开放 Auto模式下复杂查询将自动调用该模型[26] 技术团队与人才储备 - 从谷歌挖角关键人才Dustin Tran 其曾助力谷歌Gemini获得IMO、ICPC金牌[28] - Dustin Tran为谷歌DeepMind工作8年的高级研究科学家 深度参与Gemini系列研发 推动模型在LMSYS排行榜首次登顶[30] - 学术论文被引用超过24281次 h-index达47 i10-index达60[31][34]
AI版华尔街之狼,o3-mini靠「神之押注」狂赚9倍,DeepSeek R1最特立独行
36氪· 2025-08-18 06:58
核心观点 - 全新基准测试Prophet Arena通过预测真实世界事件评估AI的预言能力 该测试结合市场共识、自动化预测和信息整理 旨在衡量AI在不确定性推理、信息整合和概率预测方面的表现 [1][9][10] 基准测试设计 - Prophet Arena从Kalshi和Polymarket等预测市场平台选取热门周期性真实事件作为考题 包括政治、体育、经济等多个领域 [12][13] - 测试流程分为情报收集、提交预测和结果揭晓三个阶段 AI需利用搜索引擎整理情报简报并提交概率分布报告 [14][15][16] - 评估指标采用Brier分数(衡量准确度和校准度)和模拟投注平均回报 并引入项目反应理论和广义Bradley-Terry模型等高级统计方法 [18] AI模型表现对比 - 在2025年降息次数预测中 GPT-5预测精确2次降息概率43% Grok 3 Mini为40% Gemini 2.5 Flash预测恰好1次降息概率35% [4] - 关于经济衰退预测 o3 Mini认为不会衰退概率90% GPT-5为60% [4] - 在NBA冠军预测中 Gemini 2.5 Flash预测凯尔特人2027年前再次夺冠概率95% Llama 4任性版为85% [4] - OpenAI的o3-mini模型在平均回报指标上名列前茅 例如在美职足比赛中通过识别市场定价偏差实现单笔投注9倍回报 [40][42][43] 预测行为特征 - AI模型表现出明显风险偏好差异 例如在AI监管立法预测中 Qwen3给出75%概率而Llama 4 Maverick仅35% 远高于市场25%的共识 [35][36] - 高回报预测常出现在Brier分数0.3-0.5区间 主要来自体育比赛爆冷 例如温网比赛中AI通过识别84%市场胜率与80%实际评估的微小差异实现6倍回报 [22][23][25][27] - 模型间预测差异显著 DeepSeek R1与其他模型L2距离持续高于0.7 而Grok-4与GPT-5的L2距离通常低于0.3 显示算法校准机制差异 [46][47][48] 预测市场数据 - Polymarket平台显示 NVIDIA被72%预测为2025年底最大公司 Microsoft为20% [13] - Google在8月底最佳AI模型预测中获93%支持率 OpenAI仅3% [13] - 特斯拉2025年推出无人驾驶Robotaxi服务预测概率67% [13] - 美联储9月降息25bps概率74% 维持利率概率24% [13]
Microsoft CTO says the number of people using AI agents doubled in the last year
Business Insider· 2025-05-19 20:30
微软开发者大会聚焦Agentic AI - 微软在Build开发者大会上将Agentic AI作为核心主题 公司CTO Kevin Scott指出过去一年AI代理数量呈现爆发式增长 [1] - 微软监测范围内的各类AI代理日活跃用户数相比去年Build大会期间增长超过100% [1] - 科技行业高管普遍将2025年视为Agentic AI元年 微软在会上对该术语进行了明确定义 [2] Agentic AI技术特性与发展 - 微软定义的AI代理是"人类可委托任务的实体" 当前仍处于早期阶段 存在推理能力瓶颈但将持续改进 [3] - 预计未来12个月内AI代理将实现能力提升与成本下降的双重突破 [3] - OpenAI CEO Sam Altman强调Codex代理实现"真正的软件工程任务委托" 称这是编程领域前所未有的变革 [7] 微软产品线技术升级 - 推出Azure SRE代理整合至GitHub Copilot 旨在解决开发者夜间处理网站故障等痛点 [5] - GitHub Copilot升级为完整编码代理 可自主处理问题分配、缺陷修复、功能开发等任务 [6] - 发布Copilot Tuning功能 支持企业利用自身数据创建具有组织知识特征的AI代理 [10] 生态系统合作与模型扩展 - 宣布通过Azure集成xAI的Grok 3及Grok 3 Mini模型 埃隆·马斯克参与讨论技术应用 [9] - 演示Windows/Office/Azure等平台的新AI功能 致力于构建开放的规模化"代理网络" [4] - 与OpenAI、Nvidia等AI领军企业高管进行虚拟联动 展示行业协同效应 [6][9] 生产力提升案例 - OpenAI内部测试显示Codex使用者的工作流效率显著提升 产出量呈现数量级差异 [8] - 微软CEO以罕见病诊断加速和健康应用开发为例 说明AI代理创造的实际价值 [11]