Shortcut - 财报，业绩电话会，研报，新闻

Shortcut

搜索文档

36氪· 2025-07-15 11:41

智能体技术发展现状 - WebSailor智能体通过交叉验证快速锁定冷门问题答案展示出强大信息处理能力[2] - Shortcut智能体在10分钟内完成Excel世锦赛级别金融建模题准确率超80% 比人类快10倍[3][6] - Agentforce智能体在外贸领域达成50%成单率自2024年上线以来成单超过8000单[9][11] 智能体行业应用突破 - Shortcut支持自然语言指令交互能处理5000行CSV数据分析金融建模和数据可视化等复杂任务[6] - Agentforce实现7×24小时并发处理数千条对话将人工坐席数减少30-60% 通过情感分析调整话术提升转化率[11][12] - Polaris医疗智能体诊断准确率超99% 远高于美国注册护士81%的平均水平患者满意度达8.95/10[14][17] 智能体技术优势 - Agentforce训练语料横跨17种语言涵盖74万份Salesforce官方文档依托200-300PB行业级数据湖降低幻觉风险[12] - Polaris采用多智能体协同工作机制三个Agent分别负责实验室数据检索用药史核对和综合分析生成建议[16] - Shortcut克服传统AI模型数据处理量限制完美避开幻觉输出痛点能像经验丰富的分析师一样快速理解任务需求[6] 智能体市场表现 - Polaris在超过185万次真实患者互动测试中临床准确率高达99.38% 已获得FDA认可的医疗AI专利[17] - Shortcut能挽救财务人员近一周的工作量尽管仍存在复杂函数作图出错的可能但能有效解决信息整理工作[7] - Agentforce签单金额动辄七位数美元级这些大单如果由人工签下提成起码四位数起[11] 智能体发展前景 - 智能体正从概念走向实用从实验室走进日常工作生活成为各领域专业人士的得力助手[19] - 未来每个人可能拥有多个智能体作为助手包括Agent导师 Agent秘书 Agent医生和Agent伙伴等[20] - 智能体通过弥补人类在效率记忆力和计算能力上的局限扩展人类认知边界成为人类能力的一部分[19][20]

腾讯研究院· 2025-07-06 14:05

Grok 4性能突破 - Grok 4在HLE测试中得分45%，超越Gemini 2.5 Pro和Claude 4 Opus [1] - 采用"第一性原理"构建推理机制，从基本公理层面分析问题 [1] - 将分Grok 4和Grok 4 Code两个版本，强化编码能力，预计7月4日后发布 [1] Gemini CLI功能升级 - 新增音视频输入功能扩展多模态交互能力，目前支持文本/图片/PDF处理 [2] - 增强Markdown功能并集成VSCodium/Neovim编辑器，提升开发体验 [2] - 技术栈升级至Ink 6和React 19，优化历史记录压缩算法提高性能 [2] 昆仑万维奖励模型 - Skywork-Reward-V2系列刷新七大评测榜单，参数规模6亿至80亿 [3] - 采用两阶段迭代数据甄选流水线，从4000万样本筛选2600万高质量数据 [3] - 1.7B小参数模型性能接近70B大模型，证明高质量数据可抵消参数限制 [3] DeepSeek R1开源进展 - 德国TNG开源DeepSeek-TNG-R1T2-Chimera模型，基于三大模型混合开发 [4] - 推理效率比R1-0528提升200%，降低推理成本且主流测试表现更优 [5] - 创新AoE架构利用MoE细粒度结构，通过权重插值优化子模型性能 [5] Excel Agent技术突破 - Shortcut成为首个超越人类的Excel Agent，10分钟解决世锦赛难题 [6] - 功能兼容性近乎完美，可处理金融建模/数据分析/像素艺术等复杂任务 [6] - 早期预览阶段存在格式化弱/长对话不佳/复杂数据易宕机等局限 [6] Sekai视频数据集 - 上海AI Lab开源5000+小时第一人称视频，覆盖101国750城 [7] - 分为真实世界Sekai-Real和虚拟场景Sekai-Game，含多维标签 [7] - 基于数据训练Yume模型支持键鼠控制视频生成，助力视频研究 [7] 医疗AI突破 - ChatGPT识别MTHFR A1298C基因突变，被称为医疗界AlphaGo时刻 [8] - 微软MAI-DxO系统诊断NEJM病例准确率85%，是医生的四倍 [8] - 医疗AI正成为全流程解决方案，开启AI+医生共治模式 [8] 上下文工程兴起 - 上下文工程取代提示工程成为AI智能体成功关键因素 [9] - 关注为LLM提供完整系统包括指令/历史/工具等全方位信息 [9] - 智能体失败多因上下文问题而非模型本身 [9] AI重塑市场调研 - 生成式AI将1400亿美元传统调研转变为持续动态竞争优势 [10] - AI原生公司构建"虚拟社会"模拟用户行为，实现实时低成本调研 [10] - CMO认为70%准确率+实时更新比传统方式更具商业价值 [10] 企业AI创业趋势 - 企业级AI需解决真实环境中用户行为不可预测等"最后一公里"问题 [11] - 顶尖AI公司年增长率达10倍以上，受益于采购行为变革 [11] - 通过数据权威/工作流锁定/垂直整合等方式构建竞争壁垒 [11]

生成式AI

上下文工程

Artificial Intelligence

Grok 4

Gemini CLI

DeepSeek-TNG-R1T2-Chimera模型

生成式AI

上下文工程

Artificial Intelligence

Grok 4

Gemini CLI

DeepSeek-TNG-R1T2-Chimera模型

10分钟搞定Excel世锦赛难题！首个超越人类Excel Agent，网友：想给它磕一个

机器之心· 2025-07-04 02:36

AI工具Shortcut的核心功能 - 号称「第一个超越人类的Excel Agent」，能一次性完成大多数Excel知识工作任务，在10分钟内解决Excel世界锦标赛复杂案例，准确率超80%，效率比人类快10倍[3] - 具有与Excel近乎完美的功能兼容性，可直接编辑、导入和导出文件，能处理复杂金融建模任务如构建多标签预估上限表、分析5000行CSV数据生成图表等[4][6] - 具备创造性功能如生成像素艺术，演示案例显示可按照提示词创建50x50像素的尤达大师图像，通过设置像素网格和色彩阴影处理实现[5] 产品实测表现 - 界面分为Excel表格区和聊天区，支持上传原始文件或新建文档，通过自然语言指令操作如计算总分、分析题型得分分布等[11][12][13] - 在高考语文成绩分析测试中，准确计算出5款大模型总分及相对于满分的百分比（如Doubao模型现代文阅读得分率73.68%），但遗漏了生成条形图等可视化要求[15][16][17][18] - 处理复杂任务时出现系统过载情况，早期访问阶段因高需求导致服务中断，多次尝试仍无法响应[22][23] 市场定位与发展前景 - 瞄准Excel复杂性和易出错痛点，解决传统表格处理中耗时耗力的金融建模、数据分析等专业需求[27] - 目前处于早期预览阶段，用户可通过X平台获取邀请码或使用谷歌邮箱登录获得3次免费体验[7][8] - 虽然展示出处理基础表格任务的可靠性，但在复杂场景响应和可视化功能完整性上仍需优化，距离成熟产品尚有差距[26][27]