Workflow
Shortcut
icon
搜索文档
那些超出想象的AI Agent
36氪· 2025-07-15 11:41
智能体技术发展现状 - WebSailor智能体通过交叉验证快速锁定冷门问题答案 展示出强大信息处理能力[2] - Shortcut智能体在10分钟内完成Excel世锦赛级别金融建模题 准确率超80% 比人类快10倍[3][6] - Agentforce智能体在外贸领域达成50%成单率 自2024年上线以来成单超过8000单[9][11] 智能体行业应用突破 - Shortcut支持自然语言指令交互 能处理5000行CSV数据分析 金融建模和数据可视化等复杂任务[6] - Agentforce实现7×24小时并发处理数千条对话 将人工坐席数减少30-60% 通过情感分析调整话术提升转化率[11][12] - Polaris医疗智能体诊断准确率超99% 远高于美国注册护士81%的平均水平 患者满意度达8.95/10[14][17] 智能体技术优势 - Agentforce训练语料横跨17种语言 涵盖74万份Salesforce官方文档 依托200-300PB行业级数据湖降低幻觉风险[12] - Polaris采用多智能体协同工作机制 三个Agent分别负责实验室数据检索 用药史核对和综合分析生成建议[16] - Shortcut克服传统AI模型数据处理量限制 完美避开幻觉输出痛点 能像经验丰富的分析师一样快速理解任务需求[6] 智能体市场表现 - Polaris在超过185万次真实患者互动测试中 临床准确率高达99.38% 已获得FDA认可的医疗AI专利[17] - Shortcut能挽救财务人员近一周的工作量 尽管仍存在复杂函数作图出错的可能 但能有效解决信息整理工作[7] - Agentforce签单金额动辄七位数美元级 这些大单如果由人工签下提成起码四位数起[11] 智能体发展前景 - 智能体正从概念走向实用 从实验室走进日常工作生活 成为各领域专业人士的得力助手[19] - 未来每个人可能拥有多个智能体作为助手 包括Agent导师 Agent秘书 Agent医生和Agent伙伴等[20] - 智能体通过弥补人类在效率 记忆力和计算能力上的局限 扩展人类认知边界 成为人类能力的一部分[19][20]
腾讯研究院AI速递 20250707
腾讯研究院· 2025-07-06 14:05
Grok 4性能突破 - Grok 4在HLE测试中得分45%,超越Gemini 2.5 Pro和Claude 4 Opus [1] - 采用"第一性原理"构建推理机制,从基本公理层面分析问题 [1] - 将分Grok 4和Grok 4 Code两个版本,强化编码能力,预计7月4日后发布 [1] Gemini CLI功能升级 - 新增音视频输入功能扩展多模态交互能力,目前支持文本/图片/PDF处理 [2] - 增强Markdown功能并集成VSCodium/Neovim编辑器,提升开发体验 [2] - 技术栈升级至Ink 6和React 19,优化历史记录压缩算法提高性能 [2] 昆仑万维奖励模型 - Skywork-Reward-V2系列刷新七大评测榜单,参数规模6亿至80亿 [3] - 采用两阶段迭代数据甄选流水线,从4000万样本筛选2600万高质量数据 [3] - 1.7B小参数模型性能接近70B大模型,证明高质量数据可抵消参数限制 [3] DeepSeek R1开源进展 - 德国TNG开源DeepSeek-TNG-R1T2-Chimera模型,基于三大模型混合开发 [4] - 推理效率比R1-0528提升200%,降低推理成本且主流测试表现更优 [5] - 创新AoE架构利用MoE细粒度结构,通过权重插值优化子模型性能 [5] Excel Agent技术突破 - Shortcut成为首个超越人类的Excel Agent,10分钟解决世锦赛难题 [6] - 功能兼容性近乎完美,可处理金融建模/数据分析/像素艺术等复杂任务 [6] - 早期预览阶段存在格式化弱/长对话不佳/复杂数据易宕机等局限 [6] Sekai视频数据集 - 上海AI Lab开源5000+小时第一人称视频,覆盖101国750城 [7] - 分为真实世界Sekai-Real和虚拟场景Sekai-Game,含多维标签 [7] - 基于数据训练Yume模型支持键鼠控制视频生成,助力视频研究 [7] 医疗AI突破 - ChatGPT识别MTHFR A1298C基因突变,被称为医疗界AlphaGo时刻 [8] - 微软MAI-DxO系统诊断NEJM病例准确率85%,是医生的四倍 [8] - 医疗AI正成为全流程解决方案,开启AI+医生共治模式 [8] 上下文工程兴起 - 上下文工程取代提示工程成为AI智能体成功关键因素 [9] - 关注为LLM提供完整系统包括指令/历史/工具等全方位信息 [9] - 智能体失败多因上下文问题而非模型本身 [9] AI重塑市场调研 - 生成式AI将1400亿美元传统调研转变为持续动态竞争优势 [10] - AI原生公司构建"虚拟社会"模拟用户行为,实现实时低成本调研 [10] - CMO认为70%准确率+实时更新比传统方式更具商业价值 [10] 企业AI创业趋势 - 企业级AI需解决真实环境中用户行为不可预测等"最后一公里"问题 [11] - 顶尖AI公司年增长率达10倍以上,受益于采购行为变革 [11] - 通过数据权威/工作流锁定/垂直整合等方式构建竞争壁垒 [11]
10分钟搞定Excel世锦赛难题!首个超越人类Excel Agent,网友:想给它磕一个
机器之心· 2025-07-04 02:36
AI工具Shortcut的核心功能 - 号称「第一个超越人类的Excel Agent」,能一次性完成大多数Excel知识工作任务,在10分钟内解决Excel世界锦标赛复杂案例,准确率超80%,效率比人类快10倍[3] - 具有与Excel近乎完美的功能兼容性,可直接编辑、导入和导出文件,能处理复杂金融建模任务如构建多标签预估上限表、分析5000行CSV数据生成图表等[4][6] - 具备创造性功能如生成像素艺术,演示案例显示可按照提示词创建50x50像素的尤达大师图像,通过设置像素网格和色彩阴影处理实现[5] 产品实测表现 - 界面分为Excel表格区和聊天区,支持上传原始文件或新建文档,通过自然语言指令操作如计算总分、分析题型得分分布等[11][12][13] - 在高考语文成绩分析测试中,准确计算出5款大模型总分及相对于满分的百分比(如Doubao模型现代文阅读得分率73.68%),但遗漏了生成条形图等可视化要求[15][16][17][18] - 处理复杂任务时出现系统过载情况,早期访问阶段因高需求导致服务中断,多次尝试仍无法响应[22][23] 市场定位与发展前景 - 瞄准Excel复杂性和易出错痛点,解决传统表格处理中耗时耗力的金融建模、数据分析等专业需求[27] - 目前处于早期预览阶段,用户可通过X平台获取邀请码或使用谷歌邮箱登录获得3次免费体验[7][8] - 虽然展示出处理基础表格任务的可靠性,但在复杂场景响应和可视化功能完整性上仍需优化,距离成熟产品尚有差距[26][27]