Workflow
生成式UI
icon
搜索文档
高德,千问的第一块实体拼图
虎嗅APP· 2025-12-18 11:33
阿里AI to C战略与千问接入高德的意义 - 公司宣布千问APP接入高德,标志着阿里生态全线接入AI助手的开始,是其AI to C战略的重要一步[2] - 此举表明大模型智力竞赛进入落地期,市场焦点转向应用,阿里的路径提供了一个值得关注的样本[2] “AI直连服务”的核心方案 - 公司的方案是“AI直连服务”,旨在将复杂的服务意图直接转化为行动,简化互联网交互[2] - 公司正将业务版图的多样能力转化为AI可调用的“原子化能力”,使千问成为更具实操感的AI管家[2] 基于阿里自身基因的差异化路线 - 公司是全球罕见的同时拥有自研模型和庞大服务履约网络的巨头[2] - 公司路线侧重于“Everything in One”,即把衣食住行等需求做成AI可调用的服务能力,与谷歌的“One in everything”(将AI接入自有应用)模式形成对比[2][23] - 路径差异源于资源禀赋:阿里从服务优势出发提升连接效率,谷歌从流量入口出发强化体验[3] 阿里的“关键行动”与持续投入 - 公司将千问与高德的协同视为一场“关键行动”,习惯以重点项目锻炼队伍、沉淀能力[4] - 在超大规模基建投入与自研模型取得进展后,公司已做好准备,高德接入可能只是互联网入口演变中的一环[4] 千问接入高德后的具体能力变化 - 千问通过高德每日千亿次调用的时空引擎,获得了对物理世界的“理解力”,能在真实城市规则和动态路况中求解可落地方案[6] - 传统App固定“壳子”正在消解,被“UI on Demand”(按需生成的界面)取代,实现了“生成式UI”,从“人找功能”变为“界面找人”[6][10] - 具体场景示例:用户提出包含路线、餐饮、预算的复杂需求,千问能瞬间“拼装”出复合交互卡片,提供避堵路线并筛选合适餐馆[6] - 具备“现实锚定”能力,可同时处理限行规则、实时路况、天气预报、空间距离、车型油耗/电量等多变量,为用户构筑动态时空方案[13][14] - 标志着AI正从“知道答案”进化为“解决问题”,利用高德作为物理世界“底座”重新封装复杂规则与零散服务[19] 阿里在Agent(智能体)路径上的差异化选择 - 全球科技巨头在Agent路径上分不同派系:Anthropic采用“视觉”路径(模拟人类操作屏幕),成本高且在复杂场景中脆弱[21] - 公司采用“原生闭环”路径,通过底层协议握手让AI直接接管服务总线,读取结构化、零延迟数据流,确保了执行的“确定性”[22] - 路径对比:OpenAI为“外接”路径(插件),灵活但执行权在外部;谷歌为谨慎集成,可能受制于创新者窘境;阿里为“原生闭环”,依赖自有生态深度[23] - 路径选择反映商业底色:谷歌策略是“One in everything”,防御性地将AI作为原有功能增强插件以守住流量阵地;阿里逻辑是“Everything in One”,生态由真实交易和履约网络构成,流量入口不重要,重在生态内闭环履约[23][24] - 公司是全球罕见的同时拥有“大脑”(模型智力)与“四肢”(履约网络)的玩家,千问接入高德是接管了一个能实时调动城市资源的系统[24] - 真正具备竞争力的将是能直接调度基础设施的“重装兵团”,而非模仿人点鼠标的“数字影子”[25] 高德接入的战略意义与未来展望 - 2025年市场对AI的期待已从“智商”转向“执行力”,千问接入高德标志着执行力革命进入“地面战争”[27] - 选择高德作为第一块拼图,是因为地理位置是物理世界的唯一锚点,所有线下履约都绕不开空间坐标[27] - 高德为千问提供了高精度现实映射,但这仅是阿里庞大“服务总线”上的第一个接口[27] - 未来,公司旗下的电商、支付、本地生活等核心场景将陆续接入,千问将成为串联阿里生态散落业务的“穿珍珠的线”[27] - 展望场景化协同:用户一句意图可触发AI完成一连串复杂调度,如调用大麦订票、通过高德约车、通过飞猪订房、通过淘宝闪购买咖啡等[28] - 公司正将消费、支付和生活服务通过AI重新封装为可随时调用的“原子积木”,构建统管物理世界服务流的“个人管家”,未来将是意图驱动服务而非人找App[28] - 对用户而言,AI变化将体现在具体体感上:一句话完成跨场景复杂决策,无需在多个应用间跳转[28] - 千问接入高德是拆掉应用围墙的第一步,当庞大履约网络被全线激活,大模型将从博学的谈资走向生活的基础设施[28]
国泰海通:谷歌(GOOGL.US)Gemini 3实现断层式领先 大模型竞争格局加速重构
智通财经网· 2025-11-20 13:12
核心观点 - 谷歌Gemini 3的发布标志着大模型技术进入新一轮跃迁期,在推理、多模态、代码生成等核心能力上实现断层式领先,并创新推出生成式UI与智能体平台 [1] - 此次突破验证了Scaling Law的持续有效性,将加速AI应用生态成熟,推动AI应用开发范式发生根本性变革 [1][3] 核心能力表现 - 推理能力显著进步,在Humanity's Last Exam中得分从前代Gemini 2.5 Pro的21.6%跃升至37.5%(无工具)[1] - 在ARC-AGI-2测试中以31.1%的成绩超越GPT-5.1(17.6%)近一倍,展现出接近人类的抽象推理能力 [1] - 多模态理解方面,在复杂科学图表解析和动态视频理解测试中均创下新高,具备卓越的屏幕理解能力 [1] - 数学推理能力从前代仅能处理基础运算提升至可解决复杂建模与逻辑推演问题 [1] 代码生成与前端设计 - 在LiveCodeBench上取得显著领先优势,在Design Arena的网站、游戏开发等四大赛区均位列第一,彻底扭转竞争态势 [2] - 模型具备"审美智能",能根据用户意图自动生成符合现代设计规范的交互界面,催生"生成式UI"新范式 [2] - 采用稀疏MoE的全新设计,支持百万级token上下文长度,在长文档理解和事实回忆测试中表现优异 [2] 技术架构与商业化 - 尽管API定价处于行业高端,但通过提升token效率和首答准确率,实际任务完成成本增幅有限 [2] - 性能与成本间的精细平衡为模型在企业级市场的大规模应用提供坚实支撑 [2] 智能体能力与平台 - 智能体能力实现质的飞跃,成为首个在消费级产品中深度融合通用Agent能力的基础模型 [3] - 工具使用能力较前代提升30%,在终端环境测试和长时间跨度的商业模拟中表现卓越,能够自主规划并执行复杂的端到端任务 [3] - 配合全新推出的Antigravity智能体开发平台,开发者可在更高抽象层级进行任务导向编程,将AI升级为"积极合作伙伴" [3]
国泰海通|计算机:谷歌Gemini 3实现断层式领先,大模型竞争格局加速重构
核心观点 - 谷歌Gemini 3的发布标志着大模型技术进入新一轮跃迁期,在推理、多模态、代码生成等核心能力上实现断层式领先 [1] - 模型创新性地推出生成式UI与智能体平台Antigravity,验证了Scaling Law的持续有效性,将加速AI应用生态成熟 [1][3] 核心能力突破 - 推理能力显著进步,在Humanity's Last Exam中得分从2.5 Pro的21.6%跃升至37.5%(无工具)[1] - 在ARC-AGI-2测试中以31.1%的成绩超越GPT-5.1(17.6%)近一倍,展现出接近人类的抽象推理能力 [1] - 多模态理解方面,在复杂科学图表解析和动态视频理解测试中均创下新高,具备卓越的屏幕理解能力 [1] - 数学推理能力从前代仅能处理基础运算提升至可解决复杂建模与逻辑推演问题 [1] 代码生成与架构创新 - 在LiveCodeBench上取得显著领先优势,在Design Arena的网站、游戏开发等四大赛区均位列第一 [2] - 不仅能够生成功能代码,更具备"审美智能",能自动生成符合现代设计规范的交互界面,催生"生成式UI"新范式 [2] - 采用稀疏MoE的全新设计,支持百万级token上下文长度,在长文档理解和事实回忆测试中表现优异 [2] - API定价处于行业高端,但通过提升token效率和首答准确率,实际任务完成成本增幅有限 [2] 智能体能力与平台发展 - 工具使用能力较前代提升30%,在终端环境测试和长时间跨度的商业模拟中表现卓越 [3] - 成为首个在消费级产品中深度融合通用Agent能力的基础模型,能够自主规划并执行复杂的端到端任务 [3] - 配合全新推出的Antigravity智能体开发平台,开发者可在更高抽象层级进行任务导向编程 [3] - 推动AI从辅助工具升级为"积极合作伙伴",加速AI应用生态成熟 [3]
一文读懂谷歌最强大模型Gemini 3:下半年最大惊喜,谷歌王者回归
36氪· 2025-11-19 09:44
文章核心观点 - Gemini 3的发布标志着AI领域取得重大突破,其跃进式的性能提升在多个基准测试中实现对竞争对手的断层式碾压 [4][5][7][10] - 该模型不仅是技术升级,更体现了谷歌以AI重新定义整个生态系统的平台级野心,在模型能力、开发者工具、用户体验等多战线同时发力 [11][12] - Gemini 3证明了Scaling Law依然有效,其通过改进预训练、后训练及采用新架构实现了巨大性能跃升,未看到明显天花板 [55][56][58] Benchmark性能表现 - 在衡量终极思考能力的Humanity‘s Last Exam测试中,Gemini 3 Pro得分达37.5%(无工具)和45.8%(带工具),远超Gemini 2.5 Pro的21.6%和Claude Sonnet 4.5的13.7% [14][16] - ARC-AGI-2测试中取得31.1%的分数,显著高于GPT-5.1的17.6%和Gemini 2.5 Pro的4.9%,展现出接近人类的流体智力 [17] - 数学能力上,在新MathArena Apex测试中获得23.4%的成绩,而Gemini 2.5 Pro仅0.5%,Claude Sonnet 4.5为1.6%,GPT-5.1为1.0% [19] - 多模态理解方面,MMMU-Pro得分81.0%,CharXiv Reasoning达81.4%,ScreenSpot-Pro取得72.7%,是GPT-5.1的二十倍 [21][22] - 编码能力实现翻盘,LiveCodeBench Pro的Elo Rating达2,439分,比第二名高出200多分,在Design Arena五个代码赛区中的四个占据榜首 [25][28] - 长上下文处理能力突出,MRCR v2 benchmark中128k上下文平均得分77.0%,1M上下文逐点得分26.3% [31] - 综合业务运营能力测试Vending-Bench 2中,实现$5,478.16平均净值,远超GPT-5.1的$1,473.43和Gemini 2.5 Pro的$573.64 [32] 前端与用户体验革新 - 推出“生成式UI”功能,能根据用户请求动态生成完全定制的用户界面,彻底改变人机交互范式 [41][42] - 模型具备审美智能,能理解用户偏好并自适应调整设计风格,在多轮对话中学习用户的审美倾向和编码风格 [41][45] - 前端开发角色被重新定义,模型能生成符合现代审美的响应式设计、色彩搭配和动画效果 [46][49] Agent能力整合 - 成为首个在模型界面融合通用Agent能力的产品,能够理解任务、制定计划、使用工具、反思改进 [50][51] - 工具使用能力相比2.5 Pro提升30%,能更准确选择工具并组合多个工具完成复杂任务 [51] - 整合Google生态系统,通过“My Stuff”文件夹设计让用户更容易管理模型创建的内容,应用内可访问超500亿条商品列表 [53] 技术架构与成本效益 - 采用稀疏MoE架构,是基于算法、感知、执行全管线优化的全新架构而非简单微调 [58] - 尽管API定价较高(每百万输入/输出Token为$2/$12),但因token效率更高,实际使用成本增加仅12%左右 [59] - 模型能一次性正确完成任务,总体使用成本可能反而更低,开启了新的性能-成本比逻辑 [60] 行业影响与定位 - 终结了OpenAI长久以来的霸榜神话,首次在语言模型领域以绝对优势占据领袖地位 [35][36] - 标志着从“聊天机器人时代”向“数字同事时代”的转变,human in the loop角色从“修复AI错误”演变为“指挥AI工作” [63] - 实际使用体验获得高度认可,在调试复杂错误、重构文件、解决困难问题等实际应用场景建立新SOTA [39]
扎克伯格想做的Agent,这个中国年轻人先做出来了
36氪· 2025-08-19 13:42
产品定位与功能 - 马卡龙被定义为"世界上第一个Personal Agent",可根据用户需求生成定制化生活场景小应用,如健身记录、饮食规划等,并收纳在一个Agent场景中,通过交互不断进化[5] - 与Meta提出的"个人超级智能"概念类似,旨在深入了解用户并帮助实现目标[5] - 区别于现存App与生产力Agent,能根据个性化需求复制其他App能力,并将数据留在自身平台以进化成用户离不开的产品[9] 市场表现与用户反馈 - 上线当天在AI圈引起关注,获多位AI博主高度评价,如"和它相处后,GPT5像个呆瓜"[6] - 发布后登顶Product Hunt日榜,该平台月流量达百万级[6] - 截至8月17日用户量达6000+[6] 创始人背景与团队 - 创始人陈锴杰为95后连续创业者,杜克大学大二休学创业,马卡龙是其第三个创业项目[8] - 团队共15人,分布在北京、深圳、广州、旧金山等地,采用线上办公模式,每三个月线下聚会[49][52] - 团队人效较高,自称与字节相比可达1:5,工作节奏紧凑,早晚开会,每周工作6天[50][56] 技术特点与创新 - 采用开源模型进行后训练,使用671B模型的强化学习技术,全国仅5家公司具备该能力[43] - 创新性地在Agent与用户间加入生成式UI小工具层,预计将成为行业标配[35] - 技术难点包括memory训练和动态服务器管理,用户每创建一个小工具都需启动相应服务器资源[31] 竞争策略与行业趋势 - 认为Personal Agent领域将迎来巨头入场,但凭借先发优势可锁定用户心智,通过速度和认知建立壁垒[42] - 预测行业格局将在3年内确定,当前处于抢时间阶段,用户迁移成本将随记忆积累而提高[44] - 认为未来大App仍存在,但小场景将被智能Agent整合,形成不可逆趋势[46] 产品差异化 - 与传统App区别在于解决用户个性化小需求,而非公约数需求,且无广告干扰[47] - 通过多维度数据积累更了解用户,实现生活场景串联,定位为"生活伙伴"而非工具[47] - 交互方式上不局限于聊天,结合生成式UI实现更便捷的功能性操作[34][35] 创业历程与转型 - 前项目Midreal月活达30万,但因市场转向视频和用户空虚感决定关闭[13][18] - 转型灵感来自Claude Code展示的生成式UI潜力,最初尝试电商自动化工作流[14] - 最终选择降级做Personal Agent,因更贴近大众日常小需求[15]