Workflow
大语言模型
icon
搜索文档
突破SAM局限!中山大学X-SAM:统一框架横扫20+分割基准
自动驾驶之心· 2025-08-12 10:37
核心观点 - X-SAM是由中山大学、鹏城实验室和美团团队提出的突破性框架,将分割范式从"分割任何事物"推向"任何分割",实现了多任务、多模态的统一分割能力 [3][4] - X-SAM在超过20个分割数据集、7大核心任务上全面超越现有模型,包括文本指令驱动的分割任务和跨图像场景的精准分割 [4] - X-SAM通过三大支柱创新(统一输入格式、双编码器架构、多阶段训练)解决了SAM的局限性,如任务单一性、模态割裂和多任务壁垒 [12][6] 技术架构 统一输入格式 - 设计统一输入规则,用`<p>`和`</p>`标记文本查询,`<region>`标签代表视觉提示(点、框、涂鸦等),使不同任务能被模型统一处理 [13][15] 双编码器架构 - 图像编码器(SigLIP2-so400m)提取全局特征,分割编码器(SAM-L)捕捉像素级细节,双投影器将视觉特征转换为与语言模型匹配的维度 [19] - 分割连接器通过补丁合并和扩展操作生成1/8、1/16、1/32三种尺度特征,支持不同大小物体的分割 [19][17] - 分割解码器基于Mask2Former架构,能一次性输出多个分割掩码,并通过LLM生成的`<SEG>`标签关联类别或描述 [20] 多阶段训练 - 分割器微调:在COCO全景分割数据集上训练分割编码器和解码器,使用分类损失、掩码损失和dice损失 [27] - 对齐预训练:在LLaVA-558K数据集上训练双投影器,使视觉特征与语言模型词嵌入空间对齐 [27] - 混合微调:混合多种任务数据集训练,采用数据集平衡重采样策略(参数t=0.1)解决数据集大小差异问题 [24][27] 性能表现 基准测试 - 在COCO全景分割中PQ达54.7,接近Mask2Former(57.8);在A150-OV数据集上AP达16.2,远超ODISE(14.4)和PSALM(9.0) [31] - Referring分割任务中,RefCOCO/+/g的cIoU分别达85.1/78.0/83.8,超越PSALM(83.6/72.9/73.8)和Sa2VA(81.6/76.2/78.7) [32] - 推理分割任务gIoU达56.6,超过LISA-7B(52.9);GCG分割mIoU达69.4,远超GLaMM(65.8) [32][33] 新任务VGD分割 - 在COCO-VGD数据集上,点/涂鸦/框/掩码提示的AP分别达47.9/48.7/49.5/49.7,远超PSALM(2.0-3.7) [26][35] - 支持跨图像VGD分割,用一张图的视觉提示在另一张图中分割同类对象 [26] 消融实验 - 混合微调使开放词汇分割AP从16.4提升至22.4,推理分割gIoU从48.2跃升至57.1 [37] - 双编码器组合使GCG分割mIoU达69.4,远超单编码器方案(Swin编码器为62.5) [38] - 多阶段训练中,跳过分割器微调会使COCO全景分割PQ降至45.2,完整训练提升至54.7 [39] - Mask2Former解码器比SAM原生解码器PQ提升9.2,加入多尺度特征后PQ再提升1.3 [41] 未来方向 - 计划与SAM2结合拓展至视频分割,将VGD分割延伸到视频领域实现"跨时空视觉定位" [43] - 需解决任务平衡难题(部分分割任务因对话数据干扰性能下降)和性能不均问题(某些细分任务略逊于专门优化模型) [46]
“利润率要么是0,要么为负”!最火的AI应用竟只是“为大模型打工”?
华尔街见闻· 2025-08-12 03:31
行业财务表现 - AI编程公司收入飞速增长但利润率深度为负 呈现矛盾财务数据 [2] - Cursor母公司Anysphere在6月达到5亿美元年经常性收入 创SaaS史上最快达到1亿美元ARR纪录 [2] - Replit年收入从去年8月200万美元暴涨至上月1.44亿美元 [2] - 瑞典初创公司Lovable在8个月内从100万美元增长至1亿美元年收入 [2] - AI编程公司毛利率普遍在20%至40%之间 但未包括为免费用户支付的AI调用成本 [4] - Replit在4月份毛利率为负数 [4] - 所有代码生成产品利润率处于近似平衡或亏损状态 情况相当糟糕 [4] 成本结构问题 - 大语言模型调用费用占据成本大头 是压垮利润的主要元凶 [5] - AI编程助手必须始终采用最新最先进且最昂贵的大语言模型 [5] - 用户越多导致模型调用量越大 运营成本反而越高 与传统软件单位成本递减模式截然不同 [5] - 领域内所有初创公司可变成本相差无几 可能在10%至15%之间 [5] - 最新AI模型成本不降反升 因处理复杂多步骤任务需要更多时间和计算资源 [6] 商业模式挑战 - 行业面临"毛利率显著为负"困境 用户越多反而亏损越严重 [1] - 对外部模型供应商存在严重依赖 同时面临激烈市场竞争 [1] - 模型提供商OpenAI、Anthropic直接进入AI编程市场 形成既是供应商又是竞争对手的局面 [1][9] 战略选择 - 自研模型可消除对供应商依赖 但成本过于巨大 如Windsurf最终放弃该计划 [8] - 出售成为选择选项 Windsurf以24亿美元价格将核心团队加入谷歌 剩余业务出售给Cognition [8] - 向用户转嫁成本 Anysphere调整定价结构 在20美元月费基础上对使用最新Claude模型加收额外费用 [8] 行业前景 - 推理成本处于有史以来最高水平 GPT-5定价虽低于Claude Opus 4.1 但显著降低成本时间仍不明朗 [9] - 用户忠诚度可能不高 若竞争对手开发出更优秀工具 用户可能迅速转移 [9] - 收入数亿美元的AI编程巨头都难以盈利 引发对行业可持续性质疑 [9]
宇树推进IPO,王兴兴谈行业痛点:硬件现阶段够用,具身智能AI拖后腿
华夏时报· 2025-08-12 00:24
公司战略与定位 - 公司核心目标是让机器人干活而非表演 专注于四足机器人和人形机器人领域 并进行了大量数据采集和开源工作 [1] - 公司通过低价策略促进销售 G1机器人起售价9 9万元 R1小型人形机器人起售价3 99万元 旨在通过足够出货量构建生态 [3] 商业化进展 - 公司2024年机器狗年销量达2 37万台 占全球市场份额69 75% 人形机器人交付量突破1500台 [2] - 公司G1是2025年全球出货量最高的人形机器人 Go2是过去几年及2025年全球出货量最多的四足机器人 [2] - 行业整体仍处于商业化初期 尚未达到大规模出货阶段 [3] 财务与上市进展 - 公司2024年营收突破10亿元 自2020年起连续五年盈利 [2] - 公司已启动上市辅导 由中信证券担任辅导机构 上市被视为迈向成熟管理阶段的标志 [2] 技术瓶颈与挑战 - 当前行业最大瓶颈是具身智能AI技术不足 而非硬件问题 [4] - 具身智能大模型需处理多模态感知和实时决策 复杂度远超语言大模型 在实现 训练和部署三方面均存在极高难度 [5] - 语言大模型的Scaling Law在机器人运动控制领域尚未充分验证 现有模型架构不够统一和高效 [4] 技术研发路径 - 具身智能大模型研发应由机器人厂商主导 或与大模型厂商协作完成 因涉及专业传感器标定和场景数据 [6] - 智元机器人已发布通用具身基座模型ViLLA架构 阶跃星辰与多家机器人厂商达成技术合作 [5][6] - 合作研发被视为最快产生效益的方式 因多数机器人企业缺乏AI技术能力和GPU资源 [6] 行业发展预期 - 行业临界点标志为人形机器人能完成陌生场景任务 预计最快1-2年 最慢3-5年可实现 [1] - 具身智能大模型将成为未来核心竞争力 是规模商用的必要条件 [6]
质疑VLA模型、AI完全不够用?有从业者隔空回应宇树王兴兴
第一财经· 2025-08-11 11:33
人形机器人行业挑战 - 传统人形机器人面临感知局限、决策断层、泛化瓶颈三大核心挑战[1][5] - 行业当前最大问题是具身智能AI完全不够用,硬件虽不够好但已够用[1] - 机器人难以理解复杂多变环境动态性,多任务切换需人工干预重新编程[5] - 面对新任务或场景需重新进行大量训练和调试[5] VLA模型争议 - VLA模型被质疑为"相对傻瓜式架构",感知-认知-决策-执行闭环尚未闭合[1][2] - 目前最强通用机器人控制VLA模型π0无法有效运用全参数LLM且对数据要求更高[4] - 业界需要重构VLA模型,寻求新解决范式,探索云端与终端算力协同分配[2][4][6] - 理想VLA模型不应简单等同于"小脑",需与大语言模型有效融合[4] 技术发展方向 - 强化学习与模仿学习都需要进入Scaling law法则提升机器人泛化能力[2] - 业界需构建完整"云网一端"部署架构,实现大脑模型完整参数与小脑模型体积突破[4][6] - 前瞻性思考通过生物仿生提出原创具身智能基础模型[6] - 当前技术研究呈现割裂状态,大语言模型与端侧智能尚未有效融合[4] 行业前景 - 2023年被称作人形机器人量产元年,从业者从怀疑转向确信其将成为重要产业[6] - 行业发展关键取决于机制、理念、政策及从业者战斗力与创新力[6] - 需推动人形机器人成为规模化、可落地的产业方向[6]
瑞承:从竞赛到实用,AI模型如何在性能与效率间寻找平衡
金投网· 2025-08-11 09:46
谷歌近期宣布,Gemini 2.5 Deep Think模型正式向Google AI Ultra订阅用户开放。该模型在多项基准测 试中表现优于OpenAI的o3和xAI的Grok 4,标志着大语言模型在复杂推理能力上的竞争进入新阶段。作 为Gemini 2.5 Pro系列的升级版,Deep Think模式基于全新研究方法,通过多假设综合推理提升作答质 量,同时针对日常使用场景进行了效率优化。 技术定位:从"竞赛优化"到"实用平衡" Gemini 2.5 Deep Think的前身是在国际数学奥林匹克竞赛(IMO)中获得金牌的模型变体,其核心优势在 于复杂问题的多步推理能力。谷歌在最新版本中保留了这一技术基底,但为适应日常场景进行了加速优 化——这一调整导致模型在IMO基准测试中性能降至铜牌水平,但响应速度和资源占用更符合消费级应 用需求。 性能突破:基准测试中的多维度领先 据第三方测试数据,Gemini 2.5 Deep Think在多个权威基准中表现突出:在MMLU(大规模多任务语言理 解)测试中,模型在人文社科、自然科学等领域的综合准确率超过竞品;在GSM8K数学推理数据集上,复 杂算术题的求解正确率提升 ...
金融IT深度报告:牛市复盘,金融IT何时发力
浙商证券· 2025-08-11 08:02
行业投资评级 - 行业评级:看好 [1] 核心观点 - 牛市初期金融IT板块涨幅最为明显,估值扩张带来主要贡献,弹性领先于计算机板块 [3] - 金融IT兼具科技与金融属性,在牛市行情中容易实现戴维斯双击 [4] - 2015年牛市期间金融科技板块最高涨幅接近450%,4次月度涨幅超过所有申万一级行业 [4] - 当前AI技术革命有望为金融行业带来深刻变革,成为金融IT新增长点 [5] - 金融IT板块在历次牛市中表现出明显的"牛市风向标"特性 [99] 历史行情分析 2014-2015年牛市 - 流动性驱动与产业趋势共振的全面牛市,上证指数从2000点最高涨至5500点 [15][16] - 金融科技板块最高涨幅449%,4次月度涨幅排名申万一级行业第一 [28][29] - 互联网金融企业同花顺合同负债从1.4亿元快速增长至10亿元 [35] - 移动互联网渗透率从56%提升至75%,成为重要推动力 [38][39] 2016-2018年结构市 - 供给侧改革推动的结构性牛市,金融IT整体表现乏力 [43] - 金融科技指数PE从137倍降至67倍,估值消化明显 [65][67] - 支付IT板块相对抗跌,其他子板块均跌破期初价格 [61] 2019-2021年牛市 - 机构资金主导的结构性牛市,公募规模从14.7万亿增至26万亿 [72][73] - 金融科技板块4次显著跑赢大盘,最高涨幅99% [81][83] - 盈利贡献逐渐增强,与估值形成共振 [91] 当前行情展望 - 2024年9月以来金融科技板块累计涨幅已达127% [99] - AI技术驱动成为新增长点,DeepSeek R1大模型快速普及 [5] - 板块PE从39倍升至87倍,日均成交额667亿元,活跃度显著提升 [102] - 金融IT标的在历次牛市中平均涨幅显著高于大盘 [104] 重点公司 - 非银IT:同花顺、恒生电子、金证股份等 [8] - 银行IT:长亮科技、宇信科技等 [8] - 支付IT:新大陆、拉卡拉等 [8]
智谱终于发布GLM-4.5技术报告,从预训练到后训练,细节大公开
机器之心· 2025-08-11 07:12
GLM-4.5模型发布与市场反响 - 智谱开源新一代旗舰模型GLM-4.5及轻量版GLM-4.5-Air 首次在单个模型中实现推理、编码和智能体能力的原生融合 并在12项全球测试中综合成绩排名全球第三 国产和开源模型中均位列第一 [2] - 模型发布后引发海内外AI圈热议 官方推文浏览量突破120万 GLM-4.5连续7天登顶Hugging Face趋势榜单 [2] - 与OpenAI开源的gpt-oss系列对比测试中 GLM-4.5整体表现保持领先优势 [6] 技术架构创新 - 采用MoE混合专家架构 通过"瘦高"结构设计(减少宽度增加深度)提升推理能力 隐藏维度5120配备96个注意力头(常规模型的2.5倍) [21] - 引入Muon优化器加速收敛 配合QK-Norm技术增强注意力稳定性 加入MTP层实现推测解码提升推理效率 [24] - 参数规模达3550亿 激活参数320亿 包含89层MoE和1层MTP 在同类模型中计算效率显著提升 [23] 训练方法论突破 - 采用多阶段训练方案:15T通用语料预训练+7T代码/推理语料训练 中期训练将序列长度从4K扩展至128K [25][27] - 预训练数据覆盖网页/社交媒体/学术/代码等多源信息 第二阶段重点上采样编程与科学数据强化推理能力 [28] - 中期训练分三环节:代码仓库级训练(32K序列)、合成推理数据训练、长上下文与智能体训练(128K序列) [30] slime强化学习框架 - 专为大模型RL训练设计的开源框架 支持同步/异步混合训练模式 GitHub已获1200星 [31][32] - 核心模块包括训练(Megatron)、rollout(SGLang+Router)和Data Buffer 实现环境交互与训练解耦 [35] - 采用FP8混合精度推理加速数据生成 同时保持BF16训练精度 显著提升智能体任务训练吞吐量 [34][48] 性能基准测试表现 - 智能体任务:TAU-bench表现接近Claude Sonnet4 BFCL-v3总分第一 BrowseComp优于Claude Opus4 [44][45] - 推理能力:AIME24/SciCode超越OpenAI o3 七项基准平均表现优于Claude Opus4 接近DeepSeek-R1 [47][50] - 代码能力:SWE-bench Verified超越GPT-4.1 Terminal-Bench超过Claude Sonnet4 成为其最强竞品 [52][53] 行业影响与意义 - 技术报告完整披露从架构设计到训练方法的实现路径 为国产开源大模型发展提供重要参考 [56] - 首次在单一模型中实现ARC(智能体/推理/代码)能力统一 推动LLM向通用问题求解器进化 [18][19] - 开源生态建设成效显著 模型与框架同步开放 形成完整技术闭环 [14][32]
港股异动 | 七牛智能(02567)涨超5% 七牛云AI推理平台上新GPT-OSS 相关模型可通过控制台或API快速调用
智通财经网· 2025-08-11 02:53
股价表现 - 七牛智能(02567)股价单日上涨5_71%至1_48港元 [1] - 近一个月累计涨幅超过50% [1] - 当日成交额达209_61万港元 [1] OpenAI开源模型动态 - OpenAI首次推出开源语言模型系列GPT-OSS 包括120b和20b两款参数规模 [1] - 模型开放权重 推理代码及配置参数 支持函数调用和结构化输出 [1] - 定位为社区通用大语言模型 适用于Agent架构 知识问答和RAG检索生成场景 [1] 公司技术整合进展 - 七牛云已完成GPT-OSS模型的部署与调优 [1] - 两款模型均集成至七牛云模型广场 开发者可通过控制台或API直接调用 [1]
七牛智能涨超5% 七牛云AI推理平台上新GPT-OSS 相关模型可通过控制台或API快速调用
智通财经· 2025-08-11 02:53
公司股价表现 - 七牛智能(02567)股价单日上涨5.71%至1.48港元 [1] - 近一个月累计涨幅超过50% [1] - 当日成交额达209.61万港元 [1] OpenAI开源模型动态 - OpenAI首次推出开源语言模型系列GPT-OSS 包括120b和20b两款参数规模模型 [1] - 模型开放权重 推理代码 配置参数 支持函数调用和结构化输出 [1] - 模型定位为社区通用大语言模型 适用于Agent架构 知识问答 RAG检索等场景 [1] 公司技术整合进展 - 七牛云已完成GPT-OSS模型的部署与调优 [1] - 两款模型已集成至七牛云模型广场 开发者可通过控制台或API直接调用 [1] - 免除开发者本地部署环节 提供快速调用能力 [1]
中金《秒懂研报》 | AI赋能玩具:开启情感陪伴新纪元
中金点睛· 2025-08-10 01:08
AI玩具的演进:情感交互与陪伴 - AI玩具通过大语言模型和多模态交互技术实现自然对话和情感互动,能根据用户情绪调整互动方式并提供个性化陪伴 [7] - 产品形态多样,包括AI挂件、毛绒玩具和陪伴机器人,覆盖儿童教育、老年人陪伴及年轻人情感慰藉等场景 [7] - 全球发展历程从1999年索尼AIBO机器狗起步,后续涌现Lovot、Moflin等产品,中国虽起步较晚但凭借技术突破实现多客群覆盖且性价比更高 [7] AI玩具的驱动力:需求与技术共振 - 需求端:城市家庭儿童陪伴时间不足、老龄化社会情感需求及年轻人减压需求催生市场缺口 [8] - 技术端:大语言模型实现自然对话,多模态交互支持语音/图像处理,AI芯片小型化与成本下降推动技术集成,云计算助力持续学习 [8] - 政策端:人工智能产业扶持措施为技术研发创造有利环境 [8] AI玩具的市场前景与核心竞争力 - 技术基础:大语言模型和多模态交互能力决定产品竞争力,直接影响对话流畅度与用户体验 [11] - 持续学习能力:个性化功能提升用户长期黏性 [11] - IP价值:知名IP如"AI喜羊羊玩偶"可降低推广难度并提高溢价,但需注重与产品的契合度 [13] - 商业模式:硬件销售+内容订阅、教育机构合作等多元化变现模式成为趋势,2033年全球市场规模预计达600亿美元 [15] AI玩具未来:技术突破与风险挑战 - 技术突破方向:多模态交互流畅度提升、硬件性能与成本优化、AI模型合规性与有效性增强 [17] - 儿童信息安全:摄像头/麦克风数据采集存在隐私滥用风险,需严格保障措施 [17] - 社交影响:过度使用可能削弱儿童真实人际互动能力与情感认知发展 [17] - 技术挑战:响应延迟、硬件设计平衡(低功耗/过热风险)及价值观引导问题需解决 [17]