多模态大模型

搜索文档
2025年大模型研究热点是什么?
自动驾驶之心· 2025-08-12 23:33
大模型技术社区定位 - 平台专注于构建国内最大的大模型技术社区 目标为行业输送人才和产业学术信息[1] - 社区核心定位为"认真做内容的社区"和"培养未来领袖的地方"[2] 技术研究方向 - 重点覆盖四大技术领域:大模型RAG 大模型AI Agent 多模态大模型(预训练/微调/强化学习)以及大模型部署推理优化[1] - 多模态大模型技术包含完整技术链条从预训练到强化学习[1] 社区发展策略 - 通过知识星球形式快速搭建技术模块 吸引对大模型技术感兴趣的用户加入[1] - 社区筹备阶段积极扩大技术爱好者群体 形成技术同行生态[1]
突破SAM局限!美团提出X-SAM:统一框架横扫20+分割基准
自动驾驶之心· 2025-08-12 23:33
X-SAM技术突破 - X-SAM由中山大学、鹏城实验室和美团团队联合开发,将分割能力从"分割任何事物"扩展到"任何分割",支持文本指令、视觉提示及跨图像场景的精准分割[3][4] - 模型在20+数据集、7大核心任务上全面超越现有方案,包括通用分割、开放词汇分割、指代分割等,刷新像素级视觉理解基准[4][28] - 创新性提出视觉定位分割(VGD)任务,支持根据单点提示分割图像中所有同类实例,跨图像VGD分割AP达47.9-49.7,远超PSALM模型的2.0-3.7[26][35] 核心技术架构 - 采用统一输入格式设计,通过<p>和<region>标签标准化文本/视觉查询输入,实现多任务融合处理[13][15] - 双编码器架构包含SigLIP图像编码器和SAM-L分割编码器,分别提取全局场景特征与像素级细节特征[19] - 分割连接器生成1/8至1/32多尺度特征,结合Mask2Former解码器实现多对象同步分割,LLM采用Phi-3-mini-4k-instruct处理语言交互[19][20] 训练策略创新 - 三阶段训练流程:分割器微调(COCO数据集)→对齐预训练(LLaVA-558K)→混合微调(多任务数据集)[23][27] - 动态平衡数据集采样策略,解决样本量差异(0.2K-665K)带来的训练偏差,最优参数t=0.1[24] - 混合微调使开放词汇分割AP从16.4提升至22.4,推理分割gIoU从48.2升至57.1,验证多任务协同效应[37] 性能表现 - 指代分割任务在RefCOCO系列数据集cIoU达85.1/78.0/83.8,超越PSALM(83.6/72.9/73.8)和8B参数的Sa2VA[29][32] - 定位对话生成(GCG)任务mIoU 69.4,优于GLaMM(65.8)和OMG-LLaVA(65.5),实现文本描述与分割掩码同步输出[33] - 通用分割任务PQ 54.7接近Mask2Former(57.8),开放词汇分割AP 16.2远超ODISE(14.4)[31] 行业应用前景 - 技术突破使多模态大模型具备真正的像素级理解能力,可应用于智能医疗影像、自动驾驶场景解析等领域[4][8] - 统一框架解决工程落地需部署多个专用模型的问题,显著提升分割任务处理效率[6][36] - 未来计划扩展至视频分割领域,结合SAM2实现跨时空视觉定位,开拓动态场景理解新方向[43]
刘云:打掉AI养号“黑”产业链,需要进一步系统治理
环球网资讯· 2025-08-12 22:42
AI技术在自媒体行业的应用现状 - 短视频平台出现大量未标注AI生成提示的数字人主播进行聊天带货和高频互动 这些内容容易诱导警惕性较低的用户下单[1] - AI技术显著降低创作门槛与成本 成为提升自媒体运营效能的赋能工具 例如义乌商贩利用AI工具变成外语口播达人拓展跨境社交电商 律师通过专业知识库搭建法律智能体实现7×24小时用户交互[1] AI技术滥用的危害与欺诈模式 - 部分账号针对中老年女性群体展示算法合成的"完美熟龄女性形象" 配合"40+ 50+长这样"等话术和水军互动 渲染年龄焦虑后推送三无保健品或编造虚假健康知识实施欺诈[2] - 视频中保养良好的皮肤和身材均与保健品无关 完全依靠算法合成技术实现[2] AI起号养号产业链的法律风险 - 批量起号养号过程中普遍存在伪造身份信息和虚构互动数据行为 违反《网络信息内容生态治理规定》和《互联网用户账号信息管理规定》中社交账号实名制要求[2] - 注册环节的身份欺诈与流转环节的主体错位不仅违反监管规定 还埋下数据安全与权益侵害隐患[2] - 利用AI洗稿生成伪原创内容通过同义词替换 句式重组及片段拼接等方式侵犯原作者的复制权与改编权[3] - 发布未经审核的医疗健康等敏感领域内容可能构成传播虚假信息违法行为 引发公众误解或社会秩序混乱[3] - 私下转让互联网账号违反《反电信网络诈骗法》规定 若转让账号后续违法犯罪 原使用者可能需承担刑事责任[3] 规避监管的技术手段与治理措施 - 违规者通过改变视频文件代码结构 裁除AI生图软件水印 削弱技术痕迹等方式隐瞒AI生成属性以逃避平台识别[3] - 2024年4月启动的"清朗·整治AI技术滥用"专项行动已处置违规账号3700余个 多家平台同步开展AI批量造假账号整治[4] - 平台应升级AI识别技术缩小检测盲区 对批量起号商家实施流量封禁与商业变现限制 建立违规账号黑名单制度[4] - 需要强化老年群体数字素养教育 普及辨别AI生成内容技巧如关注表情僵硬度 背景违和感等特征[4]
透过2025年 WRC,看见具身智能的真实进度
36氪· 2025-08-12 10:44
行业发展趋势 - 人形机器人展示重点从基础动作演示转向实际工作能力展示 包括模拟真实业务流程 多机协同和系统集成[2][5] - 机器人行业从技术演示转向产业化应用 企业开始提供明确的产品定价 交付周期和维护方案[2][5] - 2025年机器人技术在多模态大模型与具身智能结合下实现突破 感知 理解和执行稳定性显著提升[6][20] 技术演进 - 多模态大模型让机器人能够通过视觉和听觉理解人类意图 接收模糊语义指令并自主完成任务[20] - 硬件成本大幅下降 整机价格从百万元级降至几十万元 部分轻量平台进入10万元以内[21] - 国产零部件 轻量化模组和集成化设计成熟度提升 大幅改善产品可制造性和交付能力[21] 应用场景拓展 - 制造业场景中机器人实现搬运 拣选 协同操作等流程任务 优必选Walker S2在模拟产线完成上下料作业[9] - 服务机器人聚焦高频稳定场景 银河太空舱项目实现零售终端商品分发与后端系统协同补货结算[14] - 医疗康复机器人呈现系统化趋势 傅利叶康复工作站多机协同训练方案已在三甲医院投入使用[17] 商业化进展 - 机器人产品从样机走向SKU化 具备批量部署可能 许多产品标注连续运行时长和负载指标[6][9] - 传统工业机器人厂商向系统集成提供商转型 提供MES/WMS对接方案和工具链开放[11][13] - RaaS(机器人即服务)模式将成为主流 客户按需支付获得完整服务包[28][29] 产业链成熟度 - 政策与生态配套成熟 多地推动机器人在本地先试先用 明确任务指标和运营支持[24][26] - 工具链能力全面提升 企业展示开发平台 仿真训练系统和远程运维后台[18] - 系统集成仍面临挑战 将机器人接入现有信息化系统需要高额定制化投入[31]
自动驾驶已至商业化前夕 华为、腾讯等跨界“逐鹿”
新华网· 2025-08-12 05:48
自动驾驶商业化进展 - 北京亦庄成为国内首个"车内无人"自动驾驶试点区域 百度和小马智行等企业正进行最终调试 即将实现完全无人的Robotaxi商业化运营[1] - 小马智行在北京亦庄已进行7个月无人化测试 单车单日订单量超20单 且未发生任何安全事故[3] - 自动驾驶收费标准明确:高峰时段3元/公里 非高峰时段2.6元/公里 实际运营还提供折扣优惠[4] 技术安全与用户体验 - 小马智行安全系数达人类驾驶员10倍以上 能有效应对突发路况包括动物穿行和异物障碍[3] - 百度自动驾驶坚持安全第一原则 城区限速60公里/小时 因交通事故中96%与超速相关[3] - 用户体验反馈积极:高频用户每周使用7-8次 认为无人车比网约车更自在且优惠更多[2] 企业战略布局 - 华为智能汽车BU研发人员超7000人 其中70%-80%专注自动驾驶研发 智能部件发货量已突破200万辆[5][6] - 华为通过三种模式开展业务:零部件供应 HI模式和智选模式 其中智选车新加入智能驾驶系统[6] - 腾讯专注提供自动驾驶基础设施 包括云服务和高精地图 已在上海设立行业首个智能汽车云专区[6][7] 政策与行业环境 - 2023年上半年各级部门出台近30项自动驾驶相关政策 涵盖产业结构、技术创新和网联基础设施[8] - 工信部启动智能网联汽车准入试点 支持L3级及以上自动驾驶功能商业化应用[8] - 北京发布全国首个数据分类分级细则 上海推出无驾驶人创新应用规定 深圳明确责任判定标准[8] 技术创新与发展趋势 - 华为云发布盘古大模型3.0 被多家算法公司应用于场景生成和多模态检索 提升数据处理效率[6] - 腾讯基于全真互联技术在北京完成自动驾驶全闭环运行 未来将在企鹅岛进行工程部署[7] - 商汤科技采用AIGC生成困难样本 通过多模态大模型实现感知决策一体化 推行"驾、舱、云"三位一体战略[7]
A轮融资10亿后,「联影智能」发力多模态医疗智能体|项目报道
36氪· 2025-08-12 02:51
公司战略与融资进展 - 联影智能计划考虑独立上市[1] - 公司完成10亿元A轮融资 投资方包括易方达、上国投资管、上海联和等[1] - 融资将用于多模态技术拓展及大模型智能体、医院数智化业务系统研发升级[1] 产品与技术布局 - 推出12个产品平台、超100款AI应用 取得13张三类医疗器械证[1] - 15款AI应用通过美国FDA认证 31款获CE认证[1] - 产品覆盖全国4000余家医疗机构 涉及院级管理、影像诊断、手术治疗、病历书写等场景[1] - 自研"元智"医疗大模型 融合文本、影像、视觉、语音等多模态能力[2] - 开发放射智能体 可单次CT扫描自动识别73种胸部异常[2] - 采用Transformer加CNN模型突破单病种限制 实现疾病关联分析[2] - 其他智能体产品包括外科手术、介入医生、电子病历、客服及质控管理等[2] 商业化应用案例 - 武汉三甲医院引入AI后 DR全脊柱扫描检查量达5000余次(2024年2-12月)[3] - 浙江二甲乡镇医院引入冠脉AI后 血管类检查量破千例[4][5] - 科研平台收入主要来自腰部以上医院 临床产品覆盖三甲至县级医院[5] 行业发展趋势 - 各级医疗机构将"AI入院"纳入工作重点[1] - 医疗垂域大模型更适合处理院内复杂需求[1] - AI助力三甲医院开展特色检查项目(如脊柱侧弯筛查、心脏CMR)实现差异化竞争[3] - 基层医疗机构通过AI弥补软实力不足 在不新增设备情况下开展新检查项目[4][5] - 公司与上海科技大学、复旦大学附属儿科医院等合作开展脑科学AI研究项目[5]
具身智能机器人产业持续推进,券商详解产业化落地的关键
环球网· 2025-08-12 01:37
杭州市具身智能机器人产业政策 - 杭州市就促进具身智能机器人产业发展条例征求意见 重点促进在工业制造 农业生产 医疗健康 教育培训 特种作业 公共安全等领域场景的应用推广 [1] - 政策将强化网络与算力基础设施建设 打造多元化多层次智算服务体系 [1] - 技术研发聚焦大脑 小脑 本体三大核心模块及专用芯片等关键技术 鼓励企业和科研机构共建共享研发资源 [1] - 加大对重点实验室和重大科技基础设施的投入 为企业创新提供支撑 [1] 人形机器人产业化关键 - 人形机器人产业化落地需摆脱传统工业机器人控制刚 泛化弱的局限 补足对不确定性的理解与适应能力 [1] - 工业机器人基于确定性控制逻辑运行 缺乏感知决策与反馈能力 导致高度依赖集成 成本高通用性差 [2] - 人形机器人以通用智能体为目标 强调感知-推理-执行的完整链路 需依托大模型支撑的多模态理解与泛化能力 [2] 多模态大模型技术发展 - 多模态大模型兴起为人形机器人提供初级大脑 开启从0到1的智能进化 通过数据飞轮实现模型能力与产品性能持续提升 [2] - 当前整体智能化处于L2初级阶段 通往泛化智能面临建模方法 数据规模与训练范式等多重挑战 [2] - 高智能大模型是贯通通用人形机器人路径的核心变量 [2] 具身大模型演进方向 - 具身大模型将在模态扩展 推理机制与数据构成三方面持续演进 [2] - 当前主流模型聚焦视觉 语言与动作三模态 下一阶段有望引入触觉 温度等感知通道 [2] - Cosmos等架构通过状态预测赋予机器人想象力 实现感知-建模-决策闭环 构建更真实的世界模型 [2] - 仿真与真实数据融合训练成为主流方向 高标准可扩展的训练场成为通用机器人训练体系关键支撑 [2]
WRC2025聚焦(1):展出通用具身智能,GOVLA架构成亮点
海通国际证券· 2025-08-12 01:01
行业投资评级 - 报告未明确提及行业投资评级 [1][2][3][4][5] 核心观点 - 2025年世界机器人大会(WRC)在北京亦庄开幕 汇聚200+企业 1500+展品 100+首发新品 其中50+家人形机器人整机厂商 [1] - 开幕式由北京人形机器人创新中心"天工2 0"担任主持 展示群体智能 全域感知 多模态大模型 人机协作等最新成果 [1] - 中国机器人产业2024年营业收入近2400亿元 连续12年稳居全球最大工业机器人应用市场 [4] - 2025年上半年工业机器人产量达37万套 服务机器人产量达882 4万套 同比分别增长35 6%和25 5% [4] 技术突破 - 优必选展示群体智能2 0 通过群脑网络实现多款机器人全流程协作 工业版Walker S1搭载精确视觉识别与在线轨迹规划完成动态随机分拣 [2] - 宇树科技推出售价3 99万元的R1人形机器人 集成语音与图像多模态大模型 可完成高动态动作 [2] - 星动纪元L7展示360°旋转跳与物流多机协作 Q5实现高精度全身动作遥操作及柔性下蹲拾物 [2] - 智平方爱宝推出GOVLA架构(Global & Omni-body Vision-Language-Action Model) 具备全域感知 全身协同 长程柔性任务 快速学习四大技术特征 [3][5] 商业化路径 - 通用人形机器人商业化分阶段推进:L0阶段面向开发者 L2阶段进入工业服务场景 L2+阶段扩展至开放公共服务 L4阶段面向家庭生活辅助 [3] - "从封闭到开放 从低频到高频"的演进路径 早期通过B端市场验证技术与ROI 为未来进入C端市场奠定基础 [3] 应用领域 - 工业机器人覆盖国民经济71个大类 241个中类 应用于汽车制造 3C电子 金属加工 船舶制造等领域 [4] - 服务机器人深度融入医疗 配送 养老等日常生活 [4] - 特种机器人在深空深海探测 应急救援等领域拓展人类活动边界 [4]
具身智能之心技术交流群成立了!
具身智能之心· 2025-08-11 06:01
具身智能技术交流群 - 社群聚焦研究方向包括视觉语言动作(VLA)、视觉语言导航(VLN)、遥操作、扩散策略(Diffusion Policy)、强化学习(RL)、VLA与强化学习结合(VLA+RL)、仿真到现实迁移(sim2real)、多模态大模型、运动控制、目标导航、建图定位等前沿技术领域 [1] - 入群需通过微信添加助理账号AIDriver005并提交机构/学校名称、个人姓名及研究方向信息以加速审核流程 [2][3]
OpenAI发布最强AI模型GPT-5;英特尔CEO发全员信:回应辞职要求;微信员工回应“改手机日期可恢复过期文件” | Q资讯
搜狐财经· 2025-08-10 02:43
OpenAI发布GPT-5模型 - OpenAI发布新一代AI模型GPT-5,具备智能切换模型版本、更低幻觉率、更强代码能力和支持个性化设定等功能 [1] - GPT-5在SWE-bench Verified测试中得分74.9%,在Aider polyglot测试中得分88%,成为真正的编码协作伙伴 [3] - 该模型在前端Web开发任务中70%的表现优于OpenAI o3,能够生成高质量代码并处理修复漏洞、修改代码等复杂任务 [3] 英特尔CEO回应辞职传闻 - 英特尔CEO陈立武发表员工信,澄清关于他的不实传闻,暗示不会辞职 [4] - 陈立武强调拥有40多年行业经验,遵循最高法律和道德标准,将继续领导英特尔 [4] - 英特尔表示将在美国半导体研发和制造领域投资数十亿美元,包括在亚利桑那州新建晶圆厂 [4] - 知情人士透露,陈立武与部分董事会成员在公司战略和收购计划上存在分歧 [5] 微软裁员动态 - 微软在华盛顿州启动新一轮裁员,裁减约40个岗位,使该州自五月以来的裁员总数达到3160人 [6] - 此次裁员是微软全球裁员超过15000人计划的一部分,此前5月和7月分别裁减1985个和830个岗位 [6] 苹果iPhone17系列发布会 - 苹果iPhone17系列发布会预计于9月9日举行,将推出iPhone17、iPhone17 Air、iPhone17 Pro和iPhone17 ProMax [7] - 同期可能发布Apple Watch SE3、Apple Watch Series11、Apple Watch Ultra3和AirPods Pro 3 [7] 网易游戏服务器故障 - 网易旗下多款游戏突发登录异常,"网易游戏崩了"话题冲上微博热搜 [8] - 故障持续超过2小时,内部人士称宕机面积大导致排查难度大,服务器重启需要较长时间 [8] - 网易内部公告证实故障由机房网络问题引起,影响POPO部分服务 [8] 字节跳动校招计划 - 字节跳动启动2026校园招聘,计划发放超5000个offer,较2025年校招4000+规模显著扩招 [10] - 研发类岗位招聘数量同比增长23%,算法、前端、客户端增幅最大,非研发岗位计划招募1500余人 [10] - 招聘覆盖抖音、电商、火山引擎、飞书、剪映等业务团队,产品经理、数据分析等方向机会更多 [10] AI行业动态 - OpenAI发布两个开放权重AI模型GPT-oss-120b和GPT-oss-20b,支持文本生成和代码编写等任务 [13] - 谷歌DeepMind推出世界模型Genie 3,能根据文本提示生成可互动的3D环境,以720p分辨率24帧/秒实时渲染 [14] - 小红书开源多模态大模型dots.vlm1,基于DeepSeek V3打造,配备自研12亿参数视觉编码器NaViT [17] - dots.vlm1在MMMU、MathVision、OCR Reasoning等基准测试中表现接近Gemini 2.5 Pro等领先模型 [17] IT业界观点 - 英伟达否认其产品含有后门和关闭开关,强调30多年设计经验表明这类功能会带来安全隐患 [19] - GitHub CEO警告开发者必须拥抱AI否则改行,称AI工具已成为编程工作流程中不可或缺的合作伙伴 [20] - Stack Overflow调查显示80%开发者使用AI编程工具,但对准确性的信任度从40%降至29% [22]