Workflow
多模态大模型
icon
搜索文档
阿里通义千问再放大招 多模态大模型迭代加速改写AGI时间表
21世纪经济报道· 2025-08-19 12:57
多模态大模型发展现状 - 阿里通义团队推出Qwen-Image-Edit,基于20B参数的Qwen-Image,专注于语义和外观编辑,支持双语文本修改、风格迁移及物体旋转 [1] - 阿里半年内连续推出Qwen2 5-VL、Qwen2 5-Omni、Qwen-Image等多模态模型 [1] - 谷歌研究报告显示,预计至2025年全球多模态AI市场规模将飙升至24亿美元,2037年底预计将达到989亿美元 [1] - 商汤科技联合创始人林达华表示未来多模态模型甚至能在纯语言任务上超越单一语言模型 [1] 国内厂商布局 - 2023年12月谷歌原生多模态Gemini 1 0模型上线,将AI竞赛由文本领域带入多模态领域 [2] - 阿里推出Qwen2 5系列强化多模态能力,Qwen2 5-VL在13项权威评测中视觉理解能力全面超越GPT-4o与Claude3 5 [3] - 阿里发布首个端到端全模态大模型Qwen2 5-Omni,支持文本、图像、音频、视频的实时交互 [3] - 阶跃星辰发布Step 3基础大模型,原生支持多模态推理,其多模态模型占比达7成 [4] - 商汤发布日日新V6 5大模型,多模态推理与交互性能大幅提升 [4] - 智谱推出开源视觉推理模型GLM-4 5V,涵盖图像、视频、文档理解等任务 [5] - 昆仑万维一周内连续发布六款多模态模型,覆盖数字人生成、世界模拟等场景 [5] 技术挑战与发展 - 多模态领域仍处于发展初期,诸多基础性问题尚未解决 [6] - 视觉数据表征空间达到百万维度的连续空间,与文本存在本质差异 [6] - 视觉数据本身不包含语义信息,需要建立跨模态映射关系 [7] - 当前多模态模型对于图形和空间结构的推理能力薄弱 [7] - 主流多模态模型后续思考推理过程仍主要依赖纯语言推理 [7] 行业趋势 - 2025年被业内人士普遍视为"AI应用商业化元年",多模态技术是核心驱动力 [6] - 多模态能力将成为AI系统的标配,如何转化为实际生产力是产业界下一步重点 [8]
阿里通义千问再放大招,多模态大模型迭代加速改写AGI时间表
21世纪经济报道· 2025-08-19 12:21
多模态大模型发展现状 - 阿里通义团队推出Qwen-Image-Edit,基于20B参数的Qwen-Image,支持双语文本修改、风格迁移及物体旋转,拓展生成式AI在专业内容创作中的应用 [1] - 阿里半年内连续推出Qwen2.5-VL、Qwen2.5-Omni、Qwen-Image等多模态模型,Qwen2.5-VL 72B版本在13项权威评测中视觉理解能力全面超越GPT-4o与Claude3.5 [3] - 阿里Qwen-Image-Edit登上AI开源社区Hugging Face模型榜单首位,成为全球热度最高的开源模型 [3] 行业竞争格局 - 谷歌原生多模态Gemini 1.0模型上线,将AI竞赛由文本领域带入多模态领域 [2] - 阶跃星辰发布Step 3基础大模型,原生支持多模态推理,其基座模型矩阵中多模态模型占比达7成 [4] - 商汤发布日日新V6.5大模型,从6.0开始全部为多模态模型 [5] - 智谱推出开源视觉推理模型GLM-4.5V,昆仑万维一周内发布六款多模态模型 [5] 市场规模与趋势 - 预计2025年全球多模态AI市场规模将达24亿美元,2037年底预计达到989亿美元 [1] - 2025年被业内人士视为"AI应用商业化元年",多模态技术是核心驱动力 [7] - 中国企业在视觉推理、视频生成等多个细分领域已排在权威榜单前列 [7] 技术挑战 - 多模态领域仍处于发展初期,诸多基础性问题尚未解决 [8] - 视觉数据表征空间达到百万维度的连续空间,与文本的数万维度存在本质差异 [8] - 当前多模态模型对于图形和空间结构的推理能力薄弱,无法解决简单空间问题 [10] - 多模态模型思维方式主要依赖逻辑推理,缺乏空间感知能力 [10] 发展方向 - 多模态能力将成为AI系统标配,如何转化为实际生产力和社会价值是下一步重点 [10] - 未来多模态模型可能在纯语言任务上超越单一语言模型 [1] - 2025年下半年或将迎来多模态模型的全面普及 [1]
19.2万标配四驱、激光雷达、英伟达Thor芯片,这款车捅破了中高端混动的“价值窗户纸”
每日商报· 2025-08-15 14:41
产品发布与市场反应 - 领克10EM-P于8月11日开启预售,预售价19.2万元起,全系标配激光雷达+四驱+英伟达Thor芯片,市场反响热烈[1] - 展车已陆续到店,各地经销商人气爆棚,预计下月正式上市[1] - 公司通过该车型展示了技术服务于体验的价值标杆理念,而非单纯堆砌配置[1] 性能与动力系统 - 领克10EM-P是20万级唯一标配四驱和激光雷达的混动轿车,打破四驱系统为高配专属的传统认知[2] - 基于CMAEvo平台,采用纯铝合金双叉臂+增强版五连杆独立悬架,搭配液压可变阻尼技术,麋鹿测试成绩83.2km/h,超越德系豪华竞品[2] - EM-P智能电混+eAWD智电四驱系统,最大功率390kW,最大扭矩755N·m,0-100km/h加速5.1秒[2] - 1.5TEvo引擎热效率达47.26%,CLTC亏电油耗4.2L/100km,实现"四驱动力两驱油耗"[3] - 首发神盾金砖超混电池,支持SOC10%-60%快充<13分钟,解决混动车型充电慢痛点[3] 智能驾驶与科技配置 - 全系标配激光雷达,整车配备29个传感器(1激光雷达+11摄像头+5毫米波雷达+12超声雷达),实现全方位监测[5] - 全球首款全系标配英伟达Thor芯片的轿车,算力700Tops,支持"满配"高阶智能辅助驾驶[5] - 基于Blackwell架构的Thor芯片适配COSMOS世界基础模型,未来可提升至理解交警肢体动作等复杂场景[5] - 千里浩瀚H7辅助驾驶系统结合多模态大模型,达到行业第一梯队水平,实现"全国都能开"[5] 定价与行业影响 - 完整预售价19.2万-22.2万元,预售期下订享至高18000元权益[6] - 重新定义C级插电混动标准,打破20万级市场对混动轿车的传统认知[6] - 可能成为中大型混动轿车市场新标杆,引领行业向高性价比、高科技含量方向发展[6]
面壁智能成立汽车业务线,已与吉利、大众等多家车企开展合作
新浪科技· 2025-08-15 07:38
公司战略与组织调整 - 公司于7月下旬进行新一轮组织升级 专门成立一级组织汽车业务线 旨在实现压强式突破 [1] - 公司目标让MiniCPM端侧模型的智能奔腾到更多汽车上 [1] 行业发展趋势 - 汽车是端侧智能的主战场之一 多模态大模型正在重新定义汽车智能座舱 [1] - 基于端侧模型的意图理解能力结合舱内舱外感知 使座舱从被动响应转向主动智能 [1] - 端侧模型上车带来更聪明与个性化的人车交互体验 并在无网环境下保证完整功能体验、响应迅速及隐私安全 [1] 业务合作与商业化进展 - 公司与吉利、大众、长安、长城、广汽等众多车企开展合作 [1] - 公司在打造智能化汽车的新一代人机交互(AI座舱)方面已形成特色优势 [1] - 搭载公司MiniCPM端侧模型的首款量产车型长安马自达战略级新能源车MAZDA EZ-60将于本月底上市 [1] - 更多车企的合作车型也将陆续推向新阶段 [1]
多点数智打造AI新质零售样板 行业全面升级空间广阔
中金在线· 2025-08-15 02:53
财务表现 - 公司实现营业收入人民币10.78亿元,同比增长14.8% [1] - 净利润达人民币6217万元,同比大幅扭亏为盈 [1] - 经调整净利润同比激增152.5%至人民币7701万元 [1] 业务发展 - 公司同步打造AI新质零售标杆案例,探索零售行业高质量转型升级模式 [1] - 深入调研胖东来等业内领先零售商,形成成熟的调改方法论 [1] - 通过AI智能客流、冷链智控及智能巡检等核心技术助力门店数智化升级 [1] - 物美调改店日均销售额达到调改前的4至8倍,且呈现持续增长态势 [1] 行业趋势 - 零售行业正处于深度变革期,消费结构演进、经营模式重塑与组织体系调整相互交织 [2] - 生成式人工智能、多模态大模型、AIoT等技术持续突破,成为驱动新一轮产业升级的关键力量 [2] - 技术价值在于能否深入理解零售场景逻辑,在商品、门店、供应链等环节中精准落地 [2] 战略方向 - 公司打造AI新质零售样板,推动技术与业务深度融合 [2] - 形成具备示范价值的应用路径,为企业带来可持续增长 [2] - 为整个行业迈向高质量发展带来新路径 [2]
2025年AI驱动下通信云行业的全球化变革
艾瑞咨询· 2025-08-15 00:07
市场规模与增长 - 2024年全球互联网通信云市场规模约68亿美元,同比增速放缓,主要受AI场景化落地观望和宏观经济环境影响[1][7] - AI在云通信市场渗透率仅15%,未来3-5年随着AI陪伴、AI助理等新场景拓展,市场有望回暖[7] - 预计未来2-3年将迎来新一轮增长,主要驱动力为AI技术成熟和场景化应用落地[1] 技术发展趋势 - 通信云从信息传输管道向AI交互中枢进化,聚焦场景化赋能与数据价值挖掘[2] - 开发者需求向安全、智能和开放收束,跨平台兼容与AI能力开放成为厂商核心竞争力[2][3] - GenAI推动文本、语音、视频融合交互,未来3-5年厂商将朝"多模态大模型×场景化服务"方向发展[3] - 运用QKD、MAF和BC技术提升数据传输链路安全性是未来趋势[21] 区域市场特征 国内市场 - 进入存量竞争阶段,IM PaaS市场TOP3占比90%,RTC PaaS市场TOP3占比70%[35] - 企业客户更关注通信服务稳定性、数据支撑业务和跨平台开发效率[10] - 融云在第三方通信云厂商中市场份额约56%[35] 国际市场 - 欧美市场重视数据隐私与合规性,对AI虚拟恋人等新玩法接受度高[13] - 新兴市场聚焦本土化适配与场景创新,关注连接稳定性和多语言AI能力[13] - 全球82%国家和地区已建立或正在建立数据隐私法规[16] 竞争格局与策略 - 厂商从"通信云基建"向"AI生态工具"转型,关注成本费用控制[7] - 头部企业通过封装全栈大模型能力优化场景交互体验[35] - 出海业务需满足主权明晰、防篡改、可溯源等合规要求[35] - 加快大模型、安全技术融合与属地化生态合作成为业务布局方向[32] 应用场景与商业化 - 短期优先锚定低准确性、低实时性要求的价值场景[27] - 多模态大模型+穿戴式硬件成为未来3-5年主要发力场景[42] - 社交娱乐领域融合AI的复合型玩法加速涌现[42] - 通信云向商业基座升级,成为连接用户、设备和服务的"神经中枢"[42] 开发者生态 - 产品开放体现在API接口集成能力,生态开放体现在技术支持与创业孵化[30] - 企业全球化业务推动跨平台兼容性成为选型重要考量[30] - 开发者对底层模型选择、参数调配、多模型兼容等有更多自定义需求[30]
想学习更多大模型知识,如何系统的入门大?
自动驾驶之心· 2025-08-14 23:33
自动驾驶与大模型技术 - 自动驾驶VLA当前热度较高 行业关注度显著提升 带动大模型技术需求增长 [1] - 大模型之心Tech社区聚焦四大技术方向:RAG检索增强生成 AI Agent智能体 多模态大模型训练优化 部署推理优化 [1] - 多模态大模型细分领域包括预训练 微调 强化学习三大技术路径 [1] 技术社区建设 - 大模型之心Tech知识星球定位为国内最大规模大模型技术社区 持续输出产业与学术资源 [1] - 社区核心功能模块正在快速搭建 重点覆盖人才培养 技术交流 行业信息整合 [1] - 社区目标用户群体为对大模型技术有深度研究需求的企业与个人开发者 [1][2] 内容生态定位 - 社区内容生产标准强调专业性 致力于成为技术领袖孵化平台 [2] - 平台内容方向严格区分于普通自媒体 聚焦硬核技术解析与前沿应用实践 [2]
AI观察|从 F1 到足球:数据专家跨界背后,AI 商业化的破局之路
环球网资讯· 2025-08-14 05:27
F1数据分析专家跨界应用AI - 曼联从F1梅赛德斯车队挖来拥有11年经验的数据分析专家迈克·桑索尼担任数据总监 将重点推动AI与足球数据的结合 包括球员招募 战术分析等决策支持 [1] - 桑索尼的跨界跳槽引发AI行业关注 显示AI技术应用场景的广泛延展性 尤其在GPT-5多模态大模型趋势下 商用化想象空间被进一步打开 [1] AI商业化突破领域 - AI编程领域形成明确变现路径 Anthropic因占据代码编写技术优势 估值一个月内飙升十倍 主要受益于企业级客户的高付费意愿 [2] - 谷歌在多模态场景生成技术超越OpenAI Sora 未来可能切入游戏或电影行业 米哈游创始人认为AI图像生成技术已对传统游戏美术设计形成替代 [2] - 医疗健康成为可盈利场景 OpenAI凭借低幻觉特性 在医学会议记录 病历结构化 数据质控等环节实现应用落地 [2] 大模型商业化加速 - 自GPT-4发布两年内 大模型商业化已找到多个突破口 技术爆发呈现"加速回报定律"特征 各领域需求增长快于预期 [4]
全球首款女团机器人10580元拍出 接入京东Joy Inside智能体
搜狐财经· 2025-08-13 18:35
产品特点 - 灵童·念NIA - F01人形机器人以1元起拍最终以10580元成交,显示出市场对创新型机器人产品的关注与认可 [1][4] - 该机器人号称"全球首个女团机器人",身高56厘米(人类大小的三分之一),裸机重量不超过700克,采用软质PVC皮肤和ABS及金属骨架 [1] - 支持用户自行绘制体妆和面妆,满足个性化需求 [1] 技术性能 - 基于自研6-8毫米微型数字伺服舵机,拥有最高达34个自由度的微骨架,能做出转头、挥手等细腻动作 [3] - 整合多模态大模型,涵盖视觉、听觉、触感,配备情绪动作库,通过双目摄像头识别表情变化,利用矩阵麦克风捕捉语气情绪 [3] - 具备"感知-理解-回应"闭环功能,能根据用户情绪状态回应并记忆用户偏好 [3] 交互功能 - 人设、音色、动作库向用户开放共创,可注入真人、虚拟偶像等行为逻辑 [3] - 支持通过手机APP上传声纹样本生成独特音色,可在性格矩阵中选择"毒舌""腹黑""学霸"等不同人格 [3] - 接入京东Joy Inside对话智能体,具备高情商对话体验、多元场景适配、海量角色选择、言行高度一致四大优势 [4]
VLA:何时大规模落地
中国汽车报网· 2025-08-13 01:33
VLA技术发展现状 - 理想i8成为首款搭载VLA司机大模型的车型,主打"像家人一样懂你"的辅助驾驶体验 [2] - 博世认为VLA短期难以落地,坚持投入一段式端到端技术,因多模态对齐和数据训练困难 [2] - 行业对VLA落地时间存在分歧,乐观预测2025年为元年,保守估计需3-5年技术成熟 [2][12][13] 技术路线对比 - 模块化端到端保留部分人工设计接口,存在感知与决策衔接难题 [2] - 一段式端到端采用全局优化模型,特斯拉FSD V12代码量从30万行缩减至2000行 [4] - VLA通过思维链实现可解释性决策,在潮汐车道等复杂场景表现优于传统端到端 [4][5] - VLA单日可完成30万公里仿真测试,显著降低实车数据依赖 [5] 技术演进路径 - 行业主流从端到端+VLM双系统转向VLA原生融合架构 [6] - 端到端+VLM需同步处理TB级视频流与百亿参数模型,车载算力紧张 [6] - VLA通过对比学习实现多模态特征对齐,仿真复现率达99.9% [7] - 理想汽车通过端到端+VLM升级至VLA架构,实现空间理解等四大能力 [5] 算力与芯片挑战 - 当前智驾芯片算力不足,英伟达Orin(254TOPS)不支持语言模型直接运行 [9] - 英伟达Thor芯片实际算力缩水,基础版仅300TOPS [9] - VLA低速自动驾驶需10赫兹运行频率,高速需20赫兹 [9] - 车企加速自研芯片:理想马赫100计划2026量产,特斯拉AI 5算力或达2500TOPS [11] 落地时间表 - 短期(2025-2026):特定场景如高速路/封闭园区应用 [14] - 中期(2027-2029):算力达2000TOPS时覆盖城市全场景,接管率或低于0.01次/公里 [14] - 长期(2030年后):光计算架构+脑机接口实现类人直觉决策 [14] - 需突破多模态对齐、训练效率、芯片能效比等关键技术 [14]