Workflow
多模态模型
icon
搜索文档
540亿商汤,甩出一张新牌
21世纪经济报道· 2025-04-15 02:35
商汤科技发布日日新V6大模型 - 公司正式发布全新升级的"日日新SenseNova V6"大模型体系 以"多模态"为关键词 是今年AI产业的重头戏 [2] - 日日新V6是拥有超6000亿参数的MoE原生多模态通用大模型 凭借单一模型可完成文本、多模态等各类任务 [2] - 公司从去年5、6月开始探索多模态 9、10月技术路线基本跑通 专注多模态推理而非纯文本赛道竞争 [2] 技术能力突破 - 长思维链:超过200B高质量多模态长思维链数据 最长64K思维链 [3] - 数理能力:数据分析能力大幅领先GPT-4o [3] - 推理能力:多模态深度推理国内第一 对标OpenAI o1 [3] - 全局记忆:率先在国内突破长视频理解 支持10分钟视频理解及深度推理 计划2025年实现1小时视频理解 [3][4] 战略布局 - 公司提出"大装置-大模型-应用"三位一体战略 聚焦主业 边缘业务以生态方式孵化 [4] - 目标成为"最懂算力的大模型服务商"和"最懂大模型的算力服务商" 打造端到端竞争力 [4] - 截至4月14日收盘 公司市值超540亿港元 [4] 应用方向 - 提供生产力工具 切入金融、政务、企业等高价值业务环境 提升效率、优化流程、改善体验 [5] - 提供交互工具 包括智能陪伴、智能硬件交互、智能营销等 改善人机交互体验 增强用户粘性 [5] 行业趋势 - 开源模型与工具渐成主流 [5] - 性价比是所有大模型应用的生死线 [5] - 多模态成为最新技术焦点 将打开更多新应用场景和新硬件形态 [5]
Meta,最新发布!“多模态性最强模型”
券商中国· 2025-04-06 06:10
文章核心观点 Meta推出开源人工智能模型Llama 4,是应对新兴开源势力的“回击”,推动开源模型技术发展和生态完善,当前大模型竞争趋于白热化,行业进入推理强化和应用拓展阶段 [2][8] 大规模、多模态、长文本的Llama 4发布 - Meta于4月6日凌晨发布Llama 4系列首批模型,包括Llama 4 Scout、Llama 4 Maverick,还预览了Llama 4 Behemoth [3] - Llama 4是Llama系列中首批采用混合专家(MoE)架构的模型,与传统稠密模型相比,训练和推理计算效率更高 [3] - Llama 4参数规模大,Llama 4 Scout有1090亿参数、170亿激活参数量;Llama 4 Maverick有4000亿参数、170亿激活参数量;Llama 4 Behemoth总参数高达2万亿,有2880亿激活参数量 [4] - Llama 4多模态能力突出,采用早期融合技术,用无标签文本、图片和视频数据预训练,实现文本和视觉token无缝整合 [4] - Llama 4用图像和视频帧静止图像训练,支持多图像输入与文本提示交互,预训练最多用48张图像,后训练测试最多8张图像 [5] - Llama 4长文本能力有突破,Llama 4 Scout支持高达1000万token的上下文窗口,处理长文档等任务表现出色 [5] 大模型竞争趋于白热化 - Meta于2022年推出Llama系列模型,2023年开源Llama 2并可免费商用,2024年4月发布Llama 3,实现多模态处理能力 [6] - DeepSeek崛起冲击Meta在开源模型社区的领先地位,1月末有爆料称DeepSeek - V3让Llama模型相形见绌,Meta工程师分析其技术 [7] - 阿里通义千问系列开源大模型表现出色,Qwen2.5 - Omni登上Hugging Face大模型榜单总榜榜首,千问衍生模型数量超Llama系列 [7] - OpenAI计划几周后发布推理模型o3和基座模型o4 - mini,几个月后推出GPT - 5 [8] - DeepSeek与清华团队发布论文,成果被视为下一代推理模型R2的重要技术铺垫 [8] - 大模型竞争进入推理强化和应用拓展阶段,个人智能体潜力显现,开源开放成核心竞争力,大算力等成发展趋势 [8]
“计算机视觉被GPT-4o终结了”(狗头)
量子位· 2025-03-29 07:46
GPT-4o多模态图像生成技术突破 - GPT-4o原生多模态图像生成能力被开发出多种新玩法,包括将表情包转化为语义分割图和深度图[2][3][4] - 该技术对传统AI画图工具、设计师和计算机视觉研究领域产生颠覆性影响[6] - 在自动驾驶领域展现潜力,能识别特斯拉自动驾驶系统无法识别的伪装"隐形墙"[8] 技术实现路径争议 - 应用研究主管提出自动驾驶领域只需训练强大基础模型后微调即可实现[10] - 反对观点认为Stable Diffusion+ControlNet已具备同等能力[11] - 技术突破关键在于通过扩大基础模型规模实现意想不到的效果[12] 模型架构技术细节 - GPT-4o图像生成采用原生嵌入ChatGPT的自回归模型,与DALL·E的扩散模型不同[13][15] - 推测采用多尺度自回归组合技术,首先生成粗略图像再逐步填充细节[17] - 存在争议观点认为解码阶段可能仍使用扩散模型,参考Meta 24年8月论文提出的多模态模型同时预测token和扩散图像的方法[20][24] 行业活动信息 - 中国AIGC产业峰会将于4月16日在北京举行,汇聚百度、无问芯穹等AI领域企业[26]
32B本地部署!阿里开源最新多模态模型:主打视觉语言,数学推理也很强
量子位· 2025-03-25 00:59
阿里通义千问Qwen2.5-VL-32B-Instruct发布 - 公司发布Qwen2.5-VL-32B-Instruct视觉语言模型,进一步扩充开源家族产品线[1][2] - 新模型尺寸为32B,填补了此前3B、7B和72B之间的空白,兼顾本地运行能力与性能表现[2][3] - 通过强化学习优化,模型在文本能力上达到同规模SOTA水平,部分基准测试甚至超越72B版本[4] 模型技术性能突破 - 具备精细化图像理解与推理能力,可结合时间、距离、限速等要素进行多步骤逻辑推算[5] - 数学推理能力显著提升,能完成几何角度计算等复杂问题,分步骤推导过程清晰[8][9][10][11] - 图像解析和视觉逻辑推导任务中表现出更高准确性与细粒度分析能力[5][13] 行业影响与用户反馈 - 模型已在Hugging Face平台开源,支持在Qwen Chat直接体验[14][15] - 技术社区快速响应,MLX Community已有用户成功运行[16] - Hacker News网友热议开源策略,认为此举验证了开源模式优势[17] 行业动态观察 - 公司近期与DeepSeek多次同步发布新模型,引发行业对协同策略的关注[18] - 模型发布节奏显示国内AI企业技术迭代加速,形成竞争性创新格局[1][18]
智谱上线GLM-4-Voice端到端情感语音模型:迈向AGI之路的最新一步
IPO早知道· 2024-10-26 02:12
智谱GLM-4-Voice模型发布 - 智谱于10月25日上线GLM-4-Voice端到端情感语音模型,具备情感表达、语速调节、多语言支持和随时打断等功能 [3] - 模型采用端到端架构,避免了传统"语音转文字再转语音"级联方案的信息损失和误差积累 [3] - 支持中英文及中国各地方言,尤其擅长粤语、重庆话、北京话等 [3] - 即将上线视频通话功能,实现"能看又能说"的AI助理 [3] - 这是智谱首个开源的端到端多模态模型,延续了"发布即开源"的风格 [2][3] GLM-4-Plus基座模型能力 - GLM-4-Voice的推出标志着智谱在迈向AGI道路上的最新进展 [4] - 背后依托新的基座模型GLM-4-Plus,其语言文本能力与GPT-4o及405B参数的Llama3.1相当 [4] - 基于GLM-4-Plus,智谱在多模态领域取得阶段性成果,使GLM多模态模型家族更加完整 [4] 模型功能特点 - 情感表达和共鸣:支持高兴、悲伤、生气、害怕等细腻情感变化 [3] - 实时交互能力:可随时打断并调整语音输出的内容和风格 [3] - 语速调节:在同一轮对话中可要求加快或放慢语速 [3]