多模态大模型

搜索文档
AI+教育,一个被远远低估的赛道
凤凰网· 2025-09-29 12:29
摘要: 真正高阶的AI老师开始出现了。 2024年5月,GPT-4o发布的夜晚,许多教育赛道的从业者难眠,因为在那场发布中,可汗学院创始人受 邀演示实时语音辅导初中数学几何题。过程中,GPT-4o直接化身在线老师,给教育行业很大冲击。 一年多过去了,教育行业反倒是松了一口气,因为OpenAI再没在AI+教育上使劲发力。通用大模型不再 是行业强劲的对手,相反,他们激发了AI+教育市场的潜力,来自教育赛道的多方势力,开始暗自投 入。 在今年9月24日开幕的云栖大会上,好未来旗下九章爱学多场景智慧教育解决方案与学而思学习机T4旗 舰款等产品分别在1号馆和3号馆内展出,作为在1号馆唯一出展的教育科技企业代表,展台前围聚了不 少学生家长与教育机构从业者。其展出的核心亮点之一,正是多模态能力的提升。 图|凤凰网科技 家长们只需要打开其中的AI批改、AI写作引导,就能体验各种AI教学过程,和此前的对话式AI不同, 多模态能力的引入,让学习机开始能看见、会理解,可以通过扫描学生的作业,完成实时批改,甚至能 根据纸上的书写情况,实时批改讲解、展示解题思路。 这意味着,在新一代多模态大模型的支撑下,真正高阶的AI老师开始出现,其 ...
奇多多AI学伴亮相2025云栖大会,无界方舟用AI“慧眼”开启智能早教时代
财富在线· 2025-09-29 10:24
在近日举办的2025云栖大会现场,无界方舟推出的国内首款基于「端到端实时多模态互动模型」的AI 学伴机器人——奇多多,成为全场焦点。这款产品在京东预售仅上线一周,销量便突破了10000台,这 个数字不仅体现了市场对优质AI早教产品的渴望,更预示着多模态大模型在消费级硬件领域的商业化 曙光正在到来。 正如一位现场宝妈所说:"太好了!终于不止是AI玩具了,而是解决了很多早教痛点问题。"在AI技术日 益成熟的今天,奇多多的成功或许验证了:在早教赛道,"功能驱动"比"概念炒作"更能让市场买单。更 令人瞩目的是,奇多多在展会期间,现场获得了上百位家长下单预定,同时吸引了几十家AI产品后续 对接无界方舟EVA模型的合作机会,成为本届大会最具商业潜力的AI硬件产品。 云栖大会现场火爆,奇多多展现真实力 在云栖大会3号馆·前沿应用馆奇多多星球展台,奇多多吸引了大量参展观众及宝宝驻足体验。孩子们手 拿绘本、练习、玩具、绘画作品等,与奇多多进行自然互动,现场气氛热烈。 奇多多展现出的不仅仅是语音交互能力,更是真正的多模态理解能力。它能够识别孩子手中的任意绘 本/教材/卡片等读物,无论中文、英文,甚至儿童读物复杂分散的混合排版,都 ...
曝顶级AI大牛,加入阿里通义,事关下一代大模型
36氪· 2025-09-29 09:56
人才变动 - 全球顶尖AI科学家许主洪加盟阿里通义 转向通义大模型研发工作[2] - 许主洪拥有超20年AI产业和学术经验 发表300多篇顶级学术论文 被引用超过5万次 曾被评为全球顶尖1% AI科学家[2] - 许主洪曾担任Salesforce副总裁 从零构建亚洲AI研究生态系统 2023年创立多模态AI创企HyperAGI[2] 职务安排 - 2025年2月许主洪加入阿里 担任集团副总裁兼智能信息事业群首席科学家 负责AI To C业务多模态基础模型及智能体研究[4] - 原核心任务包括组建顶级AI算法团队 整合通义/夸克/天猫精灵等内部资源 促进多模态交互产品迭代[4] - 加入7个多月后转向通义实验室团队 可能从AI To C商业化研发转向更基础前沿的大模型研发[7] 战略布局 - 阿里通义大模型处于"拼迭代速度"和"多模态发展"关键阶段 需要顶尖产学研多栖AI人才[7] - 阿里云CTO周靖人透露 通义家族持续与全球AI领先者竞争 比拼模型迭代效率 多模态演进是必然趋势[7] - 公司期待在多模态方面进一步创新突破 许主洪被视作最适牵头人选[7] 技术方向 - 许主洪认为用统一框架做理解和生成是多模态大模型演进趋势 但该领域尚处初级阶段需实践验证[7] - 统一多模态模型面临全模态交互挑战 支持音/视/图/文全模态交互的公开单模型非常少见[10] - 图像和语意理解生成统一模型鲜有出现 理解与生成效果难以平衡[10] - 多模态Agent AI时代刚起步 需解决基础能力/智能体功能模块/数据世界连接/物理世界交互等技术难题[10]
传梅卡曼德机器人秘密申请香港IPO 预计募资15.6亿港元
智通财经· 2025-09-25 01:52
上市计划与融资情况 - 公司已秘密提交香港上市申请 预计募资2亿美元(合15.6亿港元)[1] - 累计融资额超20亿元人民币 最新一轮融资约5亿元人民币[1] - 投资方包括IDG资本、美团、红杉中国、源码资本、英特尔资本、启明创投等知名机构[1] 技术能力与产品布局 - 公司专注于具身智能机器人领域 产品包括工业级3D相机、机器人编程软件、机器视觉软件[1] - 自研通用机器人"眼脑手"全栈技术 涵盖多模态大模型、成像算法、AI识别算法、机器人控制等核心技术[2] - 在2025世界人工智能大会展示近10个前沿应用单元 包括双臂机器人叠衣、人形机器人取货等场景[2] 市场地位与商业化进展 - 连续五年(2020-2024)位列中国3D视觉引导工业机器人市场占有率第一[2] - 产品进入全球100+《财富》500强企业的灯塔工厂 市场占有率保持全球领先[2] - 业务覆盖中国、美国、日本、韩国、欧洲、东南亚等国家和地区[2] 行业应用与客户基础 - 技术已在汽车、新能源、物流、重工、3C、家电、食品等行业实现跨领域批量化应用[2] - 最新融资将用于拓展产品线与场景应用 提升全球商业化与客户服务能力[1]
百度Qianfan-VL开源,纯国产自研昆仑芯跑出世界一流
选股宝· 2025-09-25 00:14
模型系列概述 - Qianfan-VL系列包含3B、8B和70B三个版本 参数量从小到大 分别对应不同应用场景 [1] 模型规格对比 - 3B版本支持32k上下文长度 不支持思考功能 适用于端上实时场景和OCR文字识别 [2] - 8B版本支持32k上下文长度 支持思考功能 适用于服务端通用场景和微调优化场景 [2] - 70B版本支持32k上下文长度 支持思考功能 适用于离线数据合成和复杂推理计算场景 [2] - 全系列模型均在百度自研昆仑芯P800芯片上完成训练 [2] 核心功能特性 - 多模态大模型具备图像理解和文字处理能力 可分析复杂图表数据与趋势 [3] - OCR能力实现全场景覆盖 支持印刷体、手写字、艺术字及数学公式识别 [3] - 教育场景深度优化 专注于K12阶段 擅长拍照解题、几何推理和函数分析 [3] 性能基准测试 - 在ScienceQA测试中70B版本达到98.76分接近满分 显著超越竞争对手 [4] - 中文多模态基准测试CCBench中70B版本获得80.98分 相比同级别对手70分左右优势明显 [5] - 数学解题测试(Mathvista-mini, Math Vision, Math Verse)中70B版本呈现碾压式领先 [5] - 具体测试得分:A-Bench_VAL(78.1) CCBench(80.98) SEEDBench_IMG(79.13) SEEDBench2_Plus(73.17) MMVet(57.34) MMMU_VAL(58.33) ScienceQA_TEST(98.76) ScienceQA_VAL(98.81) MMT-Bench_VAL(71.06) MTVQA_TEST(32.18) BLINK(59.44) MMStar(69.47) RealWorldQA(71.63) Q-Bench1_VAL(77.46) POPE(88.97) RefCOCO(91.01) [4] 硬件支撑体系 - 训练基于百度自研昆仑芯P800芯片 2025年4月建成国内首个3万卡P800集群 [6] - 模型训练在超过5000张昆仑芯P800卡集群上完成 [6] - 芯片参数:7nm制程 INT8算力256 TOPS 内存16/32GB GDDR6 内存带宽1.2 TB/s 功耗150/160W 互联带宽600 GB/s [7] - 功耗控制显著优于竞争对手 A100功耗250/400W H100功耗700W [7] 芯片架构创新 - 采用XPU-R架构 实现计算单元与通信单元硬件分离 [8] - "通算融合"技术通过精巧调度掩盖数据传输等待时间 大幅提高芯片利用率 [8] - "昆仑芯超节点"方案将64张P800集成单机柜 机内通信带宽提升8倍 单机训练性能提升10倍 [8] 模型架构设计 - 语言模型部分:3B版本基于Qwen2.5 8B和70B版本基于Llama 3.1 [10] - 视觉编码器采用InternViT 最高支持4K超高清图像处理 [10] - 采用创新"四阶段训练管线"提升模型性能 [10] 训练方法论 - 第一阶段跨模态对齐:冻结语言和视觉模块 仅更新MLP Adapter连接件 [14] - 第二阶段通用知识注入:投放2.66T tokens通用数据 全面开放参数训练 [14] - 第三阶段领域增强知识注入:精选OCR/文档理解/数学解题等高质数据专项训练 掺入通用数据防止灾难性遗忘 [14] - 第四阶段后训练:通过指令微调数据提升指令遵循能力 [14] - 专业数据通过高精度数据合成管线自主生成 [15] 开源与部署 - 全系列模型已在GitHub和Hugging Face平台全面开源 [16] - 百度智能云千帆平台提供在线体验和部署服务 [17] - 具体开源地址:GitHub(https://github.com/baidubce/Qianfan-VL) Hugging Face(70B/8B/3B版本) ModelScope(百度千帆组织) [17]
等了大半年的Qwen3-VL终于也开源了!
自动驾驶之心· 2025-09-24 06:35
阿里云通义千问Qwen3-VL多模态模型发布 - 阿里云在云栖大会期间密集开源了Qwen3-Omni系列、Qwen-Image-Edit-2509、Qwen3-VL、Qwen3Guard-Gen等12个模型[4] - 同时发布了未开源的API产品包括Qwen-TTS、Qwen3-Coder-Plus、Qwen3-Max、Qwen3-LiveTranslate等[5] - Qwen3-VL-235B-A22B作为MoE架构模型采用MRoPE-Interleave位置编码技术 显著提升长视频理解能力[7] 模型架构升级 - vision encoder部分将patch_size从14扩大到16 激活函数从silu变为gelu_pytorch_tanh[6] - projector部分在MLP-based Projector基础上增加DeepStack 将vision encoder中8、16、24三层特征插入LLM[6] - llm decoder部分采用Qwen3模型 支持Dense和MoE两种架构[7] 性能基准测试表现 - 在MMMUVAL测试中获得78.7分 接近Gemini2.5-Pro的80.9分[10] - MathVistamini测试达到84.9分 显著超越GPT5的50.9分和Claude-Opus-4.1的74.5分[10] - MMBench_EN_V1.1 dev测试获得89.9分 超越InternVL3的89.0分[10] - DocVQATEST测试达到97.1分 领先Gemini2.5-Pro的94.0分和GPT5的89.6分[10] - OCRBench测试获得920分 大幅超越Gemini2.5-Pro的872分和GPT5的787分[10] 实际应用测试结果 - OCR手写体识别准确率显著提升 色彩识别能力改善明显[13] - 表格识别任务保持高水平表现 能够准确还原HTML表格结构[17][19] - 数学计算能力突出 在GDP数据计算任务中准确识别江苏省141633.8亿元为最大值并计算占比10.56%[36][37][39] - 图片排序任务表现优异 正确理解雪糕购买滑倒的因果逻辑序列[71][73] - 色盲测试全部通过 准确识别数字6和74[93][97] - 医疗报告分析能力强大 准确解读体检报告异常指标[27][28] 现存技术局限 - 网页复刻任务效果较差 生成的HTML代码美观度不足[23] - 目标计数存在误差 将10个菇娘儿误判为11个[46] - 空间变换能力有限 复杂三维变换任务回答错误[89] - 地标识别存在偏差 将上海金茂大厦误认为上海中心大厦[104] - 多图对比任务表现不佳 奔跑的人定位任务行列序号判断错误[52][54] 模型部署建议 - 当前235B-A22B参数规模较大 期待推出30B-A3B等轻量化版本满足更广泛部署需求[106] - 推理版本存在过度思考导致错误的问题 需要优化思考机制[13] - 在GUI界面理解任务中表现良好 得益于精准的grouding能力[13]
打算招聘几位大佬共创平台(4D标注/世界模型/VLA等方向)
自动驾驶之心· 2025-09-23 23:32
QS200以内高校,硕士及以上学历,手握顶会的大佬优先。 待遇说明 自动驾驶资源共享(求职、读博、出国留学推荐等); 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 业务合伙人 自动驾驶之心业务合伙人招募来啦!我们团队今年计划向国内外招募10名优秀的合伙人,负责自动驾驶相 关课程研发、论文辅导业务开发、硬件研发; 主要方向 如果您是大模型/多模态大模型、扩散模型、VLA、端到端、具身交互、联合预测、SLAM、3D目标检测、 世界模型、闭环仿真3DGS、大模型部署与量化感知推理等方向,欢迎加入我们; 岗位要求 丰厚的现金激励; 创业项目合作与推荐; 联系我们 更多欢迎添加微信咨询,备注" 机构/公司 + 自动驾驶合作咨询 "。 ...
8B硬刚72B!MiniCPM-V 4.5技术报告正式出炉
量子位· 2025-09-23 11:01
MiniCPM团队投稿 发自 凹非寺 量子位 | 公众号 QbitAI 行业首个具备"高刷"视频理解能力的多模态模型 MiniCPM-V 4.5 的技术报告正式发布! 报告提出 统一的3D-Resampler架构实现高密度视频压缩 、 面向文档的统一OCR和知识学习范式 、 可控混合快速/深度思考的多模态强化 学习 三大技术。 基于这些关键技术,MiniCPM-V 4.5在视频理解、图像理解、OCR、文档解析等多项任务上达到同级SOTA水平,不仅以8B的参数规模超越 GPT-4o-latest和Qwen2.5-VL-72B,更在推理速度上具有显著优势。 模型一经开源,就广受社区好评,并直接登上HuggingFace Trending TOP2。 截至目前,MiniCPM-V 4.5在HuggingFace、ModelScope两大平台合计下载量超 22 万 。 接下来,就和我们一起看看报告里讲了什么。 研究背景 随着多模态大模型的迅速发展,其在模型架构、数据工程和训练方法上的高昂成本和效率瓶颈,正成为其广泛应用和技术迭代的核心障碍。 而在移动设备和边缘计算场景中,如何在保持出色性能的同时实现高效推理, 给多模 ...
阿里一夜扔出三个开源王炸,猛刷32项开源SOTA
36氪· 2025-09-23 09:06
阿里通义多模态大模型技术突破 - 开源原生全模态大模型Qwen3-Omni 支持文本、图像、音频和视频无缝处理及实时流式响应 在36项音频及音视频基准测试中斩获32项开源SOTA与22项总体SOTA 超越Gemini-2.5-Pro、Seed-ASR、GPT-4o-Transcribe等闭源模型 [1] - 语音生成模型Qwen3-TTS支持17种音色与10种语言 在语音稳定性与音色相似度评估中超越SeedTTS、GPT-4o-Audio-Preview等主流产品 [1] - 图像编辑模型Qwen-Image-Edit-2509更新 首要更新是支持多图编辑 可拼接不同图片中的人物+人物、人物+物体等 [1] Qwen3-Omni功能与性能 - 支持119种文本语言交互、19种语音理解语言与10种语音生成语言 延迟方面纯模型端到端音频对话延迟低至211ms 视频对话延迟低至507ms 支持30分钟音频理解 [4] - 在全方位性能评估中 单模态任务表现与参数规模相当的Qwen系列单模态模型持平 音频任务表现更好 在语音识别与指令跟随任务中达到Gemini-2.5-Pro相同水平 [10] - 采用Thinker-Talker架构 Thinker负责文本生成 Talker专注于流式语音Token生成 直接接收来自Thinker的高层语义表征 支持高并发与快速推理 [12][13] Qwen3-TTS技术特性 - 中英稳定性在seed-tts-eval test set上取得SOTA表现 超越SeedTTS、MiniMax、GPT-4o-Audio-Preview [14] - 多语言稳定性和音色相似度在MiniMax TTS multilingual test set上 WER在中文、英文、意大利语、法语达到SOTA 显著低于MiniMax、ElevenLabs、GPT-4o-Audio-Preview [14][16] - 具备高表现力的拟人音色 提供17种音色选择 每一种音色均支持10种语言 支持方言生成包括普通话、闽南语、吴语、粤语等9种方言 [14][15] 图像编辑模型升级 - Qwen-Image-Edit-2509支持多图输入 通过拼接方式提供"人物+人物"、"人物+商品"、"人物+场景"等多种玩法 [22] - 单图一致性增强 人物编辑一致性增强包括增强人脸ID保持 商品编辑一致性增强包括增强商品ID保持 文字编辑一致性增强支持多种文字的字体、色彩、材质编辑 [25] - 原生支持ControlNet 包括深度图、边缘图、关键点图等 [25] 实际应用场景表现 - 具备良好的世界知识储备 通过识别啤酒品牌、植物等画面进行测试 模型均能给出准确回答 [3] - 支持分析音乐风格、元素 以及对视频中画面进行推理 如分析出视频中的用户是在解数学题还会对这道题进行解答 [9] - 在多人交互场景中能分析人物的性别、说话的语气、内容等 如分析方言类型及对话内容 [8]
光模块再冲锋,中际旭创涨超4%!英伟达拟向OpenAI投资至多1000亿美元!云计算ETF汇添富(159273)一度大涨超2%!
新浪财经· 2025-09-23 02:41
行业事件驱动 - 英伟达与OpenAI达成战略合作意向 将建设至少10吉瓦AI数据中心并配备数百万块英伟达GPU 英伟达计划投资至多1000亿美元支持新系统落地[3] - 合作消息直接催化光模块板块大涨 中际旭创涨超4% 新易盛涨超3%[3] - 算力板块受海外消息影响整体走强 云计算ETF汇添富(159273)盘中最高涨超2% 当日成交额近2000万元 近20日净流入超7亿元[1][3] 个股表现 - 中际旭创涨幅4.64% 成交额97.46亿元 在云计算ETF中权重占比15.82%[4] - 新易盛涨幅3.54% 成交额91.48亿元 权重占比15.57%[4] - 阿里巴巴-W涨2.20% 成交额49.44亿元 权重占比8.67%[4] - 腾讯控股微跌0.31% 浪潮信息涨0.77% 中科曙光跌0.59%[4] 光模块行业前景 - 英伟达GPU和自研ASIC快速迭代 每代芯片Scaleout带宽保持翻倍提升 带动光模块使用量飙升[5] - AI多模态大模型参数量提升推动带宽容量扩张 芯片互连领域呈现"光进铜退"趋势[5] - 市场采用GPU:光模块=1:2.5换算比例 若Scale Up应用CPO技术 比例将变为GPU:光引擎=1:11.5[5] - 光模块应用范围从GPU扩展至CPU、FPGA、ASIC及HBM等领域 行业未来将演进为光引擎行业 市场规模预计大幅增长[5] 算力需求与资本开支 - 推理算力需求成为驱动全球云厂商资本开支的关键因素[6] - 2025年海外四大云厂商合计资本开支预计同比增长50%至3338亿美元 2026年投资规模将进一步扩大[6] - 美国科技巨头公布大规模投资计划 Meta计划到2028年投资6000亿美元 苹果投资6000亿美元 谷歌投资2500亿美元 微软每年投资750-800亿美元[6] - 算力服务板块(云服务、算力租赁、IDC提供商)将成为AI基础设施需求的二阶受益者[6][7] - 万卡集群成为大模型竞赛入场券 运营商和互联网大厂持续加大投入 为算力服务公司打开新成长空间[7] 产品布局 - 云计算ETF汇添富(159273)覆盖A+H算力龙头 标的指数涵盖硬件设备、云计算服务、IT服务等六大领域[7] - 指数软硬件比例6:4 港股权重超26% 全面布局AI算力驱动下的云计算机遇[7]