Workflow
多模态大模型
icon
搜索文档
传梅卡曼德机器人秘密申请香港IPO 预计募资15.6亿港元
智通财经· 2025-09-25 01:52
上市计划与融资情况 - 公司已秘密提交香港上市申请 预计募资2亿美元(合15.6亿港元)[1] - 累计融资额超20亿元人民币 最新一轮融资约5亿元人民币[1] - 投资方包括IDG资本、美团、红杉中国、源码资本、英特尔资本、启明创投等知名机构[1] 技术能力与产品布局 - 公司专注于具身智能机器人领域 产品包括工业级3D相机、机器人编程软件、机器视觉软件[1] - 自研通用机器人"眼脑手"全栈技术 涵盖多模态大模型、成像算法、AI识别算法、机器人控制等核心技术[2] - 在2025世界人工智能大会展示近10个前沿应用单元 包括双臂机器人叠衣、人形机器人取货等场景[2] 市场地位与商业化进展 - 连续五年(2020-2024)位列中国3D视觉引导工业机器人市场占有率第一[2] - 产品进入全球100+《财富》500强企业的灯塔工厂 市场占有率保持全球领先[2] - 业务覆盖中国、美国、日本、韩国、欧洲、东南亚等国家和地区[2] 行业应用与客户基础 - 技术已在汽车、新能源、物流、重工、3C、家电、食品等行业实现跨领域批量化应用[2] - 最新融资将用于拓展产品线与场景应用 提升全球商业化与客户服务能力[1]
百度Qianfan-VL开源,纯国产自研昆仑芯跑出世界一流
选股宝· 2025-09-25 00:14
模型系列概述 - Qianfan-VL系列包含3B、8B和70B三个版本 参数量从小到大 分别对应不同应用场景 [1] 模型规格对比 - 3B版本支持32k上下文长度 不支持思考功能 适用于端上实时场景和OCR文字识别 [2] - 8B版本支持32k上下文长度 支持思考功能 适用于服务端通用场景和微调优化场景 [2] - 70B版本支持32k上下文长度 支持思考功能 适用于离线数据合成和复杂推理计算场景 [2] - 全系列模型均在百度自研昆仑芯P800芯片上完成训练 [2] 核心功能特性 - 多模态大模型具备图像理解和文字处理能力 可分析复杂图表数据与趋势 [3] - OCR能力实现全场景覆盖 支持印刷体、手写字、艺术字及数学公式识别 [3] - 教育场景深度优化 专注于K12阶段 擅长拍照解题、几何推理和函数分析 [3] 性能基准测试 - 在ScienceQA测试中70B版本达到98.76分接近满分 显著超越竞争对手 [4] - 中文多模态基准测试CCBench中70B版本获得80.98分 相比同级别对手70分左右优势明显 [5] - 数学解题测试(Mathvista-mini, Math Vision, Math Verse)中70B版本呈现碾压式领先 [5] - 具体测试得分:A-Bench_VAL(78.1) CCBench(80.98) SEEDBench_IMG(79.13) SEEDBench2_Plus(73.17) MMVet(57.34) MMMU_VAL(58.33) ScienceQA_TEST(98.76) ScienceQA_VAL(98.81) MMT-Bench_VAL(71.06) MTVQA_TEST(32.18) BLINK(59.44) MMStar(69.47) RealWorldQA(71.63) Q-Bench1_VAL(77.46) POPE(88.97) RefCOCO(91.01) [4] 硬件支撑体系 - 训练基于百度自研昆仑芯P800芯片 2025年4月建成国内首个3万卡P800集群 [6] - 模型训练在超过5000张昆仑芯P800卡集群上完成 [6] - 芯片参数:7nm制程 INT8算力256 TOPS 内存16/32GB GDDR6 内存带宽1.2 TB/s 功耗150/160W 互联带宽600 GB/s [7] - 功耗控制显著优于竞争对手 A100功耗250/400W H100功耗700W [7] 芯片架构创新 - 采用XPU-R架构 实现计算单元与通信单元硬件分离 [8] - "通算融合"技术通过精巧调度掩盖数据传输等待时间 大幅提高芯片利用率 [8] - "昆仑芯超节点"方案将64张P800集成单机柜 机内通信带宽提升8倍 单机训练性能提升10倍 [8] 模型架构设计 - 语言模型部分:3B版本基于Qwen2.5 8B和70B版本基于Llama 3.1 [10] - 视觉编码器采用InternViT 最高支持4K超高清图像处理 [10] - 采用创新"四阶段训练管线"提升模型性能 [10] 训练方法论 - 第一阶段跨模态对齐:冻结语言和视觉模块 仅更新MLP Adapter连接件 [14] - 第二阶段通用知识注入:投放2.66T tokens通用数据 全面开放参数训练 [14] - 第三阶段领域增强知识注入:精选OCR/文档理解/数学解题等高质数据专项训练 掺入通用数据防止灾难性遗忘 [14] - 第四阶段后训练:通过指令微调数据提升指令遵循能力 [14] - 专业数据通过高精度数据合成管线自主生成 [15] 开源与部署 - 全系列模型已在GitHub和Hugging Face平台全面开源 [16] - 百度智能云千帆平台提供在线体验和部署服务 [17] - 具体开源地址:GitHub(https://github.com/baidubce/Qianfan-VL) Hugging Face(70B/8B/3B版本) ModelScope(百度千帆组织) [17]
等了大半年的Qwen3-VL终于也开源了!
自动驾驶之心· 2025-09-24 06:35
以下文章来源于刘聪NLP ,作者刘聪NLP 刘聪NLP . 不会rap的刘聪,在这里分享着AI的flow。 作者 | 刘聪NLP 来源 | 刘聪NLP 抓着云栖大会,猛开源是吧,两天时间,开源了Qwen3-Omni系列模型、Qwen-Image-Edit-2509模型、 Qwen3-VL模型、Qwen3Guard-Gen系列模型,共计12个。 还有一些没开源的API,比如Qwen-TTS、Qwen3-Coder-Plus、Qwen3-Max、Qwen3-LiveTranslate等等等 PS: 我恨俊旸呀!天天凌晨开源~ 说实话,根本测不完,都知道我一直在等Qwen3的VL模型,其他模型先放一放,今天先来测试一波VL模 型。 先来看看模型相关内容,Qwen3-VL相较于Qwen2.5-VL有以下方面改进, vision encoder部分 ,Qwen3-VL沿用之前的VisionPatchEmbed,使用Conv3d,不过patch_size从14扩到了 16,激活函数从silu变成gelu_pytorch_tanh projector部分 ,从之前的MLP-based Projector,额外增加DeepS ...
打算招聘几位大佬共创平台(4D标注/世界模型/VLA等方向)
自动驾驶之心· 2025-09-23 23:32
QS200以内高校,硕士及以上学历,手握顶会的大佬优先。 待遇说明 自动驾驶资源共享(求职、读博、出国留学推荐等); 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 业务合伙人 自动驾驶之心业务合伙人招募来啦!我们团队今年计划向国内外招募10名优秀的合伙人,负责自动驾驶相 关课程研发、论文辅导业务开发、硬件研发; 主要方向 如果您是大模型/多模态大模型、扩散模型、VLA、端到端、具身交互、联合预测、SLAM、3D目标检测、 世界模型、闭环仿真3DGS、大模型部署与量化感知推理等方向,欢迎加入我们; 岗位要求 丰厚的现金激励; 创业项目合作与推荐; 联系我们 更多欢迎添加微信咨询,备注" 机构/公司 + 自动驾驶合作咨询 "。 ...
8B硬刚72B!MiniCPM-V 4.5技术报告正式出炉
量子位· 2025-09-23 11:01
MiniCPM团队投稿 发自 凹非寺 量子位 | 公众号 QbitAI 行业首个具备"高刷"视频理解能力的多模态模型 MiniCPM-V 4.5 的技术报告正式发布! 报告提出 统一的3D-Resampler架构实现高密度视频压缩 、 面向文档的统一OCR和知识学习范式 、 可控混合快速/深度思考的多模态强化 学习 三大技术。 基于这些关键技术,MiniCPM-V 4.5在视频理解、图像理解、OCR、文档解析等多项任务上达到同级SOTA水平,不仅以8B的参数规模超越 GPT-4o-latest和Qwen2.5-VL-72B,更在推理速度上具有显著优势。 模型一经开源,就广受社区好评,并直接登上HuggingFace Trending TOP2。 截至目前,MiniCPM-V 4.5在HuggingFace、ModelScope两大平台合计下载量超 22 万 。 接下来,就和我们一起看看报告里讲了什么。 研究背景 随着多模态大模型的迅速发展,其在模型架构、数据工程和训练方法上的高昂成本和效率瓶颈,正成为其广泛应用和技术迭代的核心障碍。 而在移动设备和边缘计算场景中,如何在保持出色性能的同时实现高效推理, 给多模 ...
阿里一夜扔出三个开源王炸,猛刷32项开源SOTA
36氪· 2025-09-23 09:06
阿里通义多模态大模型技术突破 - 开源原生全模态大模型Qwen3-Omni 支持文本、图像、音频和视频无缝处理及实时流式响应 在36项音频及音视频基准测试中斩获32项开源SOTA与22项总体SOTA 超越Gemini-2.5-Pro、Seed-ASR、GPT-4o-Transcribe等闭源模型 [1] - 语音生成模型Qwen3-TTS支持17种音色与10种语言 在语音稳定性与音色相似度评估中超越SeedTTS、GPT-4o-Audio-Preview等主流产品 [1] - 图像编辑模型Qwen-Image-Edit-2509更新 首要更新是支持多图编辑 可拼接不同图片中的人物+人物、人物+物体等 [1] Qwen3-Omni功能与性能 - 支持119种文本语言交互、19种语音理解语言与10种语音生成语言 延迟方面纯模型端到端音频对话延迟低至211ms 视频对话延迟低至507ms 支持30分钟音频理解 [4] - 在全方位性能评估中 单模态任务表现与参数规模相当的Qwen系列单模态模型持平 音频任务表现更好 在语音识别与指令跟随任务中达到Gemini-2.5-Pro相同水平 [10] - 采用Thinker-Talker架构 Thinker负责文本生成 Talker专注于流式语音Token生成 直接接收来自Thinker的高层语义表征 支持高并发与快速推理 [12][13] Qwen3-TTS技术特性 - 中英稳定性在seed-tts-eval test set上取得SOTA表现 超越SeedTTS、MiniMax、GPT-4o-Audio-Preview [14] - 多语言稳定性和音色相似度在MiniMax TTS multilingual test set上 WER在中文、英文、意大利语、法语达到SOTA 显著低于MiniMax、ElevenLabs、GPT-4o-Audio-Preview [14][16] - 具备高表现力的拟人音色 提供17种音色选择 每一种音色均支持10种语言 支持方言生成包括普通话、闽南语、吴语、粤语等9种方言 [14][15] 图像编辑模型升级 - Qwen-Image-Edit-2509支持多图输入 通过拼接方式提供"人物+人物"、"人物+商品"、"人物+场景"等多种玩法 [22] - 单图一致性增强 人物编辑一致性增强包括增强人脸ID保持 商品编辑一致性增强包括增强商品ID保持 文字编辑一致性增强支持多种文字的字体、色彩、材质编辑 [25] - 原生支持ControlNet 包括深度图、边缘图、关键点图等 [25] 实际应用场景表现 - 具备良好的世界知识储备 通过识别啤酒品牌、植物等画面进行测试 模型均能给出准确回答 [3] - 支持分析音乐风格、元素 以及对视频中画面进行推理 如分析出视频中的用户是在解数学题还会对这道题进行解答 [9] - 在多人交互场景中能分析人物的性别、说话的语气、内容等 如分析方言类型及对话内容 [8]
光模块再冲锋,中际旭创涨超4%!英伟达拟向OpenAI投资至多1000亿美元!云计算ETF汇添富(159273)一度大涨超2%!
新浪财经· 2025-09-23 02:41
行业事件驱动 - 英伟达与OpenAI达成战略合作意向 将建设至少10吉瓦AI数据中心并配备数百万块英伟达GPU 英伟达计划投资至多1000亿美元支持新系统落地[3] - 合作消息直接催化光模块板块大涨 中际旭创涨超4% 新易盛涨超3%[3] - 算力板块受海外消息影响整体走强 云计算ETF汇添富(159273)盘中最高涨超2% 当日成交额近2000万元 近20日净流入超7亿元[1][3] 个股表现 - 中际旭创涨幅4.64% 成交额97.46亿元 在云计算ETF中权重占比15.82%[4] - 新易盛涨幅3.54% 成交额91.48亿元 权重占比15.57%[4] - 阿里巴巴-W涨2.20% 成交额49.44亿元 权重占比8.67%[4] - 腾讯控股微跌0.31% 浪潮信息涨0.77% 中科曙光跌0.59%[4] 光模块行业前景 - 英伟达GPU和自研ASIC快速迭代 每代芯片Scaleout带宽保持翻倍提升 带动光模块使用量飙升[5] - AI多模态大模型参数量提升推动带宽容量扩张 芯片互连领域呈现"光进铜退"趋势[5] - 市场采用GPU:光模块=1:2.5换算比例 若Scale Up应用CPO技术 比例将变为GPU:光引擎=1:11.5[5] - 光模块应用范围从GPU扩展至CPU、FPGA、ASIC及HBM等领域 行业未来将演进为光引擎行业 市场规模预计大幅增长[5] 算力需求与资本开支 - 推理算力需求成为驱动全球云厂商资本开支的关键因素[6] - 2025年海外四大云厂商合计资本开支预计同比增长50%至3338亿美元 2026年投资规模将进一步扩大[6] - 美国科技巨头公布大规模投资计划 Meta计划到2028年投资6000亿美元 苹果投资6000亿美元 谷歌投资2500亿美元 微软每年投资750-800亿美元[6] - 算力服务板块(云服务、算力租赁、IDC提供商)将成为AI基础设施需求的二阶受益者[6][7] - 万卡集群成为大模型竞赛入场券 运营商和互联网大厂持续加大投入 为算力服务公司打开新成长空间[7] 产品布局 - 云计算ETF汇添富(159273)覆盖A+H算力龙头 标的指数涵盖硬件设备、云计算服务、IT服务等六大领域[7] - 指数软硬件比例6:4 港股权重超26% 全面布局AI算力驱动下的云计算机遇[7]
自驾方向适合去工作、读博还是转行?
自动驾驶之心· 2025-09-22 10:30
自动驾驶现在适合去工作还是转行 or 读博? 刚刚和吉大一位研二的星友交流,咨询我们:传统规控想转端到端VLA,有些纠结现在是申博(也考虑转 具身),还是说毕业继续从事自动驾驶? 先不持立场,因为这个话题总是有不同的答案,不过我倒是很对里面涉及到的2个问题很感兴趣。 第一,你的实验室或者自己有没有自动驾驶的积累,算力/算法/硬件?或者放宽一些和机器人相关的基础。 很多高校的老师可能没有很深的背景,为了生存,半路出来做自驾,为了一些本子扩展实验室的方向,但 老师自己是没有能力培养学生的。这就导致:老师不知道要怎么做,但老师必须要做。自己懵懵懂懂开始 调研,但往往一头雾水,终于最后交差了,觉得自己懂行了,实则不是。而真的在实战中打磨过的同学才 知道,数据、模型、优化、后处理缺一不可,自驾和具身都是如此。前者,甚至都没有相关的硬件,尤其 是具身,还停留在仿真环境或者开源数据集上优化,其实和工业界的需求相差甚远。可想而知,如果去公 司任职,真的合格吗? 第二,读博这个问题。这位同学本身是985的研究生,未来你读博大概率去TOP4,甚至出国。你未来研究 的方向大概率是最前沿的课题,整个世界可能就一小撮人在做,甚至无人尝 ...
国家队20亿重金押注吉利旗下卫星公司;英特尔英伟达联手,人形机器人公司狂揽10亿美元 | 每周十大股权投资
搜狐财经· 2025-09-22 05:35
商业航天领域融资 - 时空道宇完成20亿元人民币战略投资 由浙江新能源汽车产业基金独家投资 专注于低轨星座系统构建 支持全球实时数据通信 [1] - 星际荣耀获得7亿元人民币D+轮融资 投资方包括成都先进资本和成都空港科创投等国资机构 定位商业航天运载系统领域 从事运载火箭研发生产及发射服务 [1] 人工智能与机器人领域融资 - Figureai完成10亿美元C轮融资 投资方包括英特尔 英伟达 Salesforce和博枫等科技资本 聚焦人形机器人研发制造 目标应用于工业制造与服务场景 [2] - 微分智飞完成1亿元人民币Pre-A轮融资 投资方包括五源资本 光速光合 深创投和百度风投 开发无人机具身智能平台 应用场景包括农业植保 物流配送和安防监控 [6] - Groq获得75亿美元战略投资 投资方包括贝莱德 三星风投和思科资本 专注于AI芯片研发 产品特点为高算力低功耗 主要应用于数据中心与云计算场景 [4] 半导体与电子设计自动化融资 - 合见工软完成5亿元人民币A+轮融资 由国新科创基金独家投资 作为国内EDA领域代表性企业 为集成电路设计公司提供工具与解决方案 [3] 新材料与先进制造融资 - 青昀新材完成数亿元人民币C轮融资 由高瓴创投领投 元禾璞华和东方雨虹等机构跟投 主要从事新型材料研发生产与销售 产品具备跨行业应用潜力 [5] 生物科技与医疗健康融资 - 华龛生物完成数亿元人民币B+轮融资 投资方包括中关村发展集团 招银国际和国新基金等机构 专注于细胞治疗技术领域 涉及再生医学和肿瘤治疗方向 [7] 多模态大模型技术融资 - 生数科技完成数亿元人民币A轮融资 投资方包括启明创投 百度 达泰资本和博华资本 核心团队具有腾讯背景 主要围绕多模态大模型开展研发与应用 [2]
和Seed大佬交流了下,自动驾驶大模型还有些小儿科。。。
自动驾驶之心· 2025-09-21 23:32
一个认真做内容的社区,一个培养未来领袖的地方。 如果您想做进一步学习,也欢迎加入我们的大模型之心Tech知识星球。大模型之心Tech知识星球,我们目标是构建一个国内最大的大模型技术社区, 一直在给行业和个人输送各类人才、产业学术信息。目标星球正在快速搭建相关模块,欢迎加入我们与大模型同行。 自动驾驶VLA这么火,想借这个机会了解更多大模型相关的技术知识,有哪些方向可以做,现在热点在哪里?为此,我们筹备了大模型之心Tech社 区,平台主要关注大模型RAG、大模型AI Agent、多模态大模型(预训练、微调、强化学习)和大模型部署推理优化等等。欢迎对大模型技术感兴趣 的小伙伴关注我们~ ...