Workflow
多模态大模型
icon
搜索文档
大模型初创公司出海,云计算护航丨创新场景
钛媒体APP· 2025-09-16 09:42
本文摘自《云栖战略参考》,这本刊物由阿里云与钛媒体联合策划。目的是为了把各个行业 先行者的技术探索、业务实践呈现出来,与思考同样问题的"数字先行者"共同探讨、碰撞, 希望这些内容能让你有所启发。 2024 年年初,Sora 的问世让视频生成赛道成为了全球 AI 界瞩目的焦点。 自 2023 年创立的爱诗科技一直布局海外 AI 视频市场,对赛道内变化感受深刻——此前市场仍在"实验 创意" 阶段,直到 Sora 震撼了行业内外,吸引了资本和媒体的目光,让视频生成从"小众玩具"直接提升 到战略高地,全球科技巨头也纷纷入局。 如何抢占先机并吸引用户生成 AI 视频?爱诗科技选择加速技术迭代——自公司成立以来便聚焦视频大 模型,在 Sora 发布前已推出首代模型 PixVerse,现已更新至第六代。如今,PixVerse(拍我 AI) 已成 为全球用户规模最大、生成速度最快、质量最高的视频大模型之一,短短两年间,用户量已突破 6000 万。 不过,这一看似简单的想法背后面临的是技术实现的现实挑战。与文生文的大语言模型不同的是,多模 态视频大模型需要处理多模态的数据,对 GPU 的显存能力提出了更高的要求。与此同时,C ...
登顶苹果应用榜!谷歌火遍全网的“纳米香蕉”,凭啥击败ChatGPT?
证券时报· 2025-09-16 07:54
谷歌市值冲上3万亿美元的同时,旗下的"杀手级"AI应用也超越ChatGPT,成功登顶苹果应用榜第一 名。 最新数据显示,在美区AppStore中,谷歌旗下大模型应用Gemini的下载量已超过OpenAI的ChatGPT,成 为免费榜排名第一的应用。此外,在加拿大、印度、摩洛哥等国家,Gemini同样实现了登顶,打破了 ChatGPT自发布以来长期的垄断地位。 再比如,输入提示词"将我手中的物体变成3D透明线条艺术全息图",Nano Banana也能准确地理解提示 词的含义。 | | Top Charts | All Apps | | --- | --- | --- | | Free Apps | | Paid Apps | | 1 | Google Gemini | | | Your Al assistant | | | | from Google | | | | 2 | ChatGPT | | | The official app | | | | by OpenAl | | | | Threads | | | | | Connect and share ideas | | | 1 | X | | | Bre ...
登顶苹果应用榜!谷歌火遍全网的“纳米香蕉”,凭啥击败ChatGPT?
证券时报· 2025-09-16 07:51
谷歌市值冲上3万亿美元的同时,旗下的"杀手级"AI应用也超越ChatGPT,成功登顶苹果应用榜 第一名。 最新数据显示,在美区AppStore中,谷歌旗下大模型应用Gemini的下载量已超过OpenAI的ChatGPT,成为免费 榜排名第一的应用。此外,在加拿大、印度、摩洛哥等国家,Gemini同样实现了登顶,打破了ChatGPT自发布 以来长期的垄断地位。 Nano Banana的火爆出圈,与数月前GPT-4o推出图像生成功能并引发"吉卜力"风格AI图片创作风潮十分相似。 吉卜力风格是指日本吉卜力工作室创作的动画艺术风格,该工作室由宫崎骏与高畑勋于1985年创立,代表作包 括《千与千寻》《龙猫》等。由于过于火爆,OpenAI首席执行官山姆·奥特曼当时也火速换上了这一风格的头 像。奥特曼还发贴称,ChatGPT一小时就新增了百万用户,其活跃用户、App下载和订阅收入都在吉卜力效应 当周创下了历史纪录。 业内人士分析称,谷歌Nano Banana能够在全球走红,源于其在AI生图领域重构了用户的体验范式,实现了 从"复杂工具栏"到"一句自然语言"、从"渲染缓慢"到"秒级出图"、从"效果不稳定"到"跨图一致性"等一 ...
明略科技CEO吴明辉即将出席2025腾讯全球数字生态大会
新浪财经· 2025-09-16 03:14
全球大模型技术加速演进,行业应用逐步走向纵深。面对通用大模型在专有数据、行业know how等方 面的局限性,垂类大模型正成为企业AI落地的破局关键。 9月16日下午,明略科技CEO吴明辉将亮相腾讯全球数字生态大会"互联网AI应用专场",并发表主题演 讲《多模态大模型在营销场景的落地实践》,分享明略科技最新技术突破与实战成果。 欢迎扫码预约直播,共探垂类大模型新未来。 ...
论文解读之港科PLUTO:首次超越Rule-Based的规划器!
自动驾驶之心· 2025-09-15 23:33
在端到端自动驾驶领域,这篇文章是一个典型的"两段式网络架构"中的Planner模型,而且它不是基于BEV feature map进行下游控制任务的,而是直接对于感知输出 的结构化的信息(bbox,lanes等等)进行编码,并作为sequence token输入到decoder中,今天就为大家分享一下。二段式端到端非常适合新人练手: 为了帮助大家理解,网络架构图上我们做了详细的模块注释: 我们先整体上看一下PLUTO有哪些关键点: PLUTO主要有三个损失,主任务的损失包含回归损失和分类损失,共同组成模仿学习的损失。而Agent轨迹预测的损失如下图所示: 同时,PLUTO也添加了几个辅助的损失帮助模型收敛: 1)直击痛点,快速入门 本课程基于Just-in-Time Learning理念,通过通俗易懂的语言和案例,帮助学员短时间内掌握核心技术栈。理解关键概念后,拓展特定领域知识将变得更加轻松。 2)构建领域框架,提升研究能力 本文均出自平台最新推出的 『端到端与VLA自动驾驶小班课』 ,我们联合国内TOP主机厂算法专家共同打造! 技术专家带你深入端到端与VLA算法原理与技术开 发,目前已经正式开课! 技术栈多? ...
关于大模型和自动驾驶的一切
自动驾驶之心· 2025-09-15 23:33
大模型技术社区定位 - 平台专注于大模型RAG、大模型AI Agent、多模态大模型(预训练、微调、强化学习)和大模型部署推理优化等技术方向 [1] - 社区致力于构建国内最大的大模型技术社区 持续为行业和个人输送人才及产业学术信息 [1] - 社区定位为培养未来领袖的地方 强调内容质量和人才培养 [2] 社区发展目标 - 快速搭建相关技术模块 吸引对大模型技术感兴趣的人群加入 [1] - 通过知识星球形式深化学习 提供进一步技术交流平台 [1] - 借助自动驾驶VLA等热点技术趋势推动大模型技术普及 [1]
全新开源模型复现o3视觉推理,无需大量训练即可实现深度思考
量子位· 2025-09-15 03:59
OpenAI o3的多轮视觉推理,有开源平替版了。 并且,与先前局限于1-2轮对话的视觉语言模型(VLM)不同,它在训练限制轮数只有6轮的情况下,测试阶段能将思考轮数扩展到 数十轮 。 不圆 发自 凹非寺 量子位 | 公众号 QbitAI 这个模型叫Mini-o3,它无需消耗大量训练周期资源,通过恰当的数据、初始化方法和强化学习微调,即可实现长周期视觉搜索能力。由字 节、香港大学团队联合开发。 跨越数十个步骤的深度推理 最近的多模态大模型虽然能通过"图像工具+强化学习"处理视觉问题,但现有开源方案存在很大的短板: 比如推理方式单调、交互轮次受限、遇到需要反复试错的复杂任务就束手无策。 而Mini-o3突破了上述局限——它能够进行 长达数十个步骤的深度多轮推理 ,在高难度视觉搜索任务中达到了当前最佳水平。 这得益于它的三个关键设计: 第一,研究团队构建了视觉探测数据集VisualProbe,包含数千个专为探索式推理设计的视觉搜索难题; 第二,开发了迭代式数据收集流程,让模型能学会深度优先搜索、试错探索、目标维持等多样化推理策略; 第三,提出超轮次掩码策略,在强化学习中避免对达到最大交互轮次的响应进行惩罚,从而平 ...
招聘几位大佬,打算共创平台(世界模型/模型部署)
自动驾驶之心· 2025-09-14 03:44
业务拓展计划 - 公司计划在国内外招募10名业务合伙人[2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发及硬件研发[2] 技术研究方向 - 重点关注大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶技术[3] - 涉及具身交互、联合预测、SLAM及3D目标检测领域[3] - 布局世界模型、闭环仿真3DGS、大模型部署与量化感知推理等前沿方向[3] 人才招募标准 - 要求应聘者来自QS200以内高校且具有硕士及以上学历[4] - 优先考虑拥有顶会论文发表记录的候选人[4] 合伙人待遇 - 提供自动驾驶行业资源共享包括求职、读博及出国留学推荐[5] - 设置丰厚的现金激励机制[5] - 开放创业项目合作与推荐机会[5]
机器人产业跟踪:龙头引领下的灵巧手即将升级,景气度有望提升
东方证券· 2025-09-14 02:12
行业投资评级 - 机械设备行业评级为看好(维持)[6] 核心观点 - 特斯拉推出新一代灵巧手,灵巧手行业的自由度和功能等指标有望再次升级,看好灵巧手产业链景气度上升[3] - 特斯拉灵巧手技术已迭代三次,从第一代11个自由度提升到第三代22个自由度,新一代灵巧手每个手臂有26个执行器,自由度有望继续增加[9][10] - 灵巧手产业有望跟随特斯拉升级自由度和功能,因灵巧手的数据采集有助于大模型升级并实现具身智能更快落地[9][13] - 灵巧手自由度的提升将带来更高产品价值,因需要更多执行器或驱动传动环节,以及结构和部件升级[9][14] 相关公司 - 震裕科技(300953,买入)[3] - 汉威科技(300007,未评级)[3] - 南山智尚(300918,未评级)[3] - 鸣志电器(603728,未评级)[3] 技术发展 - 特斯拉第一代灵巧手采用仿生五指结构设计,单手拥有11个自由度(6主动+5被动)[10] - 第三代灵巧手自由度提升到22个,主动自由度由6个提升至17个,驱动系统由内置改为外置[10] - 新一代灵巧手每个手臂有26个执行器,包括26个电机、齿轮箱和电力电子设备[10] 产业影响 - 灵巧手作为机器人与物理环境交互的末端执行器,集成了力/力矩/温度/触觉等传感器,构成多模态数据采集平台[9][13] - 多传感器数据采集增强了数据多样性和复杂性,有利于提升AI训练效率和模型泛化能力[9][13] - 灵巧手控制主要通过强化学习、模型驱动学习、模仿学习等方法实现,仍需依赖多模态大模型的持续进步[13]
前京东智能驾驶一号位创业,「星源智」要打造通用具身大脑丨36氪独家
36氪· 2025-09-11 23:46
公司背景与融资 - 前京东智能驾驶负责人刘东创立星源智 旨在通过具身智能解决物流末端配送难题[5][7] - 公司完成2亿元天使轮融资 投资方包括中科创星、高瓴创投、元禾原点等机构及产业资本[9] - 技术团队由商业化专家与学术研究者组成 形成"技术+工程+商业"复合能力[9] 技术路线选择 - 放弃纯端到端VLA模型路线 因缺乏低成本真机数据获取方案[11][23] - 采用分层式架构:大脑负责感知规划(基于多模态大模型) 小脑负责运动控制[12][22] - 自研核心抓取与导航技能 同时保持对VLA操作模型的调用能力[24] 商业化策略 - 双轨商业模式:50%作为Tier 1供应商向本体厂商提供软硬件一体解决方案(含5万元/套域控制器) 50%作为总承包方直接服务终端客户[30][32][33] - 定位"具身智能领域的华为" 通过深入场景理解需求反哺技术迭代[32] - 预计单台10万元机器人解决方案中 公司可获取近50%价值量[33] 落地场景规划 - 首选商超/药店拣选场景 因夜间人力替代需求明确且ROI易测算(月成本<2000元/机器人)[36][38] - 技术难点在于细粒度物品识别(当前仅能区分20%SKU)与异形物品抓取[40][41] - 2025年实现拣选机器人规模化落地 同步推进导览导购类低难度场景[42][43] 行业发展判断 - 具身智能需遵循"先落地后迭代"路径 参照特斯拉自动驾驶发展历程[23][46] - 行业存在技术理想主义与商业化务实路线分歧 公司坚持落地能力为生存第一要素[13][46] - 物流行业超2000万分拣从业人员构成替代市场基础[36]