Workflow
多模态大模型
icon
搜索文档
具身智能之心B端和C端培训老师招募来啦~
具身智能之心· 2025-08-28 01:20
业务模式 - 公司开展B端和C端培训业务 B端主要面向企业和高校及研究院所 C端面向学生和求职人群[1][3] - 业务内容包括制定课程大纲和制作课程材料[3] 技术方向 - 培训内容涵盖VLA VLN 遥操作 Diffusion Policy 强化学习 VLA+RL sim2real 多模态大模型 仿真 运动控制 目标导航等前沿技术领域[2] 人才要求 - 要求博士及以上学历(包含在读)[3] - 需具备2篇A会或一区以上期刊/会议发表或2年及以上工业界经验[3] 合作方式 - 通过微信平台进行业务咨询(微信号:oooops-life)[4] - 提供高于行业水平的酬金待遇[1]
【私募调研记录】景林资产调研当虹科技
证券之星· 2025-08-28 00:12
公司调研概况 - 景林资产近期调研当虹科技 通过电话会议形式进行交流 [1] 公司业务进展 - 基于自研BlackEye多模态大模型技术推动I系列产品落地 二季度收入同比增长50% [1] - 产品应用领域涵盖传媒和车载智能座舱 [1] - 9月19日将发布BlackEye 2.0多模态空间大模型 支持点云数据处理 实现视频技术从"看得清"到"看得懂、可交互"的跨越 [1] - 机器人超远距离远程操控系统支持多种网络模式 可在断网环境下通过卫星链路运行 已与军民融合机构推进合作 [1] 行业发展机遇 - 2025年确定为"超高清发展年" 未来三年将建成50个超高清频道 [1] - 终端普及量达6.5亿台 [1] 公司运营策略 - 在新技术方向持续投入 通过标准化和AI提效控制人员与费用 [1] - 推动高附加值转型 [1] 投资机构背景 - 景林资产采用PE股权基金研究方法 注重行业结构和公司在产业价值链中的地位 [2] - 投资理念基于公司基本面分析和股票估值 偏好进入门槛高、谈判能力强、管理层优秀的公司 [2] - 研究团队超过50人 具备国内外名校教育背景和实业工作经验 [2] - 国内机构客户包括多家银行总行和知名企业 [2] - 海外机构客户包括欧美主权财富基金、大学基金会、大型银行、保险公司等 [2]
为防AI刷题,Nature等顶刊最新封面被做成数据集,考验模型科学推理能力
36氪· 2025-08-26 01:25
多模态大模型评估挑战 - 现有基准测试因预训练数据污染导致评估失真,难以持续准确评估顶尖AI真实能力 [1] - 上海交通大学课题组提出MAC动态基准,利用科学前沿内容持续更新测试集 [1] MAC基准构建方法 - 使用《Nature》《Science》《Cell》等188种顶级期刊的最新封面构建测试集,包含超过25,000个图文对 [3] - 测试素材每周或每月更新,涵盖最前沿复杂的科学概念与艺术化视觉元素 [3] - 设计"看图选文"和"看文选图"双任务模式,通过CLIP等嵌入模型生成语义干扰项制造"语义陷阱" [6] - 干扰项与正确答案表面相似但科学概念不同,要求模型建立深层跨模态关联 [6][14] 多模态模型性能表现 - 在MAC-2025测试集中,表现最佳模型Step-3准确率仅为79.1% [4][16] - 开源模型Qwen2.5-VL-7B准确率低至56.8% [4][16] - GPT-4o在图文互译任务中准确率介于73.5%-75.1% [4][16] - Gemini-1.5-Pro准确率在70.4%-72.8%区间 [4][16] - 所有模型在处理新科学知识时均出现显著性能下降 [22] 模型能力局限性分析 - 顶尖模型能识别视觉元素(如药丸、处方单)但无法关联核心科学概念(如耐药性机制) [14] - 多模态AI在视觉识别方面出色,但跨模态深层科学推理能力距人类水平仍有差距 [17] DAD解决方案创新 - 采用"分工协作"两步法:先由多模态模型进行视觉描述,再由语言推理模型进行高层分析 [19][20] - 该方法显著提升多个模型准确率,模拟人类专家"先观察后分析"的思维过程 [19] 动态基准持续演进机制 - 动态数据机制:通过每年更新MAC年度快照(如MAC-2025)减少数据污染 [14] - 动态问题构建:采用更强嵌入模型(如SigLip2)重新生成干扰项提升测试难度 [23] - 两种机制结合使基准测试与科学发展和AI技术进步保持同步 [23] 学术影响与未来规划 - 研究成果将于2025年语言模型大会(COLM)发表 [5] - 计划扩展至更多科学期刊及学术会议论文、科学新闻等动态内容 [23] - 通过年度周期发布实现基准测试持续演进,精准评估AI能力边界 [23]
2025年了,生成和理解多模态大模型发展到哪一步了?
自动驾驶之心· 2025-08-25 23:34
多模态大模型发展趋势 - 文章聚焦于2025年年中前图片理解与图片生成统一的多模态大模型发展,强调技术进展与核心挑战 [1][2] - 研究范围主要限于图片模态,不包括更广泛的多模态(Omini-LLM)方向 [3] 代表性研究工作 - Google的Unified-IO和Unified-IO-2被视为Omini-LLM早期代表 [3] - 阿里OFA、复旦AnyGPT、Meta的CM3Leon和Chameleon及ANOLE、VITA等工作对后续研究有显著影响 [3] 视觉Tokenizer技术路径 - 视觉生成依赖低频特征(如VAE-Based),视觉理解依赖高层语义特征(如CLIP、SigLIP) [17] - 字节TokenFlow采用双视觉Encoder:理解侧用CLIP ViT-B/14-224/ViTaminXL-256/SigLIP-SO400M-patch14-384,生成侧用VQ-GAN结构提取特征 [16][17] - 字节Muse-VL将语义与像素特征在维度侧拼接后经MLP映射再离散量化,语义编码器使用SigLIP系列 [21] - 中山大学与华为SemHiTok通过解耦Codebook实现语义特征重建与像素级重建结合 [21] - 港大UniTok使用单视觉Encoder,通过多codebook量化实现特征对齐 [33][35] - 百川等机构DualToken使用单一视觉Encoder,浅层特征(1-6层)用于重建,深层特征(26层)用于语义对齐 [37][39] - 腾讯TokLIP通过VQGAN Encoder提取特征后,经因果Token编码器得到语义特征,并计算蒸馏与对比损失 [42][44] - 北大、阿里和中科院UniLip将CLIP视觉Encoder改造为统一Tokenizer,并与扩散Transformer结合 [46][47] 模型架构与训练策略 - Meta的meta-query、MetaMorph和Pisces,字节Mogao和BAGEL等探索自回归、自回归+扩散及纯扩散架构 [17] - QLIP采用两阶段训练:第一阶段学习语义特征,第二阶段优化重建质量与高频细节 [28][30] - UniLip训练分三阶段:冻结部分模块训练连接器、联合训练连接器与扩散Transformer、指令微调 [47][49] 量化与特征处理技术 - QLIP使用二进制球量化(BSQ)处理视觉特征 [30] - UniTok采用多codebook量化(MCQ),将特征分为多个子块分别量化,提高codebook利用率 [35] - DualToken使用残差量化(RQ-VAE)处理深层特征 [39]
为防AI刷题,Nature等顶刊最新封面被做成数据集,考验模型科学推理能力|上海交通大学
量子位· 2025-08-25 15:47
多模态大模型评估挑战 - 现有基准测试因预训练数据污染面临评估失效风险,需开发动态评估方法应对顶尖AI能力评估困境 [1] MAC动态基准设计理念 - 采用顶级学术期刊封面作为测试素材,利用科学前沿内容的持续演进特性构建动态评估基准 [3] - 覆盖188种顶级期刊,从25,000+图文对构建测试集,聚焦艺术化视觉元素与科学概念的深层关联理解 [3] - 通过年度更新机制(如MAC-2025涵盖2024年1月至2025年2月内容)减少数据污染,保持评估挑战性 [16] 测试任务设计与语义陷阱 - 设计看图选文(Image2Text)和看文选图(Text2Image)双任务评估跨模态理解能力 [17] - 采用CLIP等嵌入模型生成语义干扰项,要求模型区分表面相似但科学概念不同的选项(如"癌症耐药性机制"vs"癌症产生机理") [8][16] 多模态模型性能表现 - 顶尖模型表现显著低于常规基准:Step-3最高准确率79.1%,GPT-4o准确率74.3-75.1%,Gemini-1.5-Pro准确率70.4-72.8% [4][18] - 开源模型Qwen2.5-VL-7B准确率仅56.8-61.0%,显示与闭源模型存在明显差距 [4][18] - 模型普遍存在视觉识别与科学概念理解脱节问题,能识别"药丸""处方单"但无法关联"耐药性"核心概念 [16][19] DAD分步推理解决方案 - 提出描述-推理两阶段方法:先由多模态模型生成视觉描述,再由语言模型进行高层分析 [22][23] - 该方法显著提升模型准确率,模拟人类专家先观察后分析的思维过程 [22] 动态基准双机制验证 - 动态数据机制:所有模型在最新数据(MAC-2025)表现均差于早期数据(MAC-Old),证实新知识自然提升测试难度 [26] - 动态问题构建:采用更强嵌入模型(如SigLip2)重构干扰项后,所有模型准确率进一步下降,证明测试难度可与AI技术同步进化 [27] 学术影响与未来发展 - 研究成果将于2025年语言模型大会(COLM)发表 [5] - 计划扩展至更多科学期刊、学术会议论文及科学新闻,构建持续演进的评估平台 [27][28]
格灵深瞳2025半年报:多元化业务发力,二季度营收同比增70%
环球网· 2025-08-25 11:59
核心财务表现 - 2025年第二季度营收3479.81万元 同比增长70% [1] - 2025年上半年营收4247.28万元 同比下降17.22% [1] - 第二季度环比第一季度大幅增长 [1] 战略方向与业务布局 - 推进"2+2"战略:智慧金融和城市管理两大战略赛道 政务及特种和智慧教育两大创新领域 [1] - 聚焦国产信创标准的行业级大模型产品研发 [1] - 重建销售团队以提升商业落地能力和优化客户结构 [1] 技术研发进展 - 以视觉大模型和多模态大模型为主要技术方向 [2] - 自研视觉基础模型Glint-MVT持续升级 v1.5版在OCR和分割任务上优于v1.1版及AIMv2、SigLIP2模型 [2] - 采用自研视觉模型+AI Infra技术架构 [2] 产品商业化成果 - 推出金融超级智能助手Super-Agent平台 集成知识库/MCP服务/大模型API模块 [2] - 平台可构建具备金融专家知识的多个智能体 解决风控和营销等业务落地难题 [2] - 已在多家银行开展试点工作 [2] - 推出信创自主可控产品"墨刃AIPC" 融合安全硬件基座与本地计算能力 [3] - 在AIPC、行业大模型一体机、智慧教育等领域均有新品或升级产品面市 [3] 生态合作与产业协同 - 与百度、飞腾、海光、光环云等头部科技企业达成合作 [3] - 通过生态合作夯实国产算力底座并提升供应链韧性 [3] - 聚合产业上下游生态伙伴力量促进AI产业升级 [3]
AI动态汇总:智元推出机器人世界模型平台genieenvesioner,智谱上线GLM-4.5a视觉推理模型
中邮证券· 2025-08-25 11:47
根据提供的研报内容,这是一份关于AI行业动态的周报,主要汇总了多家科技公司在人工智能领域的最新技术发布和产品动态。经过全面审阅,**该报告未涉及任何量化模型或量化因子的构建、测试与分析内容**。报告的核心是AI技术进展的行业资讯,而非金融工程领域的量化投资研究。 因此,**本次任务无法提取并总结任何量化模型或量化因子的相关信息**。报告内容聚焦于AI模型的技术架构、性能对比和应用场景,与量化投资中的因子挖掘、模型回测等主题无关。
自动驾驶转具身智能有哪些切入点?
自动驾驶之心· 2025-08-24 23:32
算法技术延续性 - 具身智能领域基本延续机器人和自动驾驶的算法 包括训练与微调方式以及大模型技术[1] - 具体任务存在差异 主要体现在数据采集方式以及重执行硬件与结构方面[1] 技术研究方向 - 主要技术方向涵盖VLA(视觉语言行动) VLN(视觉语言导航)和Diffusion Policy(扩散策略)[1] - 涉及强化学习 机械臂抓取 位姿估计和机器人仿真技术[1] - 包含多模态大模型 芯片部署 sim2real(仿真到现实)以及机器人硬件结构研究[1] 行业生态建设 - 建立具身智能全栈学习社区 持续分享算法与软硬件方案[1] - 日常更新行业动态与招聘信息 形成技术交流与人才发展平台[1]
当虹科技2025年中报简析:营收上升亏损收窄,盈利能力上升
证券之星· 2025-08-23 22:58
核心财务表现 - 营业总收入1.33亿元,同比上升12.7% [1] - 归母净利润-615.24万元,同比大幅改善85.27% [1] - 第二季度单季度营业总收入8389.94万元,同比大幅增长50.44% [1] - 第二季度单季度归母净利润573.7万元,同比大幅改善130.65% [1] - 毛利率42.21%,同比显著提升26.44个百分点 [1] - 净利率-7.17%,同比大幅改善81.59个百分点 [1] 盈利能力分析 - 扣非净利润-1315.8万元,同比改善70.27% [1] - 每股收益-0.05元,同比大幅改善86.49% [1] - 三费占营收比26.81%,同比略增4.76% [1] 资产负债结构 - 货币资金8692.83万元,同比下降40.64%,主要因支付日常营运及产业基地项目尾款 [1] - 应收账款2.77亿元,同比下降11.12% [1] - 有息负债1.09亿元,同比下降22.59% [1] - 每股净资产10.07元,同比下降5.87% [1] - 应付票据同比下降63.73%,因银行承兑汇票结算减少 [7] - 应付职工薪酬同比下降92.55%,因上年年终奖已发放 [8] 现金流状况 - 每股经营性现金流0.0元,同比大幅改善100.53% [1] - 经营活动现金流净额改善因应收账款管理加强,销售商品收到现金增加1457.24万元,购买商品支付现金减少1396.09万元 [8] - 投资活动现金流净额改善62.46%,因定期存款和结构性存款减少 [8] - 筹资活动现金流净额改善57.59%,因偿还银行贷款减少 [8] 业务发展动向 - 营业收入增长主要因AI产品及多模态大模型衍生产品快速落地,传媒文化业务和车载智能座舱业务显著增长 [8] - 在建工程大幅增长4344.66%,因户外媒体大屏建设工程投入增加 [5] - 使用权资产增长142.99%,因户外媒体大屏租用面积增加 [6] - 研发费用下降30.46%,因部分研发项目进入后期阶段,研发人员减少导致职工薪酬减少1461.32万元,股权激励费用下降627.79万元 [8] 战略业务布局 - 智能网联汽车业务聚焦自动驾驶等级提升带来的舱内多模态交互需求,提供娱乐及安全两类车载场景解决方案 [12] - 工业与卫星业务致力于亿级摄像头的智能视频分析、超级压缩和大数据挖掘应用,覆盖卫星通信、轨道交通等高精度巡检场景 [13] - 传媒文化业务从软硬件供应商升级为智能视频生态服务商,构建"技术+平台+运营"全链条服务体系 [13] - 公司正积极拓展海外业务合作伙伴,整合海外生态资源提供全球化音视频技术方案 [12] 机构持仓情况 - 金鹰民丰回报定期开放混合基金持有6.50万股,较上期减持 [11] - 南方养老目标2030三年持有混合等四只基金新进十大持仓,持股数在0.60-3.00万股区间 [11] - 金鹰民丰回报基金近一年上涨43.87%,最新净值1.1118 [11]
推荐一个大模型AI私房菜!
自动驾驶之心· 2025-08-23 16:03
技术社区定位 - 平台专注于大模型RAG AI Agent 多模态大模型及部署推理优化等方向技术内容 [1] - 社区目标为构建国内最大规模大模型技术社群 持续输送行业人才与产业学术信息 [1] - 定位为培养未来技术领袖的高质量内容社区 [2] 技术覆盖方向 - 多模态大模型技术涵盖预训练 微调 强化学习三大核心领域 [1] - 重点布局大模型部署推理优化等产业化关键技术环节 [1] - 技术热点集中在自动驾驶VLA引发的行业关注度提升 [1] 社群发展策略 - 通过知识星球形式快速搭建技术模块 吸引同行者加入 [1] - 采用公众号与星球双平台运营模式 实现内容与社群联动 [1] - 聚焦大模型技术爱好者群体 形成垂直领域技术生态 [1]