Workflow
深度学习
icon
搜索文档
重磅直播!清华&博世开源SOTA性能纯血VLA:Impromptu-VLA告别双系统~
自动驾驶之心· 2025-07-01 12:58
自动驾驶技术进展 - 当前自动驾驶系统在结构化环境(如城市和高速公路)中取得显著进展,但在非结构化场景(如乡村小路、临时施工区、恶劣路况)中仍面临鲁棒性和安全性挑战 [1] - 现有大规模自动驾驶数据集主要关注常规交通状况,缺乏针对非结构化环境的专门、大规模且精细标注的数据 [1] Impromptu VLA框架 - 清华AIR联合博世中央研究院提出Impromptu VLA框架,旨在提供开放权重和开放数据的驾驶视觉-语言-动作模型 [1] - 该框架是完全端到端、无中间感知表征的"纯血VLA"系统,直接从驾驶视频片段提取多模态特征并生成自然语言格式的驾驶命令 [1] - 系统无需手工设计感知模块、行为先验或中间BEV表达 [1] - 在NeuroNCAP闭环安全评测中表现优异,得分2.15,显著超越CVPR 2025最新提出的BridgeAD系统(1.60) [1] 技术资源与分享 - 论文已发布于arXiv(编号2505.23757v1) [2] - 项目主页在GitHub(ahydchh/Impromptu-VLA) [2] - 清华大学计算机系本科生迟浩瀚将分享该VLA框架 [2] 学习建议 - 建议入门者扎实深度学习和计算机视觉基础,逐步了解自动驾驶各模块 [2] - 推荐通过阅读前沿论文和参与开源项目实践来熟悉数据处理和模型训练流程 [2]
你的扫描全能王,作价217亿冲刺港股IPO
量子位· 2025-06-27 10:57
公司概况 - 名片全能王、扫描全能王母公司上海合合信息科技计划以217亿市值赴港上市,实现"A+H"双重上市[2][3] - 公司2024年营收14.38亿元,净利润4亿元,毛利率高达84.3%[4] - 公司C端产品月活跃用户达1.71亿,在全球C端效率类AI"超级APP"公司中排名第五[5][6] 产品与技术 - 公司定位为人工智能及大数据科技企业,专注多模态大模型文本智能技术[7] - C端核心产品包括扫描全能王、名片全能王和启信宝,B端产品包括TextIn和启信慧眼[8][9][10][12] - 扫描全能王覆盖超200个国家和地区的10亿多用户,是全球最大图像文本处理AI产品[11] - 技术底座以文本智能感知与认知技术为核心,构建天枢、天璇、天玑三大技术平台[14][16] 商业模式 - C端产品主要通过付费订阅实现商业化,2024年付费用户占比4.3%[18][21] - B端产品将场景knowhow转化为标准化AI模块,覆盖近30个行业约160家世界500强公司[19][20] - 2024年C端业务占总收入83.8%,其中扫描全能王贡献77.3%[27][28] 财务表现 - 2022-2024年营收复合年增长率21%,分别为9.89亿、11.87亿和14.38亿元[25] - 同期净利润分别为2.84亿、3.23亿和4亿元[36] - 研发投入持续增加,2024年达3.9亿元占营收27.2%,研发人员占比60.6%[33][35] 市场地位 - 按2024年收入计,在中国MAU超1亿的C端效率类AI产品公司中排名第一[21] - 全球市场份额2.5%,排名第五,前四位为OpenAI、谷歌、Adobe和微软[22][23] 行业前景 - 全球AI产品市场规模预计从2024年465亿美元增长至2029年2280亿美元,复合增长率37.4%[66] - 中国B端AI市场2024年规模52亿美元,预计2029年达257亿美元,复合增长率37.6%[69][70]
Cell子刊:盛斌/戴荣平团队开发新型AI模型DeepSLE,从视网膜图像检测系统性红斑狼疮
生物世界· 2025-06-27 03:38
系统性红斑狼疮(SLE)概述 - 系统性红斑狼疮(SLE)是一种严重的自身免疫疾病,影响全球约340万人,其中女性患者约300万 [2] - 女性患病率显著高于男性,发病高峰在15-45岁之间 [2] - SLE诊断标准复杂且公众认知不足,导致诊断延误普遍 [2] SLE筛查挑战 - 缺乏标准化、无创且经济有效的筛查工具,尤其是针对无症状或症状轻微人群 [3] - SLE相关并发症(如狼疮性视网膜病变和狼疮性肾炎)的筛查在初级保健和资源匮乏环境中未常规实施 [7] DeepSLE深度学习系统 - 上海交通大学盛斌教授团队与北京协和医院戴荣平团队合作开发了DeepSLE系统,通过视网膜图像检测SLE及其并发症 [4][5] - 系统基于Vision Transformer(ViT)技术,利用来自173346名参与者的666383张视网膜图像进行预训练 [9] - 在多民族验证数据集中(247718张图像),DeepSLE检测SLE的受试者工作特征曲线下面积为0.822-0.969 [11] - 系统在性别、年龄、种族和经济状况分层的亚组中表现稳健 [11] 视网膜成像的应用潜力 - 视网膜变化与SLE活动期高度相关,可作为无创、即时且经济有效的生物标志物 [7] - 数字视网膜成像已在初级保健和社区环境中普及,成本低廉 [7] - DeepSLE在读者研究中表现出比初级保健医生更高的灵敏度 [11] 研究意义 - DeepSLE为SLE及其并发症的早期检测提供了数字化解决方案,具有巨大临床应用潜力 [12]
ICCV 2025放榜!录取率24%,夏威夷门票你抢到了吗?
机器之心· 2025-06-26 06:10
ICCV 2025会议概况 - ICCV 2025将于10月19日至25日在美国夏威夷举行,是计算机视觉领域三大顶级会议之一,与CVPR和ECCV并列 [2][27] - 本届会议共收到11239份有效投稿,录用2699篇论文,录用率为24% [3] - 投稿量较2019年增长近三倍(2019年4323篇),反映计算机视觉领域研究活跃度显著提升 [4][8] 录用数据与历史对比 - 近年录用率保持稳定:2023年26.15%(8260投稿/2160录用),2021年26.20%(6152投稿/1612录用),2019年25%(4323投稿/1075录用) [5][8] - 新政策导致29篇关联审稿人的论文被拒,其中12篇原本符合录用标准 [6][7] 代表性录取论文 - 高保真3D几何生成:通过法线桥接技术从图像生成三维模型 [9] - 医学影像分割:发布十亿级MRI标注数据集UKBOB [15] - 自动驾驶安全:本体驱动的风险评估框架OD-RASE [23] - 生成式AI:通用扩散模型UniVG实现图像生成与编辑一体化 [24] 行业趋势与挑战 - 深度学习革命推动研究爆发:自2012年AlexNet突破后,LLM和生成式AI等技术进一步刺激论文产量 [30][32] - 顶级会议投稿量激增:NIPS 2025投稿或超30000篇,同行评审系统面临质量与公平性挑战 [35][36] - 改革建议:建立双向评审系统(作者评估审稿质量+审稿人奖励机制)以提升问责制 [38][40][42] 会议形式与特点 - 会议周期4-5天,包含专题教程、技术议程、海报展示及商业展览 [28] - 近年新增强化问责政策,直接处理不负责任审稿行为 [6]
开源晨会-20250625
开源证券· 2025-06-25 14:44
报告核心观点 - 金融工程领域通过深度学习挖掘技术因子,合成因子表现优异;胜科纳米作为半导体第三方检测企业,业绩增长快、技术强、客户多,受益于行业需求增长;AI眼镜市场发展迅速,呈现多种趋势且有众多受益标的 [3][4][18] 各行业及公司研究总结 金融工程 - 基于技术指标挖掘因子,结合遗传算法有效因子得到的LSTM_deap_tech表现更优,RankIC从2019年至今为9.27% [7] - 基于图形识别挖掘因子,转变方案人为定义图形状态构建因子,LSTM_graph从2019年至今RankIC为9.01% [8] - 将LSTM_deap_tech和LSTM_graph等权合成,得到LSTM_deap_tech_graph,从2019年至今RankIC为10.18%,RankICIR为4.99,10分组多空对冲年化收益为36.18% [3][9] - LSTM_pro与LSTM_deap_tech_graph等权合成,因子绩效更好,从2019年至今RankIC为11.93%,10分组多空对冲年化收益为39.85% [10] 中小盘(胜科纳米) - 胜科纳米是中国领先的半导体第三方检测分析服务商,2021 - 2024年营收和净利润CAGR分别达35%和43%,2023年在失效分析与材料分析领域市占率达7.86% [4][14] - 公司检测分析能力覆盖3nm工艺制程,2024年H1先进工艺收入占比近八成,募投项目将拉动先进制程收入提升 [4][14] - 公司凭借海内外六个实验室满足客户时效性要求,已服务全球2000余家客户 [4][14] - 半导体第三方检测行业2027年国内市场空间有望达180 - 200亿元,头部企业将扩大市场份额 [15] - 胜科纳米卡位优质赛道,技术实力强、资质认证领先,客户基础优质稳固且有国际化优势 [16] 电子(AI眼镜) - Meta发布OakleyMetaHSTN,有望推出联名智能眼镜和AR眼镜Hypernova;小米将发布相关新品,下半年国内外眼镜接力发布 [5][18] - 智能眼镜呈现电致变色、SIP封装、AR/VR显示、骨传导等趋势 [19][21] - 受益标的涉及ODM&品牌、摄像头、SoC、AR光波导、结构件、镜片、硅基OLED、其他IC等领域 [22] 市场表现 - 昨日涨跌幅前五行业为非银金融(4.458%)、国防军工(3.364%)、计算机(2.985%)、电力设备(1.656%)、商贸零售(1.567%) [1] - 昨日涨跌幅后五行业为煤炭( - 0.999%)、石油石化( - 0.572%)、交通运输( - 0.207%)、美容护理(0.177%)、食品饮料(0.254%) [2]
开源量化评论(109):深度学习赋能技术分析
开源证券· 2025-06-25 13:22
量化模型与构建方式 1. **模型名称:LSTMtech** - **模型构建思路**:直接使用LSTM模型对股价数据(开、高、低、收、成交量)及技术指标进行因子挖掘[15] - **模型具体构建过程**:输入层为原始量价数据及talib生成的技术指标,采用6年训练集+2年验证集的滚动训练方式,每年更新模型参数[15] - **模型评价**:多头分组效果不够单调,但整体选股能力稳定[15] 2. **模型名称:LSTMdeap_tech** - **模型构建思路**:先通过遗传算法挖掘有效技术因子,再与原始数据共同输入LSTM模型[24][26] - **模型具体构建过程**: 1. 使用遗传算法在2010-2016年数据中挖掘有效因子(框架见图4)[20][22] 2. 将遗传算法因子与原始技术指标合并作为LSTM输入[26] 3. 保持相同的滚动训练机制(6年训练+2年验证)[26] - **模型评价**:绩效显著优于纯LSTM模型,且能覆盖原始LSTM因子的alpha信息[26] 3. **模型名称:LSTMgraph** - **模型构建思路**:将技术指标转化为人为定义的状态变量后输入LSTM[33][41] - **模型具体构建过程**: 1. 对K线形态(实体/影线)和技术指标(如均线相对位置)进行状态编码[33] 2. 合成1-20日K线状态变量作为输入[41] 3. 采用相同LSTM框架训练[41] - **模型评价**:解决了CNN图形识别耗时耗资源的问题,同时保留形态特征[32][41] 4. **复合模型名称:LSTMdeap_tech_graph** - **模型构建思路**:等权合成LSTMdeap_tech与LSTMgraph因子[47][49] - **模型具体构建过程**: 1. 验证两因子相关性(51.48%)及残差选股效果(见图16)[47][49] 2. 直接等权加权合成[49] - **模型评价**:多维度技术信号互补,绩效进一步提升[49] 5. **复合模型名称:LSTMdeap_tech_graph_pro** - **模型构建思路**:将LSTMdeap_tech_graph与交易行为因子LSTMpro等权合成[54] - **模型具体构建过程**:基于38.61%的低相关性直接合成[54] - **模型评价**:多头超额收益显著提升,收益波动比优化[54] --- 量化因子与构建方式 1. **因子名称:Tech_similarity** - **构建思路**:基于技术指标状态匹配历史相似形态[35] - **具体构建过程**: 1. 按月回看5个交易日,匹配股价/MACD/涨跌停/成交量状态[35] 2. 计算匹配日后续20天超额收益均值[35] $$因子值=\frac{1}{5}\sum_{i=1}^{5} (匹配日_i未来20天超额收益)$$ 2. **因子名称:K_similarity** - **构建思路**:基于K线形态匹配历史相似模式[39] - **具体构建过程**: 1. 对日/周/月K线及成交量状态编码[39] 2. 采用与Tech_similarity相同的计算逻辑[39] 3. **复合因子名称:Tech_K_similarity** - **构建思路**:等权合成Tech_similarity与K_similarity[40] - **具体构建过程**:验证两因子25.49%相关性后直接合成[40] --- 模型的回测效果 | 模型名称 | RankIC(2019-) | RankICIR | 多空年化收益 | 多头超额年化 | |------------------------|---------------|----------|--------------|--------------| | LSTMtech | 7.42% | 4.25 | 24.02% | - | [15] | LSTMdeap_tech | 9.27% | 4.54 | 32.44% | - | [26] | LSTMgraph | 9.01% | 4.70 | 32.25% | - | [41][44] | LSTMdeap_tech_graph | 10.89% | 4.99 | 37.28% | 9.40% | [49] | LSTMdeap_tech_graph_pro | 11.93% | - | 39.85% | 11.34% | [54] --- 因子的回测效果 | 因子名称 | RankIC(2013-) | RankICIR | 多空年化收益 | |-------------------|---------------|----------|--------------| | Tech_similarity | 4.97% | 3.05 | 20.22% | [35][37] | K_similarity | 5.10% | 3.09 | 19.25% | [39][42] | Tech_K_similarity | 5.89% | 3.25 | 25.97% | [40][43]
NVIDIA Tensor Core 的演变:从 Volta 到 Blackwell
半导体行业观察· 2025-06-24 01:24
Tensor Core架构演进 - Tensor Core是推动GPU计算能力远超摩尔定律的核心技术,已成为现代AI和机器学习的基石[1] - 从Volta到Blackwell共经历五代架构演进:Volta(第一代)、Turing(第二代)、Ampere(第三代)、Hopper(第四代)、Blackwell(第五代)[11] - 每代架构在MMA(矩阵乘加)指令执行方式、数据精度支持、内存层次结构等方面均有重大创新[11][18][30][39][46] 性能工程原理 - 阿姆达尔定律量化了并行计算的最大加速比,性能提升受限于串行部分执行时间[5] - 强扩展通过增加计算资源解决固定规模问题,弱扩展通过增加资源解决更大规模问题[6] - 数据移动成本远高于计算成本,现代DRAM速度比晶体管开关速度慢两个数量级,形成"内存墙"[10] 编程模型演变 - PTX编程模型采用线程网格-CTA-Warp的三级线程层次结构,对应寄存器-共享内存-全局内存的内存层次[13][14] - SIMT执行模式以Warp(32线程)为单位发出指令,与SIMD不同在于指定单线程行为而非向量宽度[15] - SASS是PTX底层指令集,但文档不完善因NVIDIA对竞争对手保密[17] 各代Tensor Core特性 Volta(第一代) - 引入HMMA指令执行8x8x4矩阵乘法,需8线程四对协作完成[22][25] - 支持FP16输入/FP32累积,符合混合精度训练需求[26] - 每个SM含8个Tensor Core,每周期1024 FLOP[22] Turing(第二代) - 增加INT8/INT4精度支持,引入Warp级同步MMA[27] - 首次将深度学习应用于游戏图形(DLSS技术)[27] Ampere(第三代) - 引入异步数据复制,直接从全局内存到共享内存,缓解寄存器压力[29] - Warp级同步MMA指令,完整32线程参与运算,每SM每周期2048 FLOP(Volta两倍)[30] - 支持BF16格式,提供FP32级别动态范围且无需损失缩放[32] Hopper(第四代) - 新增线程块集群概念,CTA可跨SM协作访问分布式共享内存[33] - 引入张量内存加速器(TMA),批量异步复制全局内存到共享内存[35] - Warpgroup级异步MMA(wgmma),4个Warp(128线程)协作执行更大规模矩阵运算[39] - 支持8位浮点(E4M3/E5M2)和22位定点累加[41] Blackwell(第五代) - 新增Tensor Memory(TMEM)专用存储,256KB容量/SM,更靠近计算单元[43] - 第五代MMA指令完全脱离寄存器,操作数驻留共享内存/TMEM[46] - 支持CTA对级MMA(MMA.2SM),两个SM协作执行[45][49] - 引入MXFP8/6/4和NVFP4等微缩放浮点格式[51][52] 架构演进趋势 - Tensor Core规模扩展速度远超数量增加,MMA形状从Volta的8x8x4扩大到Blackwell的256x256x16[59][60] - 共享内存容量持续增加(Volta 96KB→Blackwell 228KB/SM),寄存器文件保持256KB[64][65] - 操作数存储位置从寄存器逐步转向共享内存/TMEM,提升数据局部性[67] - MMA指令从同步逐步转向异步执行,提高流水线效率[69][71] - 数据类型持续向低精度发展,从FP16到4位格式,同时缩减高精度支持[73][74] 结构化稀疏性 - Ampere引入2:4稀疏模式(每4元素含2零),理论可双倍提升吞吐量[54] - Blackwell为NVFP4引入4:8成对稀疏模式,要求更严格[57] - 实际应用中因剪枝难度和优化不足,稀疏性优势未充分体现[55]
不止是爬山神器,更是四肢增强“外挂”
红杉汇· 2025-06-22 05:03
外骨骼机器人技术发展 - 外骨骼机器人通过机械结构与人体关节耦合,增强或替代人体运动能力,应用场景包括户外运动、工业、医疗、应急救援等[2] - 技术起源可追溯至18世纪,但早期装置笨重且功能有限,1967年通用电气研发的"Hardiman"原型机实现技术突破,具备30多个动力关节但自重达680公斤[4][5] - 21世纪后材料科学进步推动轻量化发展,碳纤维复合材料使产品重量降至1.8公斤,同时AI算法可实现30%体能节省[5] 核心技术突破 - 材料创新:碳纤维、钛合金等轻质高强度材料广泛应用,柔性材料如形状记忆合金提升穿戴舒适性,汉威科技柔性传感器可映射肌肉应变并耐受百万次弯曲[5][6] - 电子技术:微处理器实现毫秒级响应,Cyberdyne公司HAL系统通过检测肌肉电信号预判运动意图[8] - 人工智能:机器学习算法使设备可自适应使用者习惯,视鹏科技登山外骨骼能动态调整助力策略,深度学习技术增强复杂地形适应性[10] 应用场景拓展 - 工业领域:福特工厂使用外骨骼后装配效率提升23%,工人肌肉劳损率下降41%,京东/顺丰物流作业时间延长50%[12] - 医疗康复:ReWalk帮助脊髓损伤患者恢复行走能力,博灵脑机研发的上肢康复外骨骼通过脑机接口捕捉微弱肌肉信号[13] - 社会服务:巴黎残奥会火炬传递采用外骨骼,傲鲨智能产品在上海社区试点,辅助护工搬运老人并具备跌倒报警功能[15] 市场前景与挑战 - 政策推动:专项补贴目标2025年普及率达25%,多省市将外骨骼纳入医保,预计2025年中国市场规模突破50亿元,2030年达千亿级[15] - 现存瓶颈:成本高昂(高精度传感器+轻质材料)、结构笨重影响自然步态、续航不足(如BLEEX仅维持120分钟作业)[17] - 未来方向:智能化算法升级、千元级消费产品开发、固态电池提升续航、产业链标准化[18][21]
【广发金工】基于AGRU因子聚合的ETF轮动策略
ETF市场发展现状 - 截至2025年6月15日,股票型ETF(含场外联接基金)规模达3.81万亿元,数量2031只,超越主动管理类基金的2.84万亿元规模[1][4] - 近一年ETF份额从2.18万亿份增至2.94万亿份,同期主动管理权益基金份额从2.84万亿份降至2.55万亿份[4][5] - 当前场内ETF跟踪351个指数,分为宽基(45个)、行业主题(247个)和策略风格(59个)三类,行业主题指数覆盖从一级到四级细分领域[6][9] 指数收益差异特征 - 2025年5月各类型指数收益率差异显著:宽基类最大相差7.60%(1.28%-4.11%),行业主题类相差15.20%(-7.11%-8.09%),策略风格类相差10.02%(-3.46%-6.56%)[10] - 宽基指数收益中位数1.68%,行业主题1.24%,策略风格2.91%,显示风格轮动机会显著[10] 深度学习因子构建 - 采用AGRU模型(GRU+注意力机制)训练日频量价数据,全A股票池因子IC均值13.31%,多头年化超额15.95%,最大回撤-5.15%[16][20] - 调整损失函数权重后,沪深300成分股因子多头年化超额从15.96%提升至17.24%,中证1000成分股从19.69%提升至20.35%[19][20] - 因子在沪深300、中证500、中证1000股票池均表现优异,年化超额分别达21.97%、11.46%、15.36%[20][26] ETF轮动策略表现 - 月度调仓时指数因子IC均值7.80%,年化超额4.92%;周频调仓后IC降至4.84%但年化超额提升至8.59%[2][33][34] - 采用MMR算法降低标的相关性后,策略年化超额从7.94%提升至8.43%,信息比率从0.94升至0.99,超额最大回撤从-10.78%缩至-9.87%[40][50] - 限定持仓5只ETF时年化超额12.34%(最大回撤-12.17%),10只时为8.75%(回撤-8.83%),15只时为8.13%(回撤-8.66%)[3][59] 策略优化方向 - 剔除规模1亿元以下ETF后,策略年化超额进一步提升至8.95%,信息比率达1.02[57] - 周频调仓组合近期偏好红利、金融板块,2025年至今已获8.74%超额收益[61][63] - 行业主题类指数因子表现更优,周频调仓时年化超额达9.57%(全样本8.59%)[34]
【广发金工】强化学习与价格择时
强化学习在量化投资中的应用 - 强化学习通过试错机制最大化累计奖励,适合构建择时策略,而常规深度学习主要用于固定窗口期的股价预测或因子挖掘[1][6][7] - Double Deep Q-Network(DDQN)模型结合深度学习和强化学习,用于A股指数和个股的择时应用[2][8] - 择时策略采用10分钟频量价数据,模型每10分钟输出买入/卖出信号,遵循t+1交易规则[2][75] 强化学习基本概念 - 强化学习包含状态、动作、状态转移、策略、奖励、轨迹和回报等基本要素[9][12][13][22][27][28] - 状态价值衡量策略在特定状态下的预期长期回报,动作价值衡量特定状态下采取动作的回报期望值[41][43] - 贝尔曼方程和贝尔曼最优方程从理论上定义了最优状态价值和最优策略的关系[46][48] 时序差分法与Q-Learning - 时序差分法结合动态规划和蒙特卡罗方法,实现单步更新和在线学习[49][50] - SARSA是on-policy方法,基于当前策略实际动作更新Q值,而Q-Learning是off-policy方法,基于最大Q值更新[52][54] - DQN利用神经网络近似动作价值函数,解决大规模问题,DDQN通过分离动作选择和评估缓解高估问题[59][62] 基于强化学习的价格择时策略 - 策略定义包括限价订单、订单簿、OHLCV、技术指标、持仓和净值等概念[63][64] - 状态由单步特征、上下文特征和持仓状态组成,动作包括买入、卖出等决策,奖励为净值差[65][66] - 实证分析显示,在2023-2025年样本外测试中,策略在沪深300ETF、中证500ETF、中证1000ETF和个股上分别跑赢基准10.9%、35.5%、64.9%和37.8%[3][75][77][80][83] 总结与展望 - 强化学习在量化投资领域展现出构建择时策略的潜力,但仍面临稳定性不足等挑战[85][86] - 未来研究将探索更多强化学习算法以构建性能更优越的策略[86]