机器学习
搜索文档
指数复制及指数增强方法概述
长江证券· 2025-07-02 11:07
根据提供的研报内容,以下是量化模型和因子的详细总结: 量化模型与构建方式 1. **优化复制模型** - **构建思路**:通过数学优化方法最小化跟踪误差,复制目标指数的收益[31] - **具体构建过程**: 1. 定义资产组合收益率: $${\tilde{R}}_{t}=\Sigma_{i=1}^{M}{\widetilde{W}}_{i,t}\cdot Y_{i,t}=Y_{t}\cdot{\overline{{W}}}_{t}$$ 其中${\widetilde{W}}_{i,t}$为持仓权重,$Y_{i,t}$为资产收益[31] 2. 目标函数为跟踪误差最小化: $$w=a r g\,m i n\;\;\;T E$$ 其中$TE=\sqrt{\frac{1}{T}\Sigma_{t=1}^{T}(\tilde{R}_t-R_t)^2}$[32] 3. 添加约束条件: 权重和为1:$$\Sigma_{i=1}^{N}w_{i}=1$$[33] 非负约束:$$0\leq w_{i}\leq1$$[35] 行业/风格中性约束: $$z_{l o w}\leq\frac{X_{s}^{T}w-X_{s}^{T}\tilde{w}}{s_{b}}\leq z_{u p}$$ $$w_{l o w}^{I}\leq X_{I}^{T}w-X_{I}^{T}\bar{w}\leq w_{u p}^{I}$$[36] - **评价**:灵活平衡成本与精度,但依赖历史数据可能产生模型风险[30] 2. **Barra多因子模型** - **构建思路**:基于CAPM和Fama-French三因子模型扩展,解释个股收益来源[47] - **具体构建过程**: 因子收益方程: $${\begin{bmatrix}r_{1}\\ r_{2}\\ \vdots\\ r_{n}\end{bmatrix}}={\begin{bmatrix}x_{11}\\ x_{21}\\ \vdots\\ x_{n1}\end{bmatrix}}f_{1}+{\begin{bmatrix}x_{12}\\ x_{22}\\ \vdots\\ x_{n2}\end{bmatrix}}f_{2}+\cdots+{\begin{bmatrix}x_{1m}\\ x_{2m}\\ \vdots\\ x_{n m}\end{bmatrix}}f_{m}+{\begin{bmatrix}u_{1}\\ u_{2}\\ \vdots\\ u_{n}\end{bmatrix}}$$ 其中$x_{ij}$为股票i对因子j的暴露,$f_j$为因子收益[46] 3. **TCN神经网络因子挖掘模型** - **构建思路**:通过时序卷积网络挖掘高频量价Alpha因子[52] - **评价**:相比遗传规划算法能发现更复杂的非线性关系[51] 量化因子与构建方式 1. **波动类因子** - 特异率:1减Fama-French三因子模型拟合优度[48] - 残差波动率:Fama-French三因子回归残差的标准差[48] - 换手率变异系数:换手率标准差/均值[48] 2. **空头意愿因子** - 每笔成交额:总成交额/成交笔数[48] - 高量每笔成交:高成交量区间的每笔成交额占比[48] 3. **交易拥挤度因子** - 量价相关性:成交量与价格的秩相关系数[48] - 高量交易成本:最高20%价格区间的成交量占比[48] 4. **质量因子** - 盈利因子:扣非ROE与资产报酬率的均值[48] 5. **成长因子** - 绝对净利润增长:单季度扣非净利润时间序列回归斜率[48] 模型的回测效果 1. **沪深300指数增强基金** - 年化超额收益:3.74%[23] - 信息比率(IR):1.51[23] - 跟踪误差:2.22%[23] - 超额胜率:72%[23] 因子的回测效果 1. **打新增强** - 2025年打新收益:2.13%(科创板4.34%,创业板2.52%)[67] 2. **股指期货增强** - 2025年基差:沪深300(-6.75%)、中证500(-13.60%)[72] 3. **大宗交易增强** - 历史折价率中位数:5.38%(2025年8.23%)[74] 4. **定向增发增强** - 历史折价率中位数:14.55%(2025年11.87%)[77]
极智嘉 全栈技术筑壁垒掘金仓储自动化黄金赛道
搜狐财经· 2025-07-02 09:30
公司上市与募资 - 极智嘉计划于2025年7月9日在港交所主板挂牌上市,发行140,353,000股H股,其中香港公开发售14,035,400股,国际发售126,317,600股 [2] - 发行价为每股16.80港元,预计募集资金23.58亿港元 [2] - 引入4名基石投资者,累计认购9130万美元(约7.167亿港元),包括雄安机器人、Arc Avenue、保诚旗下Eastspring Investments和纵腾集团持有的亿格 [2] 核心技术 - 公司构建了覆盖硬件、软件、算法的全栈技术体系,形成显著技术护城河 [3] - 激光视觉融合SLAM技术定位精度平均低于±10mm(±1°),处于行业领先地位 [4] - Hyper+核心算法平台支持25种仓储任务算法,单仓可协调超5000台机器人协同作业,拣选效率达每工位每小时400件(货架到人)和300件(货箱到人) [5] - 全球首个机器人通用技术平台Robot Matrix支持全品类机器人开发,研发效率提升30%以上 [6][7] - 全栈软件系统包括仓库执行系统(WES)、机器人管理系统(RMS)和智能运营平台(IOP),系统可用率99.99%,故障恢复时间<10分钟 [8] 专利与技术积累 - 截至2024年累计申请专利超2000项,覆盖路径规划、多机调度、传感器融合等关键领域 [8] - PopPick货箱到人拣选方案可降低客户50%仓储成本,分拣准确率达99.9987% [8] 行业前景 - 全球AMR市场规模预计从2024年的387亿元增至2029年的1621亿元,年复合增长率33.1% [10] - AMR在仓储自动化中的渗透率将从2020年的4.4%提升至2029年的20.2% [10] - 电商、3PL及制造业升级是主要增长动力 [13] - 中国"十四五"规划明确提出"智能制造"战略,地方政府对自动化仓储项目提供补贴 [15] 竞争优势 - 连续6年全球仓储履约AMR市占率第一(2024年:9.0%),收入超国内最大竞品海柔创新(2023年极智嘉营收21.4亿元vs海柔约10亿元) [23] - 2021-2024年营收从7.9亿元增至24.1亿元,复合增长率45% [23] - 2024年订单金额31.4亿元,同比增长16.6% [23] - 毛利率提升至34.8%(仓储履约AMR毛利率39.2%,海外业务毛利率46.5%) [23] - 全球48个服务站点+13个备件中心,7×24小时响应,客户复购率74.6%(关键客户84.3%) [24] - 覆盖63家财富500强企业,包括沃尔玛、西门子、顺丰等 [24]
专家的社会预测,为何总是不准?
虎嗅· 2025-07-01 13:34
社会科学的核心使命,是发现、描述并解释人类社会的运行规律与历史变迁。然而,对未来的好奇与关切几乎与解释同样强烈。 过去,由于数据和模型的约束,社会科学家往往只能在宏观社会趋势上给出谨慎的推断。如今,随着机器学习和人工智能的发展,如何 利用大数据做出准确的社会预测成为了社会科学的前沿议题(陈云松等,2020;Lundberg et al.2022)。 然而,在讨论算法与数据能给社会预测带来多大突破之前,还有一个更基础的问题有待检验:在不倚赖数据的情况下,单凭专业知识和 经验,社会科学家究竟能否对未来的社会变迁做出相对准确的判断?由于专家意见经常用于辅助政策制定,并在公共舆论中发挥影响, 评估他们预测的准确性便显得尤为关键。 针对这一研究问题,The Forecasting Collaborative团队在2022年发表于《自然:人类行为》的文章"Insights into the Accuracy of Social Scientists'Forecasts of Societal Change"中展开了一项实验,得出了非常有意思的结论。 The Forecasting Collaborative是一个专注于评 ...
Sebastian Raschka著作免费开放!《机器学习与AI核心30问》,新手专家皆宜
机器之心· 2025-07-01 05:01
书籍免费开放 - 知名AI技术博主Sebastian Raschka宣布其著作《机器学习Q与AI:30个必备问答》的全部30章内容免费开放,旨在帮助夏季实习和技术面试的读者 [1] - 该书纸质版+电子版原价49.99美元(约358元),电子版原价39.9美元(约286元) [2] 书籍背景与特点 - 机器学习和AI领域发展迅速,从业者常疲于追赶新技术,该书提供从新手到专家的碎片化知识精华 [6][7] - 书籍内容写于2022年11月ChatGPT发布前,可能曾是ChatGPT的训练数据 [11] - 作者强调书籍内容并非AI生成,这违背其个人伦理 [12] 行业专家评价 - 《Designing Machine Learning Systems》作者Chip Huyen称赞该书融合学术深度、工程敏捷性和简化能力,是机器学习之旅的理想向导 [16] - 《How AI Works》作者Ronald T. Kneusel认为该书是关于关键AI主题的一站式指南,为已进入AI世界的读者提供下一阶段所需知识 [16] 书籍内容结构 第一部分:神经网络和机器学习 - 涵盖嵌入、隐空间与表征(第1章)、自监督学习(第2-3章)、彩票假设(第4章)、过拟合解决方案(第5-6章)、多GPU训练(第7章)、Transformers架构(第8章)、生成式AI模型(第9章)和随机性来源(第10章) [22][23][24][25][26][27][28][29][31][32][33][34][35][36][37][38] 第二部分:计算机视觉 - 包括CNN参数量计算(第11章)、全连接层与卷积层替代(第12章)、视觉Transformer数据需求(第13章) [39][40][41][42][44] 第三部分:自然语言处理 - 涵盖分布假说(第14章)、文本数据增强(第15章)、自注意力机制(第16章)、编码器-解码器Transformers(第17章)、预训练模型微调(第18章)和评估指标(第19章) [46][47][48][49][50][52] 第四部分:生产和部署 - 包括无状态/有状态训练(第20章)、以数据为中心的AI(第21章)、推理加速(第22章)和数据分布偏移(第23章) [54][55][56][57][58][59] 第五部分:预测性能和模型评估 - 涵盖泊松回归与有序回归(第24章)、置信区间构建(第25-26章)、评估指标特性(第27章)、k折交叉验证(第28章)、训练/测试集分布差异(第29章)和有限数据解决方案(第30章) [60][61][63][64][65][66][67][68][69][70]
一文读懂数据标注:定义、最佳实践、工具、优势、挑战、类型等
36氪· 2025-07-01 02:20
数据标注的核心重要性 - 数据标注是AI和ML模型实现高准确性的基础 通过精确标记和分类数据使机器学习模型发挥最佳性能 [1] - 80%的数据科学家将超过60%的时间用于数据准备和注释而非模型构建 凸显其作为AI基础的关键地位 [2] - 标注良好的数据可确保模型识别模式 做出准确预测并适应新场景 直接影响AI系统性能 [5] 数据标注技术类型 - 图像标注涉及添加标题和关键词作为属性 对计算机视觉和面部识别至关重要 [13] - 音频标注需标记语言 方言 情绪等多维参数 包括非言语情况的识别 [16] - 视频标注通过逐帧标记实现运动追踪和行为分析 对自动驾驶等应用关键 [20] - 文本标注需处理语义 意图和情感等抽象元素 是NLP领域最复杂的标注类型 [23] - LiDAR标注处理3D点云数据 在自动驾驶和城市规划中实现精确空间识别 [31] 行业应用与市场趋势 - 全球数据标注工具市场规模预计2028年达34亿美元 2021-2028年CAGR为38.5% [5] - 自动驾驶领域依赖标注的图像和激光雷达数据检测行人及障碍物 [5] - 医疗AI通过标记的X射线和CT扫描训练模型识别病理特征 [5] - 78%企业AI项目采用内外结合的数据标注服务 较2022年增长24个百分点 [5] - 零售AI通过产品标记和情感分析实现个性化推荐 [5][81] 标注方法与效率提升 - AI辅助注释可减少70%的标注时间 同时提高15-20%的模型准确率 [5][48] - 半自动标注结合人工准确性和AI处理能力 显著提升大规模数据处理效率 [7] - 主动学习方法通过模型引导标注过程 减少30-40%的标注成本 [8][5] - 合成数据生成技术降低对人工标注的依赖 提高模型多样性 [6] 工具选择与实施策略 - 专业标注工具应支持多模态数据管理和版本控制 确保数据集完整性 [40] - 标注平台需内置质量检查模块 实现实时协作和反馈跟踪 [42] - 企业级解决方案必须符合GDPR/HIPAA等数据安全标准 [43][61] - 构建与购买决策需权衡项目规模 预算 合规要求和人力资源等因素 [50][68] 质量控制与最佳实践 - 多阶段质量控制系统包括初始培训 持续监控和最终审查 [47][54] - 采用多位注释者交叉验证可显著提高标注一致性 [86][88] - 清晰的标注指南和标准化流程是保证质量的关键因素 [86][88] - 人机协作模式将人工聚焦于复杂案例 提升整体效率 [86][88]
机器学习因子选股月报(2025年7月)-20250630
西南证券· 2025-06-30 04:35
量化模型与构建方式 1. **模型名称:GAN_GRU模型** - **模型构建思路**:结合生成式对抗网络(GAN)和门控循环单元(GRU)的深度学习模型,通过GAN处理量价时序特征后,利用GRU进行时序编码生成选股因子[9][10] - **模型具体构建过程**: 1. **数据输入**:18个量价特征(如收盘价、成交量等),采样形状为40*18(过去40天的特征)[13][14] 2. **GAN部分**: - 生成器(LSTM):输入原始量价特征(40,18),输出生成的特征(40,18)[29][32] - 判别器(CNN):处理二维时序特征,损失函数为: $$L_{D}=-\mathbb{E}_{x\sim P_{d a t a}(x)}[\log\!D(x)]-\mathbb{E}_{z\sim P_{z}(z)}[\log(1-D(G(z)))]$$ 生成器损失函数为: $$L_{G}\,=\,-\mathbb{E}_{z\sim P_{z}(z)}[\log(D(G(z)))]$$[20][23] 3. **GRU部分**:两层GRU(128,128) + MLP(256,64,64),输出预测收益pRet作为因子[18] 4. **训练细节**:半年度滚动训练,Adam优化器,学习率1e-4,损失函数为IC[14] - **模型评价**:通过对抗训练提升特征生成能力,保留时序性质的同时增强特征逼真度[26][29] --- 模型的回测效果 1. **GAN_GRU模型** - **IC均值**:11.54%(全A股,2019-2025)[36] - **ICIR**:0.89[37] - **年化超额收益率**:24.95%[37] - **信息比率(IR)**:1.56[37] - **最大回撤**:27.29%[37] - **最新一期IC**:8.34%(2025年6月)[36] - **行业表现**:建筑装饰、公用事业等行业IC均值最高(19.68%、17.15%)[37][39] --- 量化因子与构建方式 1. **因子名称:GAN_GRU因子** - **因子构建思路**:基于GAN_GRU模型输出的预测收益pRet,经行业市值中性化+标准化处理后作为选股因子[18][36] - **因子具体构建过程**: 1. 模型输出预测收益pRet 2. 截面标准化+行业市值中性化处理[18] - **因子评价**:在全A股范围内表现稳定,行业适应性较强[36][40] --- 因子的回测效果 1. **GAN_GRU因子** - **多头组合超额收益**: - 家用电器行业最高(7.27%单月,5.90%近一年)[40][41] - 全行业近一年均跑赢基准[40] - **行业IC排名**:建筑装饰(26.10%单月)、基础化工(25.43%)[37][39] - **换手率**:0.83[37] --- 多头组合示例(2025年6月) - **前十个股**:凤凰传媒、川投能源、海尔智家等[42][44] - **行业排名第一个股**:中国电建(建筑装饰)、宝信软件(计算机)等[42]
创新驱动发展:杨悦引领硅橡胶技术革新
江南时报· 2025-06-30 04:18
背景介绍 - 公司作为专注于硅橡胶制品研发和生产的高新技术企业,致力于通过技术创新提升产品竞争力 [2] - 近年来随着人工智能和机器学习技术的发展,公司意识到这些技术在传统制造业中的潜力,决定将其引入硅橡胶生产领域 [2] 技术创新 - 公司开发了一套基于机器学习的智能生产系统,通过收集和分析生产过程中的大量数据,实现对生产参数的实时优化和精准控制 [3] - 传统生产方式依赖人工经验和定期检测调整工艺参数,效率低下且难以保证产品质量稳定性 [3] - 引入传感器技术实时采集数据,通过机器学习算法深度分析,自动识别影响产品质量的关键因素并预测潜在问题 [3] - 智能系统自动调整生产参数,动态优化硫化温度和时间,使产品质量一致性显著提升,产品合格率提高约15% [3] 生产效率提升 - 智能生产系统优化生产流程,减少设备停机时间和等待时间 [4] - 系统根据原材料库存和订单需求自动调整生产计划,实现原材料精准投放和设备高效利用 [4] - 引入机器学习技术后,硅橡胶生产效率提高约21%,生产周期缩短约14% [4] 行业影响与未来展望 - 公司在硅橡胶生产中引入机器学习技术,成为传统制造业与现代信息技术深度融合的典范 [5] - 技术创新提升了企业的核心竞争力,为行业发展提供了宝贵经验和借鉴 [5] - 未来随着人工智能和机器学习技术的不断发展,传统制造业将迎来更多变革和发展机遇 [5]
3D芯片的挑战
半导体行业观察· 2025-06-29 01:51
文章核心观点 - 3D IC技术通过垂直堆叠多个芯片形成三维结构,相比传统平面集成电路,能显著缩短元件间物理距离,从而提升性能、降低功耗并缩小尺寸 [1] - 该技术是半导体行业追求更高性能和更强大功能的自然演进结果,其发展得益于制造工艺、材料科学和设计方法的显著改进 [2] - 全球3D IC市场正经历前所未有的增长,主要驱动力来自人工智能、机器学习、高性能计算等领域对更复杂电子系统的需求 [3] - 3D IC技术的优势具有变革性,涵盖了性能增强、电源效率、热管理以及系统集成度等多个维度,对未来电子系统设计影响深远 [10][20] 3D IC技术的基本架构与关键创新 - 关键技术包括用于垂直连接的硅通孔(TSV)、先进封装技术、先进的热管理系统以及复杂的电力输送网络 [4] - 架构演变的关键里程碑包括硅中介层技术介绍、TSV制造工艺的开发、芯片对芯片键合技术的进步以及异构技术集成 [5] 3D IC技术的优势 - **性能增强**:通过垂直堆叠芯片缩短互连组件物理距离,直接降低信号延迟并优化时序特性,使系统能在保持信号完整性的同时以更高频率运行 [14] - **电源效率和热管理**:3D设计固有的较短互连长度降低了寄生电容和电阻,从而降低信号传输功耗,对电池供电设备和数据中心尤为重要 [15] - **行业应用及影响**:在人工智能和高性能计算领域具有变革性,将高带宽内存与处理单元紧密集成的能力彻底改变了系统架构,实现更低延迟和更高内存带宽 [16] - **经济和制造效益**:混合使用不同工艺节点和技术的能力使制造商能够优化性价比,灵活的制造策略有助于企业在保持高性能标准的同时最大化投资回报 [17] 设计与验证考虑 - 3D IC技术的实施需要全面的设计和验证方法,物理验证系统在确保设计可靠性和性能方面至关重要 [7] - 热管理是3D IC设计中最严峻的挑战之一,必须通过精心设计和分析来应对多层有源层堆叠带来的独特热挑战 [7] - 信号完整性和功率传输需要仔细考虑,先进的仿真和验证工具能够全面分析和优化电气性能 [7] - 基本验证要求包括功能验证和测试、热应力和机械应力分析、信号和电源完整性验证以及生产工艺验证 [13] 市场驱动因素与行业应用 - 主要市场驱动因素包括数据中心和云计算扩展、人工智能和机器学习要求、移动设备的进步以及汽车电子的演变 [12] - 主要行业应用包括高性能计算和数据中心、人工智能和机器学习系统、超大规模基础设施以及先进计算平台 [19] 未来影响 - 随着技术成熟和新应用涌现,其优势不断扩大,先进的验证流程使设计人员能在保持可靠性和可制造性的同时突破极限 [20] - 该技术对半导体行业的影响深远,实现了前所未有的系统设计和集成方法,将继续推动多个行业的创新 [20]
2025年如何从小白进阶成为AI/ML专家:助你拿下offer的修炼路线图
36氪· 2025-06-28 23:05
AI/ML学习路径 核心观点 - 文章提出2025年AI/ML领域高效进阶的八步法,强调从Python基础到专精领域的系统性学习路径,直击企业认可的实战能力需求 [1][13][19] 分步总结 第一步:Python核心库 - 掌握Python语法、函数、面向对象编程及AI专用技巧是基础前提 [2] - 需熟练使用NumPy(数值计算)、Pandas(数据处理)、Matplotlib/Seaborn(可视化)等库,学习周期3-4周 [4] 第二步:数学基础 - 线性代数(矩阵/向量空间)、概率统计(贝叶斯/假设检验)、微积分(梯度/优化)是理解模型的核心,周期4-6周 [4][5] 第三步:机器学习基础 - 监督/无监督学习、强化学习、深度学习是分水岭,需通过吴恩达课程等资源建立工程思维,周期6-8周 [6][8] 第四步:实践项目 - 通过构建真实项目(如小型GPT模型)积累经验,推荐《Scikit-Learn实战》等资源,需持续实践 [8][9] 第五步:MLOps - 部署、监控及维护生产环境模型的技能是专业分界线,学习全栈深度学习架构需3-4周 [9][10] 第六步:专精领域 - 需选择NLP、Transformer、计算机视觉等方向深入,强化细分领域竞争力 [10][11] 第七步:前沿追踪 - 通过ArXiv论文平台及领域专家(如OpenAI研究者)保持技术敏感度 [11][12] 第八步:面试准备 - 需掌握模型原理解释、系统设计等能力,针对性学习高频考题,周期4-6周 [12][13]
“模式识别与人工智能前沿探讨”论坛将于7月举办
南方都市报· 2025-06-28 05:02
论坛概况 - 专题论坛"模式识别与人工智能前沿探讨"将于7月6日在中国科技会堂召开 [1] - 论坛由中国自动化学会承办 设置主旨报告和圆桌论坛两大环节 [3] 论坛内容 - 主旨报告环节聚焦模式识别与人工智能的研究发展、技术突破与治理等跨学科议题 [3] - 圆桌论坛围绕人工智能交叉应用等前沿议题 搭建青年科技人才与资深专家的产学研对话平台 [3] - 学术委员会联合《模式识别与人工智能》等核心期刊 遴选10篇前沿论文汇编成专题集锦 [3] - 人工智能治理与发展部分成果直接服务新质生产力发展与信息科技领域战略 [3] 参与主体 - 创新"院士领衔+青年交流"机制 设置青年学者提问环节 [4] - 10余位青年人才托举工程入选者与近20位顶尖专家(如中国工程院院士王耀南)同场交流 [4] 成果转化 - 通过论文展示将学术成果转化为可视化学术交流环节 [4] - 论坛学术委员会牵头形成"人工智能治理框架""技术发展"等专家建议报告 服务科技决策 [4] - 实现"基础研究-学术交流-建言献策"全链条价值生态 [4]