LSTM
搜索文档
被拒≠失败!这些高影响力论文都被顶会拒收过
具身智能之心· 2025-12-12 01:22
Waymo的AI战略与知识蒸馏 - Waymo近期发布深度博客,阐述了其以Waymo基础模型为核心的AI战略[1] - 谷歌首席科学家Jeff Dean在社交媒体上分享了该博客,并重点介绍了Waymo使用的蒸馏方法,该方法与创建Gemini Flash模型的思路类似,旨在基于更大模型创建可机载运行的高计算效率模型[1] 同行评审制度的历史局限性 - 回顾AI发展史,许多支撑起万亿级产业的基石技术在最初问世时,都曾被顶级学术会议拒之门外[6] - 同行评审制度虽为质量守门人,但在面对过于超前或离经叛道的研究时,存在系统性认知滞后,包括简单性陷阱、范式惯性和对理论严谨性的过度要求[41] - 科学发展的非线性表明,同行评审善于识别错误,但往往拙于鉴别天才,真正决定研究生命力的是其解决问题的能力与时间检验[43] 曾被拒稿的里程碑式技术与论文 LSTM (长短期记忆网络) - 论文《Long Short-Term Memory》于1996年被NIPS会议拒稿[7][8] - 在当时神经网络寒冬的背景下,其门控机制被认为参数过多、过于复杂且缺乏生物学合理性[9] - 该论文目前引用量已超过139,707次,并在2010年代随算力与数据爆发,于语音识别和机器翻译中展现出统治级表现[8][10] SIFT (尺度不变特征变换) - David Lowe提出的SIFT算法在1997年和1998年先后被ICCV和CVPR会议拒稿[12] - 拒稿理由是算法被认为过于繁琐、不够优雅,不符合当时学术界对严密数学推导的偏好[12] - 该算法最终以海报形式发表,统治计算机视觉领域长达15年,其论文引用量超过27,389次[13][16] Dropout - Geoffrey Hinton团队关于Dropout的论文在2012年投稿NIPS时被拒[17] - 评审认为随机“删除”神经元的方法过于激进、缺乏数理逻辑,并将作者使用的生物学隐喻视为不够科学的工程技巧[17] - 该技术后来成为AlexNet赢得ImageNet比赛的关键,论文引用量超过60,231次,并获得了NeurIPS时间检验奖[17][21] Word2Vec - Tomas Mikolov等人(包括Jeff Dean)关于Word2Vec的论文在首届ICLR会议上被“强烈拒绝”[20][22] - 评审意见尖锐,认为工作“不科学”、“定义模糊”,且过度关注工程优化而缺乏理论解释[20] - 作者通过开源代码使其迅速普及,成为NLP领域基石,论文引用量超过50,855次,并在2023年获得NeurIPS时间检验奖[20][22] 知识蒸馏 (Knowledge Distillation) - 由Geoffrey Hinton、Oriol Vinyals和Jeff Dean合著的论文在2014年被NeurIPS拒稿,理由是其“不太可能产生重大影响”[3][4][31] - 评审未能认识到“暗知识”概念的深远意义,即知识隐含在错误类别的概率分布中[25] - 该论文最终在研讨会上发表,开启了模型压缩领域,目前引用量已超过28,600次,并成为大模型落地的重要方法[4][27][31] YOLO (You Only Look Once) - 论文《You Only Look Once: Unified, Real-Time Object Detection》在2015年被ICCV会议拒稿[29][32] - 在R-CNN系列主导的时代,评审因其定位精度(mAP)不如当时最优方法而拒绝,忽视了其实现45 FPS实时检测的速度突破[29] - YOLO系列已成为工业界最受欢迎的检测框架,其论文引用量超过69,782次[30][32] RoBERTa - 论文《RoBERTa: A Robustly Optimized BERT Pretraining Approach》在投稿ICLR 2020时被拒[34] - 评审认为其新颖性和技术贡献有限,只是证明了“仔细调参”和“更多数据”的有效性[34] - 该工作成为后续NLP研究的标准基线,论文引用量超过23,479次,揭示了优化训练细节的实战价值[34] Mamba - 论文《Mamba: Linear-Time Sequence Modeling with Selective State Spaces》在ICLR 2024的评审中折戟[35][38] - 评审认为与其前作相比增量不足,且未能在所有任务上全面超越Transformer[37] - 尽管被拒,该架构在社区引发巨大反响,基于Mamba的变体大量涌现,成为2024年最具影响力的架构创新之一,论文引用量已超过6,799次[38][39] 跨领域的启示与案例 - 即使是阿尔伯特·爱因斯坦关于引力波的论文也曾被《Physical Review》送审并收到尖锐的匿名评审意见,尽管该意见后来被证实指出了论文中的一个错误[44][47] - 这些案例表明,一项研究的最终价值取决于其解决问题的能力及历史回响,而非短暂的评审决定[47] - 许多具有深远影响的研究者,包括图灵奖和诺贝尔奖得主,都曾经历过论文被拒[48]
AI 赋能资产配置(二十九):AI 预测股价指南:以 TrendIQ 为例
国信证券· 2025-12-03 13:18
核心观点 - AI大模型通过强大的信息收集和分析能力弥补了传统股价预测模型因缺乏非结构化信息而表现波动的缺陷[3] - TrendIQ平台展示了AI技术在股价预测上的能力圈,提供本地化部署和网页版两种选择,分别具备安全性和易用性优势[4] - 预测框架从基于LSTM的混合模型向Transformer架构演进,利用全局上下文感知、零样本学习和思维链推理提升预测能力[8] - 未来AI股价预测将向多模态融合和实时RAG方向发展,结合视觉、文本和时序分析提升鲁棒性[40] AI股价预测技术演进 传统LSTM模型的优势与局限 - LSTM模型因能处理非线性问题和时间序列特性,成为股价预测的"门面担当",其神经元包含细胞状态和输入门、遗忘门、输出门三种门机制[5] - 机器学习时代LSTM与XGBoost结合捕捉时间依赖性和非线性关系,强化学习时代与xLSTM和深度强化学习结合优化长依赖捕捉问题[6] - LSTM存在三大局限性:模态单一性导致无法理解市场因果关系;解释性较弱被视为黑盒模型;泛化鲁棒性弱难以跨市场迁移[6][7] Transformer架构的创新突破 - Transformer架构通过全局上下文感知能力同时关注输入序列所有元素,捕捉微小但关键的市场信号[8] - 具备零样本与少样本学习能力,凭借海量通用语料预训练快速适应新兴资产预测任务[8] - 思维链推理将预测过程分解为逻辑步骤,提供宝贵可解释性,例如"通胀数据高于预期→央行加息概率增加→贴现率上升→高估值科技股承压"的推理链条[8] TrendIQ平台架构解析 本地化部署运行流程 - 训练阶段通过train_multiple.py和quick_train.py收集历史数据(使用yfinance),预处理后训练LSTM模型并保存文件,quick_train.py预设AAPL、GOOGL、MSFT、TSLA和AMZN五只热门股票训练[12][14] - 检查阶段通过check_models.py验证训练结果完整性,扫描data/目录统计模型数量和质量状态[18] - 运行阶段通过app.py启动Flask服务器,提供用户界面进行实时预测,包含价格预测、图表展示和置信度计算功能[20] 核心代码模块功能 - train_multiple.py作为批量处理引擎支持扩展股票列表(包括META、NVDA、NFLX等),提供三种训练模式:全量训练、自定义股票训练和单股票训练[17] - app.py整合预测功能,通过/live-ticker接口获取实时股价数据,/predict接口处理用户输入,基于60天历史数据进行LSTM预测并给出30天波动率计算的置信度[20] 本地部署与线上平台对比 本地部署实施步骤 - 软件包下载通过PowerShell或git bash获取完整项目结构,需Python 3.8以上环境支持[21] - 安装阶段一次性安装Flask、TensorFlow、NumPy、Pandas、Scikit-learn、YFinance、Joblib等依赖包[23] - 数据训练通过quick_train.py执行约10-15分钟的训练过程,为五只热门股票生成模型文件[24] - 本地运行通过python app.py启动服务,访问http://127.0.0.1:5000即可使用预测功能[28] 线上平台操作流程 - 用户通过Google账号或邮箱登录TrendIQ网页版,支持一键登录[32] - 预测功能分为Swing Trading(60分钟线及以上趋势预测)和Scalp Trading(5分钟及以内趋势预测),用户上传K线截图即可分析[33][34] - 预测结果包含三部分:多空趋势研判、止盈止损位置(如当前价6410对应止盈6685和止损6280)、具体判断理由(如上涨趋势建立、均线多头排列等)[36] 平台效果对比分析 - 本地版TrendIQ输入股价序列和成交量数据,使用LSTM模型,输出目标价和置信区间,对海外大市值、标准化程度高个股预测效果较好[41] - 线上版TrendIQ输入K线图,使用LSTM+LLM/LSTM+VAE模型,输出多空建议和止盈止损线,在多头排列环境中主升阶段判定准确,但震荡市胜率一般且大回撤时缺乏前瞻性[41] 未来技术演进方向 模型架构创新 - 学术界正用Transformer架构与图神经网络逐步取代LSTM,解决长序列依赖和高维数据处理问题[39] - Time-VLM和TimeRAG等新框架尝试将K线图作为图像处理,结合LLM文本理解和数值模型分析,实现多模态融合[40] 实时能力提升 - 实时RAG技术将连接外部知识库,在预测时主动搜索最新供应链动态和政策变化,缓解模型过时问题[40] - 多模态系统能在股价暴跌时同时识别技术破位形态、解读相关新闻事件并计算历史波动率,提升判断准确性[40]
国债期货系列报告:多通道深度学习模型在国债期货因子择时上的应用
国泰君安期货· 2025-08-28 08:42
报告行业投资评级 未提及 报告的核心观点 - 提出融合日频与分钟频数据的深度学习双通道模型,能提升策略在样本外尤其是市场下行期的预测准确性与稳定性,为重构债市量化择时体系提供新思路 [2] - 双通道模型在样本外测试表现优于单一日频模型,空头行情中胜率高,有双向预测能力 [3] - 在多因子择时框架中,应约束深度学习因子权重,结合逻辑型因子决策,实现可解释性与绩效提升统一 [43][44] 根据相关目录分别进行总结 深度学习模型介绍 - 传统量化债市择时体系中因子挖掘体系难以覆盖有价值信息,深度学习技术可从数据中寻找复杂关系,补充增强传统因子挖掘体系 [7][8] - RNN能处理时间序列数据,但处理长序列时会出现梯度消失问题 [9] - LSTM通过细胞状态和三个门控单元解决梯度消失问题,能有效传递长序列信息 [15] - GRU是对LSTM的参数化近似,减少可学习参数数量,在多数序列建模任务中不牺牲性能 [19] - 设计双通道模型,处理日频和分钟频数据,融合二者输出,反映市场长期趋势和短期波动 [22][23] 国债期货择时检验 回测设置 - 目标变量为10年期国债期货open to open的收益率,回测时间区间为2016年1月 - 2025年8月,日频调仓,保证金100%,1倍杠杆,手续费双边万1 [25][26][27] 日频通道模型 - 输入80个日频特征,RNN回看周期10日,LSTM和GRU回看周期20日 [28] - 单一日频通道模型样本内表现理想,样本外表现差,有过拟合情况 [33] 双通道模型 - 融合多频率时序信息,用GRU和LSTM结构设计,样本外稳定性强,能提升模型泛化能力 [34][41] - 双通道模型空头胜率在样本内外均较高,加入低权重因子可增强多因子择时框架在市场下行中的准确度 [42] 多因子框架中的深度学习配比 - 采用约束性配置策略,控制深度学习因子权重,结合逻辑型因子,实现可解释性与绩效提升统一 [43][44] 结论 - 提出的双通道深度学习框架能提高多因子策略性能,但市场底层逻辑转变或极端市场环境下有风险,建议结合逻辑型因子决策 [45][46]
微云全息(NASDAQ: HOLO)提出基于LSTM加密货币价格预判技术: 投资决策的智慧引擎
财富在线· 2025-08-06 03:01
行业背景与挑战 - 加密货币已成为金融领域重要组成部分但市场缺乏有效监管且存在严重操纵现象导致价格波动剧烈[1] - 传统金融预测方法如线性回归和移动平均在处理高度非线性非平稳的加密货币时间序列数据时表现不佳[1] 技术方案与实施 - 公司采用LSTM神经网络模型通过输入门遗忘门输出门等门控机制有效解决传统RNN的梯度消失和爆炸问题[2] - 从多权威数据源收集历史交易数据涵盖价格成交量时间市场深度等多维度并进行严格清洗和预处理[2] - 使用随机梯度下降AdagradAdadelta等优化算法调整参数并采用L1L2正则化及Dropout技术防止过拟合[2] 性能评估与优化 - 采用均方误差平均绝对误差平均绝对百分比误差和决定系数等多重指标对模型性能进行全面评估[2] - 通过调整模型结构参数增加训练数据质量改进特征工程等方式持续优化模型预测准确性[2] 技术优势与创新 - LSTM模型能有效学习加密货币价格的复杂动态变化和长期依赖关系实现高精度预测[4] - 预测误差较传统方法显著降低准确性大幅提高并能提供个性化投资建议服务[4] 未来发展方向 - 探索强化学习生成对抗网络迁移学习等新技术与LSTM结合提升预测准确性[4] - 加强与大数云计算物联网等技术融合实现更高效数据处理分析[4]