Workflow
大型视觉语言模型
icon
搜索文档
大模型破译甲骨文创下新SOTA!复旦团队推出新框架
量子位· 2025-09-07 04:36
甲骨文破译技术突破 - 复旦大学研究人员提出基于部首和象形分析的可解释甲骨文破译框架 在公开基准数据集HUST-OBC和EV-OBC上达到最先进的Top-10识别准确率 并具备优异的零样本破译能力[1] - 该方法能够对未破译甲骨文输出可解释性分析文本 为考古破译工作提供潜在帮助[2] 甲骨文破译挑战与现有方法局限 - 甲骨文因稀有性、抽象性和象形多样性给考古破译工作带来重大挑战[3] - 当前深度学习方法忽视了甲骨文字形与语义之间的复杂关联 导致有限泛化能力和可解释性 特别是在处理零样本场景和未破译甲骨文时表现不佳[4][5] PD-OBS数据集构建 - 研究团队构建包含47,157个汉字的象形破译甲骨文数据集(PD-OBS) 其中3,173个汉字关联甲骨文图像 10,968个汉字提供古代隶书图像 所有汉字均配备现代楷书图像[7][9] - 数据集标注过程分为三阶段:通过《说文解字》检索部首标签和解释 利用GPT-4.1丰富部首标签并总结分析内容 最后通过自我检查和人工修正确保质量[10][11][12][13] 模型架构与训练策略 - 框架基于Qwen2.5-VL-7B构建 引入空间patch合并模块作为视觉适配器 并设计分类器预测部首标签[15] - 采用渐进式训练策略:从部首识别开始 接着进行部首和象形分析 最终实现联合分析[6][15][22] - 提出部首-象形双重匹配机制 从数据库中选择最合适字符替代直接输出 提升零样本性能[16][29][30][31] 实验性能表现 - 在HUST-OBC验证集上达到80.6% Top-1准确率和87.8% Top-10准确率 在EV-OBC验证集上达到76.3% Top-1和81.7% Top-10准确率[41] - 零样本场景表现突出:在HUST-OBC上Top-10准确率达53.7% 比次优方法高出26.2% 在EV-OBC上Top-10准确率达64.1% 高出13.6%[41][45] - 可解释性评估显示 该方法在验证集和零样本设置下的BERT-Score分别比GPT-4.1高出21.60%和12.95%[49][51] 技术应用价值 - 该方法对未破译甲骨文能生成语义合理预测并提供可解释分析 在考古研究中具有巨大应用潜力[67][72] - 构建的PD-OBS数据集包含47,157个注释汉字 为未来甲骨文研究提供宝贵资源[73]
复旦最新LMAD:迈向可解释端到端VLM~
自动驾驶之心· 2025-08-19 23:32
文章核心观点 - LMAD框架通过多机制协同显著提升自动驾驶视觉语言模型推理性能 解决现有方法在整体场景识别和空间感知方面的不足 [2][3] 现有方法局限性 - 场景理解碎片化 依赖中间结果或简单视觉表征 难以捕捉交通元素间关系 [4] - 空间与运动感知薄弱 定位和运动估计表现不足 导致驾驶任务性能不佳 [4] 框架创新设计 - 引入初步场景交互机制 建模交通参与者初步关系 降低学习复杂度 [6] - 采用任务专用专家结构 通过并行LoRA模块专注感知预测规划等特定任务 [6] - 端到端系统集成 融合先验知识补充空间和运动信息 增强推理能力 [6] 关键模块设计 - PI编码器通过解耦查询和交替注意力机制处理多视图图像 减少冗余跨视图tokens [12][15] - 并行LoRA在FFN块中替换传统LoRA为多个并行分支 每个分支对应不同驾驶任务 [16] - 特征整合通过适配器处理三类特征并对齐语言上下文 拼接为端到端tokens [23] 实验性能表现 - DriveLM基准测试中LLaMA-Adapter准确率提升3.44% GPT得分提升3.89% [20][21] - InternVL2整体指标改善 准确率从77.95%提升至80.38% GPT得分从64.13提升至65.10 [21] - nuScenes-QA测试中整体准确率提升2.57% H0和H1指标分别提升1.99%和3.75% [25][26] - 在BLEU4 ROUGE L CIDEr METEOR等指标上表现最优 BLEU4达54.59 ROUGE L达75.72 [25] 技术实现细节 - 使用DriveLM数据集包含377,956个QA对 nuScenes-QA数据集约460k个QA对 [24] - 训练采用8张A6000 GPU batch size 16训练2个epoch 使用AdamW优化器 [24] - 推理时结合Chain-of-Thought技术按端到端方法逐步输出结果 [22] 组件有效性验证 - 全组件配置最终得分达57.17 显著高于其他配置 [28][29] - 任务导向P-LoRA在各项指标上表现均衡 优于问题导向和分层模式 [28][29] - 感知tokens对行为解释最关键 加入预测和规划tokens后准确性进一步提升 [30][31]