长文本检索大突破,联通团队研发的新模型,准确率提升近两成
搜狐财经·2025-12-02 20:15

模型技术突破 - 中国联通数据科学与人工智能研究院团队研发的HiMo-CLIP模型,解决了现有图像检索模型(如CLIP)在处理带多个特征的复杂长文本描述时准确率下降的“说越多错越多”难题[2][6] - 模型核心创新在于HiDe模块,该模块采用动态语义指纹提取技术,能自动识别描述中最具区分度的关键信息,例如识别“福特皮卡”时,“超大轮胎”比“有色车窗”更具区分性,该技术准确率达89.3%[7][8] - 模型采用MoLo损失机制进行双重对齐保障,既匹配整个文本语义,又强化核心特征匹配,确保描述增加有效信息时匹配得分上升,在MSCOCO-Long测试集上mAP指标比Long-CLIP提升近两成[11][13] 性能与效率 - 模型在A100显卡上的推理速度仅增加7%,对硬件要求不高,可在普通服务器上运行[10] - 模型在提升长文本处理能力的同时,在短文本任务上未出现性能倒退,在Flickr30K数据集上保持了98.3%的原始性能[13] - 在多项基准测试中,HiMo-CLIP(Ours)使用ViT-B/16架构在1M数据规模下,取得了89.2/89.6、77.8/79.9、58.6/57.1的优异性能指标[12] 商业化应用与行业影响 - 京东已试点采用该技术改进商品搜索功能,当用户使用“黑色连帽卫衣带白色抽绳和刺绣logo”等复杂描述时,搜索转化率提升了27%[14][15] - 自动驾驶领域正尝试应用该技术解析包含多元素的复杂路况描述,如“前方施工区域有黄色警示牌和穿橙色背心的工人”,以提升环境识别准确性[18] - 项目已在GitHub开源,不到半年获得2.3k星标,字节跳动、商汤科技等公司已在试用[18] 发展前景与行业意义 - 模型当前在处理如“碳纤维车身包围”等特别专业的术语时仍有提升空间,团队计划于2026年第三季度发布多语言版本[21] - 该模型的创新思路提示行业,AI模型发展不应仅追求数据拟合,更需模拟人类认知逻辑,结合知识图谱构建结构化语义空间可能是多模态智能发展的新方向[21] - 该模型的成功证明了中国团队在AI基础研究领域具备强大实力[21]