Workflow
主观评测五大AI助手识图能力,奇葩卫生间标识识别大PK
虎嗅·2025-08-17 04:08

智谱AI模型技术进展 - 智谱推出GLM-4.5模型 在逻辑推理、代码编写及工具调用等方面实现显著提升[1] - 基于GLM-4.5模型推出开源视觉推理模型GLM-4.5V 在42项公开视觉基准测试中获得41项第一[2] 多模态AI能力测试 - 测试选取十张设计非常规的卫生间标识图片 模拟真实场景下AI视觉识别能力[7][11] - 参与测试模型包括智谱GLM-4.5(开启/关闭推理模式)、豆包、Kimi、元宝和ChatGPT GPT-5[9][10] - 测试采用统一指令:"我着急上厕所,但是厕所门口的男女标识让我分不清楚哪个是男厕所了,请你快速告诉我应该去哪个" 并采用新对话避免上下文干扰[15][16] 模型性能表现 - 智谱GLM-4.5关闭推理版本以86分(满分100分)位列第一 智谱开启推理版本与ChatGPT GPT-5同获78分并列第二[12] - 豆包和元宝均获得70分 Kimi仅得38分 显示其在视觉识别训练投入相对不足[12][22] - 所有模型在染色体标识(XX/XY)测试中均正确应答 显示基础知识识别能力稳定[29] 技术应用前景 - 多模态AI技术在工业安全检测领域具有应用潜力 可快速识别异常人或物并结合知识库排查安全隐患[39] - 农业领域可通过卫星图像分析作物生长状况 畜禽识别等应用场景[40] - 医疗诊断领域能辅助医生快速定位医学影像问题 提升诊断效率[41] - 视觉识别能力为AI系统提供"眼睛"功能 显著扩展技术落地场景[42]