国际最新研究构建超万张人类图像数据库评估人工智能视觉偏见

研究背景与问题 - 计算机视觉技术广泛应用于自动驾驶车辆和面部识别等多个领域 [3] - 许多人工智能模型的训练数据存在缺陷，可能未经用户同意收集，并经常来自网络大规模图像抓取 [3] - 人工智能模型可能反映出延续性别歧视、种族歧视或其他刻板印象的偏见 [3] 数据库核心特征 - 索尼AI团队开发了名为“公平的以人类为中心的图像基准”的数据库，包含10318张人类图像 [1][3] - 数据库图像基于用户同意和符合伦理的手段获取，涵盖来自81个国家或地区的1981个个体 [3] - 数据库包含对人口统计和生理特征的全面标注，如年龄、代词类别、祖先血统、发色与肤色等 [3] - 参与者获得关于项目和潜在风险的详细信息，帮助其做出知情同意，过程符合全面数据保护法规 [3] 数据库比较优势 - 与27个现有以人类为中心的计算机视觉应用数据集相比，该数据库在多样性与人工智能评估的可靠同意方面标准更高 [3] - 该数据库有效减少了偏见，其包含的参与者自我申报标注信息超过其他数据集 [3] - 该数据库包括了相当比例通常代表性不足的人群 [3] 应用价值与挑战 - 该数据库可用于评估现有人工智能模型在计算机视觉任务中的表现，能揭示更多此前无法了解的偏见 [5] - 创建该数据集的过程充满挑战且成本高昂，但可能代表了迈向更可信人工智能的一步 [5]