海天瑞声CEO李科:数据产业正从劳动密集型向技术和知识密集型转变
核心观点 - 数据与AI双引擎融合驱动是智能时代演进方向 数据驱动AI发展 AI推动数据进化[1] - 大模型发展面临数据墙困境 无标签语料贡献减弱 大规模数据训练性价比显著降低[1] - 数据产业正经历从劳动密集型向技术密集型和知识密集型重大转型[2] 数据质量提升方法 - 通过语法复杂度指标和累积分布采样筛选高质量语料 从100亿token财经语料中筛选20%高质量数据训练 领域问答任务准确率提升1.7%[1] - 数据质量分析需从体验质量入手 考虑人类体验和机器体验[2] - 高质量数据集应满足VALID²要求 包括鲜活度 真实性 大样本 完整性 多样性 高知识密度[2] 行业实践案例 - 动捕数据 自动驾驶标注 思维链数据集等高质量数据服务千行百业[2] - 语料数据在方法论 基础设施和行业生态三方面进行体系化重构探索[2] 学术研究进展 - 大模型数据科学需从专家经验阶段发展到量化科学直至自进化阶段[1] - 需要从海量杂乱数据中提取决定模型能力的关键成分[1] - 精炼数据和合成数据都需要质量优先原则[2]