Workflow
讯飞星火 X1升级,幻觉治理领先业界主流模型

科大讯飞星火X1大模型升级 - 讯飞星火X1在事实性幻觉治理和忠实性幻觉治理方面取得显著突破,大幅提升生成内容的可靠性和行业应用价值 [1] - 新版本综合能力对标OpenAI o3等国际一流大模型,多语言能力扩展至130余种,并在翻译、推理、文本生成等核心能力上表现突出 [1] - 基于多路径采样验证及事实性约束强化学习的原创技术,有效降低慢思考下的幻觉率,提升通用常识和专业知识回复的可靠性 [2] 技术性能与数据对比 - 在基础能力测试中,星火X1文本生成准确率达90.43%,数学能力90.16%,均优于或接近OpenAI o3和DeepSeek竞品 [3] - 公开测试集表现亮眼:AMC-2024准确率88%,MMLU-Pro 83.95%,SuperGPQA 59.26%,部分指标领先国际对手 [3] - 幻觉专项测试中,事实性幻觉率仅9.52(越低越好),显著优于OpenAI o3的11.11和DeepSeek的12.80 [3] 行业应用落地 - 语音同传首字响应速度快至2秒,综合翻译质量提升20%,流畅度接近母语交流水平 [8] - 教育领域实现作业批改、个性化推荐、答疑辅学等能力升级,巩固行业领先优势 [8] - 医疗大模型覆盖全科辅助诊断至专科诊疗链条,在华西医院等顶级医疗机构试点效果行业领先 [9] 战略地位与政策支持 - 公司董事长两度出席国家高规格企业家座谈会,成为人工智能领域唯一代表,凸显国家级战略背书 [4] - 公司担任国家人工智能标准化总体组大模型专题组联合组长等多项核心职务,主导智能语音国家级技术标准创新基地筹建 [4] 技术创新路径 - 开创性采用人类专家数据反写技术,解决高质量SFT数据获取难题,提升主观任务文笔和风格化水平 [3] - 将评语模型与细粒度反馈强化学习结合,通过文本指导优化数学推理训练效率,突破传统数值奖励局限 [8]