阿里公测千问对标ChatGPT 但9.9和9.11谁大还是“翻车”了
大模型能力测试 - 阿里巴巴最新公测的千问APP在回答“数字9.9和9.11谁大”时出错,称“9.11更大”[2] - 经过问题拆解和自我纠错后,千问承认首次回答存在结论与推理过程不匹配的笔误,并最终给出正确答案“9.9更大”[7] - 该问题最初由艾伦研究机构成员发现,ChatGPT-4o曾认为13.11比13.8更大,显示大模型在常识问题上的普遍弱点[7] 大模型技术特性 - 有AI技术从业人士指出,大模型本质是语言模型,从语言数据中学习统计相关性,因此不擅长规则学习和归纳推理[8] - 尽管在常识问题上存在失误,但大模型在技术积累和复杂任务上表现突出,例如擅长数学奥赛题[7] 阿里巴巴Qwen模型竞争力 - 包括阿里巴巴Qwen模型在内的中国大模型,在技术积累、生态布局和全球拓展方面已具备不容忽视的全球竞争力[8] - Qwen系列模型的全球下载量已突破6亿次[8] - 爱彼迎CEO表示公司已很大程度上依赖阿里巴巴的Qwen模型,认为其非常好、速度快且便宜,在实际生产中比OpenAI最新模型使用更多[8] 阿里巴巴AI战略部署 - 阿里巴巴正式宣布“千问”项目,并全力进军AI to C市场,计划将地图、外卖、订票等各类生活场景接入千问APP[10] - 基于开源模型Qwen3,公司将“千问”项目视为“AI时代的未来之战”,借力Qwen模型的海外影响力与ChatGPT直接展开竞争[10]