员工吐槽“给 AI 擦屁股”更辛苦?揭秘企业 AI 提效的“悖论”与真拐点
36氪·2025-12-17 02:45

文章核心观点 - 当前大模型(如GPT-4、Gemini 3)的“智商”已达到“博士生”水平,但工程环境与Prompt工程仍停留在“小学生”水平,存在“能力错配”,需要通过工程化手段(如Agent架构、上下文工程、数据治理)来释放AI的真正潜力,实现可控、有效的应用[3][4][8] - AI在企业中的落地应用,其价值实现的关键拐点在于准确率与工程体系,当准确率从40%提升至90%-95%并配备完善的工具基础设施时,才能实现真正的效率提升并获得员工信任[15] - AI对经济的影响远不止于技术行业,研究显示AI技术能力可覆盖美国经济中约11.7%的劳动力任务,涉及薪资规模达1.2万亿美元,但其中大量认知型和行政型任务广泛存在于金融、保险、物流、医疗等基础行业,“冰山之下”的任务规模是“冰山之上”的五倍,未来岗位不会消失而是转型,真正取代岗位的是“更会使用AI的人”[17][18][19] - 企业AI落地应选择高频、刚需、有明确付费方且数据就绪度高的场景进行小规模试点和快速迭代,并综合评估总拥有成本与价值机会的ROI,避免好高骛远或隔靴搔痒[24][25] 模型使用与工程化实践 - 基础模型选型需紧密结合具体场景,例如在GUI自动化场景中,经过探索发现千问3的推理效果较为突出[3] - AI Agent的架构设计核心在于通过工程化手段让不确定性的输出收敛至可控范围,例如在GUI Agent中引入“裁判”角色进行每一步操作的判断[4] - 上下文工程(Prompt工程)是发挥模型能力的核心,无法一次性将所有知识塞给模型,需要精心设计以提供任务所需的大量信息[4] - 大模型的“幻觉”是其创造力的来源,在创作类场景中需要利用,但在B端业务场景中需尽量降低,降低幻觉需依赖上下文工程注入专家经验、工具API结果等,并实现全流程可观测与可控[4][5][6] - AI应用上线后与传统IT系统的最大差异在于其输出是“预估”而非完全可预测,准确率可以从60分提升至80、90分,但无法达到100分,需要持续迭代并通过工程手段补充模型无法覆盖的部分[7][8] 数据治理与AI燃料 - 数据治理是大模型工程的前置关键环节,因为模型往往无法理解企业自身的业务场景、流程和垂直领域术语,需要将私域知识传递给模型[9][10][14] - 需要治理的数据主要分为两大类:知识性数据(专家经验、文档等)和生产过程数据(API调用记录、系统日志等)[10][11] - 知识性数据可通过纳入知识库或用于模型训练两种方式与模型结合,若用于训练需进行清洗、去重、标注、脱敏等处理[10] - 生产过程数据在实时推理时作为上下文提供给模型,必须设置严格的权限约束,防止跨Agent的数据泄露风险[11] - 在GUI Agent场景中,图形数据的质量至关重要,图像数据不准确会导致模型无法定位界面元素,需要通过数据灌入、示例教学及CAG(缓存式LAG)等技术提升识别稳定性[12][13] - 数据治理完成后需进行模型效果评估,包括技术指标(准确率、召回率等)和业务指标(用户增长率、销售转化率等),上线后的持续数据运营是Agent迭代优化的基础[11] AI提效的拐点与人员能力转型 - AI提效的拐点取决于准确率与工程工具体系,案例显示GUI Agent准确率从4月的约40%提升至9月的90%-95%后,团队信心大增,C端业务已完全由AI接管,效率提升明显[15] - 当前阶段使用AI可能“更累”,原因包括技术转型期的持续学习压力、验证效果和分析问题的时间增加,以及项目成本与ROI估算难度提高,但这被认为是过渡期的阵痛[16][17] - 招聘标准发生变化,软件工程基础能力仍是核心,但新增AI工程能力、概率思维能力、效果评估能力以及从业务场景中识别AI价值的能力成为重要加分项[20] - 对于B端项目,关键的“一号位”角色需要兼具项目管理、产品设计、业务理解及AI技术知识,能够将AI能力包装成用户可感知的产品功能[5][21] - 测试工程师的职能需升级,需具备业务理解、产品思维和风险意识,能够进行端到端测试并评估AI系统的整体质量与潜在风险[22] - 前端工程师需要参与交互设计,思考在AI驱动下以对话框为主的简化界面中,如何呈现流式响应、多模态交互及可溯源结果[23] - 广泛使用AI并形成真实体感成为对研发、产品等岗位人员的新要求[23] 企业AI落地场景选择与价值评估 - 场景选择应避免两个极端:好高骛远地改造核心系统,或选择极低频的边缘场景,理想场景应具备高频、刚需和明确付费方的特点[24] - 评估场景需从业务价值、数据就绪度(数字化程度、知识结构化程度)和容错空间(是否可引入人机协同)多维度考量[24] - 价值评估需计算总拥有成本(包括显性的GPU、Token费用和隐性的人力、合规成本)与价值机会(效率提升、体验改善、决策优化),当价值机会减去总拥有成本为正时,该场景值得投入[24][25] - 行业正处于探索阶段,建议企业采用快速迭代方式,进行小规模试点和小流量验证,并具备“快速反思能力”以便及时纠偏[25] - 在“效率提升”方向已有大量成功案例,例如使用AI自动生成日报、周报以替代重复性文本工作,在更复杂的Agent效果型场景,仍需大胆尝试并将产品体系与模型能力深度融合[25][26] 特定应用场景探讨 - 在电商领域,利用AI对全网数据进行结构化整理,可以理解用户行为背后的真实需求,并结合用户生成内容完善商品描述,从而打破“信息茧房”,实现人与商品的精准匹配[27] - 在B端企业AI落地过程中,最难的环节之一是服务治理,需要将AI与现有业务流程、系统和数据深度融合,并将大量现有API(案例如某公司超过四万个API)转化为模型可调度、可监控的插件或服务[28] - 对于Agent自主操作设备(如手机)的失控风险,可通过将准确率控制在确定范围(如95%)、在产品流程加入“阀门式”安全措施、在技术端加入可视化链路及第三方监督机制等方式进行风险前置处理[29]