Workflow
千问 3
icon
搜索文档
员工吐槽“给 AI 擦屁股”更辛苦?揭秘企业 AI 提效的“悖论”与真拐点
36氪· 2025-12-17 02:45
文章核心观点 - 当前大模型(如GPT-4、Gemini 3)的“智商”已达到“博士生”水平,但工程环境与Prompt工程仍停留在“小学生”水平,存在“能力错配”,需要通过工程化手段(如Agent架构、上下文工程、数据治理)来释放AI的真正潜力,实现可控、有效的应用[3][4][8] - AI在企业中的落地应用,其价值实现的关键拐点在于准确率与工程体系,当准确率从40%提升至90%-95%并配备完善的工具基础设施时,才能实现真正的效率提升并获得员工信任[15] - AI对经济的影响远不止于技术行业,研究显示AI技术能力可覆盖美国经济中约11.7%的劳动力任务,涉及薪资规模达1.2万亿美元,但其中大量认知型和行政型任务广泛存在于金融、保险、物流、医疗等基础行业,“冰山之下”的任务规模是“冰山之上”的五倍,未来岗位不会消失而是转型,真正取代岗位的是“更会使用AI的人”[17][18][19] - 企业AI落地应选择高频、刚需、有明确付费方且数据就绪度高的场景进行小规模试点和快速迭代,并综合评估总拥有成本与价值机会的ROI,避免好高骛远或隔靴搔痒[24][25] 模型使用与工程化实践 - 基础模型选型需紧密结合具体场景,例如在GUI自动化场景中,经过探索发现千问3的推理效果较为突出[3] - AI Agent的架构设计核心在于通过工程化手段让不确定性的输出收敛至可控范围,例如在GUI Agent中引入“裁判”角色进行每一步操作的判断[4] - 上下文工程(Prompt工程)是发挥模型能力的核心,无法一次性将所有知识塞给模型,需要精心设计以提供任务所需的大量信息[4] - 大模型的“幻觉”是其创造力的来源,在创作类场景中需要利用,但在B端业务场景中需尽量降低,降低幻觉需依赖上下文工程注入专家经验、工具API结果等,并实现全流程可观测与可控[4][5][6] - AI应用上线后与传统IT系统的最大差异在于其输出是“预估”而非完全可预测,准确率可以从60分提升至80、90分,但无法达到100分,需要持续迭代并通过工程手段补充模型无法覆盖的部分[7][8] 数据治理与AI燃料 - 数据治理是大模型工程的前置关键环节,因为模型往往无法理解企业自身的业务场景、流程和垂直领域术语,需要将私域知识传递给模型[9][10][14] - 需要治理的数据主要分为两大类:知识性数据(专家经验、文档等)和生产过程数据(API调用记录、系统日志等)[10][11] - 知识性数据可通过纳入知识库或用于模型训练两种方式与模型结合,若用于训练需进行清洗、去重、标注、脱敏等处理[10] - 生产过程数据在实时推理时作为上下文提供给模型,必须设置严格的权限约束,防止跨Agent的数据泄露风险[11] - 在GUI Agent场景中,图形数据的质量至关重要,图像数据不准确会导致模型无法定位界面元素,需要通过数据灌入、示例教学及CAG(缓存式LAG)等技术提升识别稳定性[12][13] - 数据治理完成后需进行模型效果评估,包括技术指标(准确率、召回率等)和业务指标(用户增长率、销售转化率等),上线后的持续数据运营是Agent迭代优化的基础[11] AI提效的拐点与人员能力转型 - AI提效的拐点取决于准确率与工程工具体系,案例显示GUI Agent准确率从4月的约40%提升至9月的90%-95%后,团队信心大增,C端业务已完全由AI接管,效率提升明显[15] - 当前阶段使用AI可能“更累”,原因包括技术转型期的持续学习压力、验证效果和分析问题的时间增加,以及项目成本与ROI估算难度提高,但这被认为是过渡期的阵痛[16][17] - 招聘标准发生变化,软件工程基础能力仍是核心,但新增AI工程能力、概率思维能力、效果评估能力以及从业务场景中识别AI价值的能力成为重要加分项[20] - 对于B端项目,关键的“一号位”角色需要兼具项目管理、产品设计、业务理解及AI技术知识,能够将AI能力包装成用户可感知的产品功能[5][21] - 测试工程师的职能需升级,需具备业务理解、产品思维和风险意识,能够进行端到端测试并评估AI系统的整体质量与潜在风险[22] - 前端工程师需要参与交互设计,思考在AI驱动下以对话框为主的简化界面中,如何呈现流式响应、多模态交互及可溯源结果[23] - 广泛使用AI并形成真实体感成为对研发、产品等岗位人员的新要求[23] 企业AI落地场景选择与价值评估 - 场景选择应避免两个极端:好高骛远地改造核心系统,或选择极低频的边缘场景,理想场景应具备高频、刚需和明确付费方的特点[24] - 评估场景需从业务价值、数据就绪度(数字化程度、知识结构化程度)和容错空间(是否可引入人机协同)多维度考量[24] - 价值评估需计算总拥有成本(包括显性的GPU、Token费用和隐性的人力、合规成本)与价值机会(效率提升、体验改善、决策优化),当价值机会减去总拥有成本为正时,该场景值得投入[24][25] - 行业正处于探索阶段,建议企业采用快速迭代方式,进行小规模试点和小流量验证,并具备“快速反思能力”以便及时纠偏[25] - 在“效率提升”方向已有大量成功案例,例如使用AI自动生成日报、周报以替代重复性文本工作,在更复杂的Agent效果型场景,仍需大胆尝试并将产品体系与模型能力深度融合[25][26] 特定应用场景探讨 - 在电商领域,利用AI对全网数据进行结构化整理,可以理解用户行为背后的真实需求,并结合用户生成内容完善商品描述,从而打破“信息茧房”,实现人与商品的精准匹配[27] - 在B端企业AI落地过程中,最难的环节之一是服务治理,需要将AI与现有业务流程、系统和数据深度融合,并将大量现有API(案例如某公司超过四万个API)转化为模型可调度、可监控的插件或服务[28] - 对于Agent自主操作设备(如手机)的失控风险,可通过将准确率控制在确定范围(如95%)、在产品流程加入“阀门式”安全措施、在技术端加入可视化链路及第三方监督机制等方式进行风险前置处理[29]
阿里云发布通义灵码 AI IDE,深度适配千问 3 大模型、新增编程智能体,可调用 3000+ MCP 服务
AI科技大本营· 2025-05-30 06:12
AI Coding领域动态 - 阿里云发布首个AI原生开发环境工具通义灵码AI IDE 深度适配千问3大模型并集成通义灵码插件能力 [1] - 工具具备编程智能体 行间建议预测 行间会话等功能 可辅助写代码 修Bug 拥有自主决策 MCP工具调用等能力 [1] - 支持开发者完成复杂编程任务 包括工程感知 记忆感知等高级功能 [1] 通义灵码AI IDE技术特性 - 模型层支持最强开源模型千问3 同时兼容MCP协议 便于开发智能体应用 [3] - 提供长期记忆 行间建议预测 行间会话等开发场景专属能力 [3] - 智能体模式可实现端到端任务完成 包括工程感知 代码检索 执行终端等自主操作 [3] - 深度集成魔搭MCP广场 覆盖3000多个MCP服务 支持一键安装部署 [3] - 行间建议预测功能可动态生成代码修改建议 通过Tab键快速完成编写 [3] - 首创自动记忆功能 记录编程习惯 对话历史 工程信息并自动整理 [4] AI辅助编程发展阶段 - 第一阶段:聊天问答和简单代码补全为主 需人工反复提示 [5] - 第二阶段:自动化协作编程 基于较少指令生成多段代码 甚至局部调试 [5] - 第三阶段:高度自动化与自我验证 实现需求到部署闭环 类似初级工程师 [5] - 行业正从第一阶段向第二阶段过渡 部分产品已展现第三阶段雏形 [5] - 通义灵码智能体模式体现端到端自动化编程尝试 [5]
一图展示全部信息:提示词 + Figma 十秒精修,让长网页秒变封面(内有白嫖福利)
歸藏的AI工具箱· 2025-05-06 08:09
生成网页教程 - 利用Gemini高级版免费福利可试用至2026年 需通过edu邮件验证[1] - 基于藏师傅3.0网页生成提示词拓展 新增"尽量在一页展示全部信息"要求[6][8] - 需准备模型论文/博客文档 支持PDF或Markdown格式[4][5] - 首次生成结果至关重要 需调整主题色匹配品牌调性(如Qwen用白底紫高亮 Grok用暗底橙高亮)[6] 设计规范 - 采用苹果发布会Bento Grid风格 响应式兼容1920px以上屏幕[9] - 视觉元素要求:超大字体突出核心数据 中英文混用(中文粗体大字号) 高亮色4D6BFE[9] - 技术实现:HTML5+TailwindCSS 3.0+ 禁用emoji图标 引用专业图标库[9] - 布局问题示例:标题未加卡片边框 部分卡片未占满空间(如Deepseek案例)[8][9] Figma优化流程 - 使用html.to.design插件导入网页 需替换中文字体为Pingfang SC[12][14] - 删除冗余元素(如Youware导航栏) 解构Iframe图层保留有效内容[15][16] - 调整技巧:统一卡片宽度1472px 复制属性快速应用样式[18][19] - 数学公式计算间距(如350+398-24自动修正模型规模卡片宽度)[21] - 导出前统一边距32px 使用postspark工具添加渐变边框[22][23] 案例验证 - 已验证方法适用于Gork 3和千问3模型介绍 生成单页展示效果[2] - Orange成功将千问3内容转化为苹果风格PPT一图流[1]