Workflow
数据工程
icon
搜索文档
林镇阳:数据是AI的养料,数智融合是必然趋势
新浪财经· 2025-12-10 09:16
数据要素市场价值链重塑 - 将工业制造业的“微笑曲线”理论延伸至数据要素市场 价值链两端的附加值最高[2][5] - 价值链一端是数据供给侧的高质量数据采集与治理 另一端是应用侧的场景变现与价值实现[2][5] - AI技术正在重塑数据价值链 中间的数据传输与简单加工价值持续降低 而上游高质量数据集供给和下游数智融合场景创新的重要性愈发凸显[2][5] 数据产业链各环节演进 - 传统数据供给模式已被重构 算力普及推动上游数据产业从“量”到“质”的转变[2][5] - 中游可信数据空间等技术破解了数据流通的可信与管控难题[2][5] - 下游涌现出模型工厂 MaaS服务等多元数智融合场景 未来AI将驱动数据实现自循环生态闭环[2][5] 企业数智化转型核心 - 无论AI型厂商 信息化企业还是传统制造企业 数据工程都是未来研发的核心 数据是AI的养料 AI是数据价值的驱动力[2][5] - 数智融合是必然趋势 数据是高质量发展的核心引擎和衡量发展质量的重要标尺[2][5] - 数据价值释放需依托“业务 + AI + 数据”的三维整合 推动企业从传统数据能力建设转向AI驱动的数据建设 深耕行业场景形成解决方案[2][5] 企业转型逻辑与价值 - 企业数智化转型核心逻辑是以数据为基础构建知识工程 通过AI大模型训练与推理实现高质量数据集供给 培育行业垂类场景智能体赋能业务[3][6] - 形成“数据 - 模型 - 应用 - 数据”的业务闭环 反向迭代数据工程[3][6] - 该过程能为企业自身降本增效 解放人力价值 并在数据要素市场的零级市场层面 为企业数据资产的高质量建设提供支撑 助力数据要素价值充分释放[3][6]
哲学就业意外火了
投资界· 2025-09-11 08:44
计算机科学专业就业市场变化 - 计算机科学毕业生失业率飙升至6.1% 是哲学专业失业率3.2%的近两倍 [2][6] - 计算机工程失业率高达7.5% 在所有专业中位列前茅 [5][6] - 顶尖院校如MIT、斯坦福、卡内基梅隆、伯克利的大厂就业率从25%骤降至11%-12% [7] 薪资与就业质量对比 - CS专业起薪保持8万美元高位 但就业不足率达16.5% [5][6] - 职业生涯中期薪资中位数达11.5万美元 仍高于多数专业 [6] - 哲学、艺术史、新闻学等专业虽起薪较低但失业率仅3%-4.4% [6] 科技行业裁员潮影响 - 2024年全球科技行业裁员15.1万人 2025年初再裁2.2万人 [14] - 微软2025年累计裁员1.5万人 英特尔计划裁员2.4万人 [14] - 应届生需与经验丰富被裁人员竞争 导致岗位骤减 [15] 教育供给与市场需求错配 - 美国CS学士学位授予量十年间从5.1万人增至11.2万人 翻倍有余 [16] - 大学课程更新速度滞后 仍偏重理论教学而非市场所需新技能 [16] - 企业申请H-1B签证数量增加 微软2025年申请4712个名额 同时本土裁员 [16] 人工智能对就业市场冲击 - 实验显示AI使资深开发者完成任务速度降低19% [13] - GitHub Copilot提升任务完成量26% 企业将AI作为裁员理由 [13] - OpenAI未明确承诺CS领域职业前景稳定 [10] 就业市场新趋势 - 52%职位不再要求正式学历 本科学历要求从20.4%降至17.8% [20] - IBM超半数岗位取消学位要求 谷歌苹果逐步跟进 [23] - AI/机器学习工程师、数据工程师、云架构师岗位需求快速增长 [24] 技能要求转型 - 云计算岗位预计十年增长15% 企业技术投入转向云端 [24] - 网络安全专业岗位需求增长率达10-12% 与AI结合趋势明显 [24] - 基础编程岗位边缘化 复杂系统问题解决能力成为核心需求 [24] 新兴就业路径 - 雇主更关注实际项目经验与作品集而非GPA [27] - 通过黑客马拉松等实践渠道获得大厂录用机会 [27] - 部分从业者通过降薪积累经验实现职业跃迁 [27]
X万字解读具身智能数据工程 | Jinqiu Select
锦秋集· 2025-08-07 15:02
具身智能数据工程综述 核心观点 - 具身智能面临三大数据瓶颈:成本效率低下、数据孤岛与评估真空 [5][6][7] - 提出系统性解决方案"具身AI数据工程"框架 涵盖数据生产、标准化、仿真生成等全生命周期 [8][9][10] - 真实世界数据采集与仿真数据生成构成两大技术路径 需协同优化 [10][37][102] 数据瓶颈分析 - **成本效率**:机器人交互数据规模仅为LLM训练数据的十万分之一 高质量遥操作数据采集成本高昂 [6][26] - **数据孤岛**:设备与技术多样性导致数据格式不统一 跨系统共享困难 [27][28] - **评估真空**:缺乏统一标准 存在盲目收集与重复建设 [28][45] 技术框架构成 - **顶层设计**:综合规划传感器配置、数据类型与采集精度 [10][30] - **数据标准**:统一格式、标注方法与质量控制规范 解决互操作性 [10][45][69] - **真实数据采集**:基于遥操作(姿态/视觉/光惯性)与示教(直接/间接)两类系统 [29][75][87] - **仿真数据生成**:包含仿真引擎、数字资产、平台模块与系统接口四层架构 [37][38][41] 数据集分类与标准化 - **演示数据集**:操控演示(GraspNet-1Billion等)与移动演示(Human3.6M等) 用于训练"系统I" [47][48][52] - **具身问答数据集**:空间推理(EQA v1)与任务规划(VideoNavQA) 训练"系统II" [56][57][60] - **基准数据集**:导航(nuScenes)与交互(ManipulaTHOR) 用于性能评估 [62][63][64] - **标准化三阶段**:度量标准化(空间/时间精度)、结构标准化(四类数据流)、质量评估标准化(量化/经验指标) [69][72][73] 技术改进方向 - **真实数据采集**:硬件专用化(如人形机器人适配)、软件交互简化、策略辅助降低人为误差 [97][98][99] - **仿真数据生成**:增强Real2Sim转换、资产生成精度提升、决策生成物理约束强化 [119][120][121] - **虚实协同**:构建World Models缩小sim2real差距 实现双向数据增强 [121][133][134] 行业应用特点 - **工业领域**:制造业需高精度运动控制数据 特种领域侧重安全可靠性数据 [122][123] - **服务业**:需均衡各类数据 包括常识、操作决策与人机交互数据 [124][125] - **生产方法选择**:遥操作数据可用性高但成本高 仿真生成生产力强但存在真实性缺陷 [126][127][128] 未来优化路径 - **系统化生产**:兼容多设备的一体化平台 集成自动化标注与管理工具 [130] - **社会化协作**:建立开放数据交易平台 包含质量评估与知识产权保护机制 [137] - **目标驱动**:专业化数据(工业场景)与社会化数据(人机交互)并行发展 [135][136]