Workflow
数据湖仓
icon
搜索文档
一文读懂如何选择数据架构
36氪· 2025-09-19 02:51
数据工程架构核心观点 - 数据工程是管理和指导数据从收集到转换、存储和访问全过程的关键学科 在制定战略决策、优化运营和获得竞争优势方面至关重要[1] - 成功的数据架构基础必须从设计过程一开始就奠定 不仅关乎技术架构构建 还在于使其与组织目标和数据管理策略保持一致[2] - 数据管理策略如数据仓库、数据湖、数据湖仓和数据网格在数据类型、访问模型、性能要求、组织结构和治理策略方面提供不同解决方案[1] 需求分析 - 项目初期最重要的第一步是需求分析 如果需求定义不明确将导致资源和时间浪费[3] - 需求分析目的是了解业务需求、确定利益相关者期望、明确范围并选择正确的技术基础设施[7] - 在示例项目中 数据来自两个主要源系统(ERP和CRM)以CSV格式提供 需要在整个ETL过程中进行仔细规划和强大数据控制[4] - 数据必须集成到用户友好且易于理解的结构中 数据模型应简洁、合乎逻辑并支持分析 不需要跟踪历史数据[5] - 系统最终生成的数据模型需要提供清晰易懂的文档 确保技术团队和业务用户都能更轻松适应系统[5] 数据架构选项比较 - 数据仓库专注于结构化数据 适用于报告和商业智能 具有高性能报告、数据安全性和一致性优势 但仅适用于结构化数据且成本较高[11][12][15][16] - 数据湖可存储结构化、半结构化和非结构化数据 提供高度灵活性 适用于机器学习和高级分析 但可能导致复杂的数据管理和数据沼泽问题[11][21][23][24] - 数据湖仓结合数据湖灵活性和数据仓库结构化数据管理功能 能处理各种数据类型同时提供高效分析查询性能 但设置和管理复杂[11][27][30][32] - 数据网格采用分布式架构 每个部门创建自己的数据产品并与其他部门共享 适用于大型复杂组织 但缺乏集中数据管理可能影响数据一致性和完整性[11][37][39][40] 数据架构平台选择 - 数据仓库平台包括Google BigQuery、Amazon Redshift、Snowflake、Microsoft Azure Synapse Analytics、Teradata和IBM Db2 Warehouse[18][19][20] - 数据湖平台包括Amazon S3、Azure数据湖存储、Google Cloud Storage、Apache Hadoop HDFS和MinIO[26] - 数据湖仓平台包括Databricks + Delta Lake、Apache Iceberg、Apache Hudi、Azure Synapse Analytics、Snowflake和Google BigLake[34][35] - 数据网格平台包括AWS Lake Formation + Glue + S3、Databricks Unity Catalog、Starburst/Trino、Snowflake、Kafka/Event Streaming和DataHub/Amundsen/OpenMetadata[41][42] 数据仓库设计方法 - Inmon方法采用集中式数据仓库设计 所有数据存储在一个中心位置并经过规范化处理 提供数据高度准确性和一致性但开发过程缓慢[46][47][53] - Kimball方法采用用户友好且灵活的设计 数据组织成更小更具体的部分称为数据集市 使用星型模式和雪花模式 提供便捷访问和快速查询但可能产生数据冗余[47][51][54] - Data Vault方法提供灵活性和模块化 数据以原始形式存储然后通过添加业务规则进行处理 允许与各种数据源快速集成但可能带来管理困难[55][58] - Medallion架构将数据处理分为三层:青铜层(原始数据)、白银层(清理数据)和黄金层(符合业务规则的数据) 提供简洁性、可追溯性、灵活性和性能[56][57][60][61] 可视化数据仓库架构 - 数据仓库架构可视化关键元素包括数据源、ETL流程、数据仓库、层级结构和商业智能工具[67] - 数据源可以有多种格式如数据库、CSV文件、APIs和Web服务 在图中用方框表示并通过箭头连接[67][70] - ETL流程包括提取(数据收集)、转换(数据转换)和加载(数据加载)步骤 在图中用顺序箭头表示[67] - 如果采用Medallion架构 应在图中清晰标明不同层级(青铜、白银、黄金) 每层描述数据处理程度和预期用途[67] - 商业智能工具和报告平台用于向最终用户呈现数据 是分析和解释数据的最后一步[67]
阿里巴巴再调整集团业务;美团回应“退款未到账”丨科技风向标
21世纪经济报道· 2025-08-25 02:23
巨头动向 - 马斯克宣布xAI开源Grok 2.5模型并计划六个月内开源Grok 3 同时Grok App图像生成速度提升且Vision模式向所有Android用户开放 [2] - 华为云调整组织架构 聚焦"3+2+1"业务 包括通算/智算/存储/AI PaaS/数据库/安全 [2] - 阿里巴巴重组业务架构 从六大业务集团收缩为四大类别:中国电商/国际商业/云智能/其他业务 饿了么并入中国电商 高德菜鸟等划归其他业务 [2] 人工智能与自动驾驶 - 华为智能汽车解决方案BU宣布9月推送ADS 4与Harmony Space5 中国汽车辅助驾驶渗透率达50%用时5年 [3] - 周鸿祎称OpenAI开源是因中国大模型厂商逼迫 Deepseek等开源使成本近乎为零 美国企业与高校已采用国产模型 [6][7] - 英伟达推出Spectrum-XGS以太网技术 支持跨区域扩展AI数据中心 解决高延迟与性能不可预测问题 [9] 企业运营与合规 - 美团回应"退款未到账"问题 成立专项团队修复信息滞后 部分退款失败订单将退回美团余额 [4] - 中兴通讯公告股票交易异常波动 声明生产经营正常且无未公开重大信息 [5] - OPPO回应苹果起诉前员工窃密 否认侵犯商业秘密并将配合法律程序 [8] 资本运作与投资 - 景旺电子拟投资50亿元建设珠海金湾扩产项目 聚焦AI算力/汽车智驾等领域 税后回收期约7.5年 [10] - 舜宇光学拟通过股权置换持有歌尔光学33.33%股权 已签署谅解备忘录 [11] - Databricks进行超10亿美元K轮融资 估值超1000亿美元 较八个月前增长超60% 资金用于AI战略与全球扩张 [12] - 开普云拟现金收购南宁泰克70%股权 新增存储产品业务 [13]
AI太火爆了 千亿美元独角兽又添一员!
证券时报· 2025-08-25 00:44
核心观点 - 全球AI独角兽企业估值持续攀升,Databricks、xAI和Anthropic等公司估值突破或即将突破千亿美元,反映AI行业资本高度活跃 [1][2][5] 融资与估值动态 - Databricks正在进行超10亿美元K轮融资,估值将超1000亿美元,较八个月前620亿美元估值增长超60% [1][2] - xAI与X合并后估值突破1100亿美元 [1][2] - Anthropic正洽谈新融资,估值或从615亿美元飙升至1700亿美元 [1][2] - 2024年全球AI初创公司融资规模达1100亿美元,2025年迄今OpenAI等企业筹资规模已超去年 [5][6] - 2024年第二季度AI初创公司融资总额500亿美元,占同期风险投资总额1015亿美元近一半 [6] 公司业务与运营 - Databricks为大数据处理平台,提出"数据湖仓"概念,整合数据存储、查询、分析及生成式AI功能 [3] - 公司客户数量超15000家,服务对象包括Block、壳牌及60%以上《财富》500强企业 [3] - 年化收入预计达37亿美元,同比增速50%,员工约9000人,年内计划新增3000人 [4] - 通过并购强化技术能力,包括13亿美元收购MosaicML、1亿美元收购Arcion、20亿美元收购Tabular及收购Neon [4] 行业趋势与资本环境 - 2024年初以来全球AI初创公司累计融资1220亿美元 [5] - OpenAI首席执行官认为当前AI投资热潮存在非理性成分,部分初创公司估值"疯狂",但AI仍是长期重要技术方向 [6] - 麻省理工学院报告显示95%生成式AI项目未带来财务回报,仅5%成功商业化,企业实际部署率仅40% [7]
Databricks融资十亿美金,跻身全球千亿独角兽行列!
搜狐财经· 2025-08-20 17:45
Databricks融资动态 - 公司正在推进超过10亿美元的K轮融资,估值预计跃升至1000亿美元以上 [1] - 去年年末完成100亿美元融资时估值为620亿美元,估值增长显著 [1] - 融资将用于加速人工智能战略推进和全球业务扩张 [3] 公司业务与市场地位 - 专注于大数据处理领域,提供数据整合、分析及应用服务 [3] - 提出"数据湖仓"(Lakehouse)概念,整合数据存储、查询与分析全流程 [3] - 近期引入可视化工具和生成式AI功能,巩固行业领先地位 [3] - 业务模式可视为"数据库+量化投研+AI实验室"综合平台 [4] - 与SpaceX、OpenAI、字节跳动等成为全球顶级"独角兽"企业 [3] 财务与运营表现 - 截至今年7月年化收入达37亿美元,同比增长50% [5] - 主要竞争对手Snowflake预计财年收入45亿美元,增长率25% [5] - 目前拥有约9000名员工,计划今年再招聘3000人 [5] 行业趋势与高管观点 - 全球私募股权市场活跃,美股IPO市场繁荣 [1] - 人工智能领域市场热度高,xAI与X合并后估值达1100亿美元 [3] - 投资者对未上市科技公司晚期融资表现出前所未有的热情 [5] - 公司CEO表示有底气推迟IPO,目标成为万亿美元级别公司 [5]
Databricks融资超10亿美金,全球未上市千亿独角兽再添一员?
搜狐财经· 2025-08-20 13:14
融资与估值 - 正在进行超过10亿美元的K轮融资 各方已签署投资条款清单 [1] - 融资后估值预计超过1000亿美元 较去年底620亿美元估值增长61% [1] - 估值水平将与马斯克旗下xAI与X合并后1100亿美元估值相当 [3] 业务与技术 - 专注于大数据处理与人工智能 提出"数据湖仓"(Lakehouse)概念整合数据存储 查询与分析流程 [3] - 平台提供可视化工具和生成式AI功能 具备数据库 量化投研和AI实验室复合功能 [3][4] - 帮助企业整合分散数据资源 利用机器学习与AI技术进行分析应用 [3] 财务与运营 - 年化收入达37亿美元 同比增长50% [5] - 主要竞争对手Snowflake预计财年收入45亿美元 增长率25% 市值642亿美元 [5] - 当前员工约9000人 计划年内新增3000名员工 [5] 行业地位与战略 - 跻身全球顶尖未上市独角兽行列 与SpaceX OpenAI及字节跳动等超3000亿美元估值企业并列 [3] - 新增资金将用于加速人工智能战略和全球业务扩张 [3] - 首席执行官表示融资将推迟IPO计划 并认为公司有潜力成为万亿美元级企业 [5]
全球第5家千亿独角兽公司即将诞生
36氪· 2025-08-20 11:32
融资与估值 - Databricks正在进行超过10亿美元的K轮融资 对应估值超过1000亿美元 [1] - 公司上一轮融资于2023年底完成 规模100亿美元 估值620亿美元 [1] - 本轮融资由现有股东参与 包括a16z、Insight Partners和Thrive Capital [6] 业务与定位 - 公司专注于大数据处理平台 帮助企业整合分散数据并利用机器学习与AI进行分析 [4] - 提出"数据湖仓"(Lakehouse)概念 整合数据存储、查询与分析流程 近期新增可视化工具与生成式AI功能 [6] - 平台能力相当于"数据库+量化投研+AI实验室"组合 可处理非结构化数据并支持AI模型训练 [6] 财务与运营 - 年化收入预计达37亿美元 同比增长50% [6] - 主要竞争对手Snowflake预计本财年收入45亿美元 增长率25% 当前市值642亿美元 [6] - 公司员工总数约9000人 计划今年新增3000名员工 [6] 行业地位 - 估值突破1000亿美元后进入全球顶级独角兽俱乐部 与SpaceX、OpenAI和字节跳动并列 [3] - SpaceX、OpenAI和字节跳动估值均超3000亿美元 [3] - 马斯克的xAI与X平台合并后估值达1100亿美元 正洽谈最高2000亿美元融资 [3] 市场环境 - Figma上市首日暴涨250% 市值超550亿美元 显示二级市场对科技股热情回升 [7] - 经过调整后Figma市值仍达338亿美元 为IPO估值两倍以上 [7] - 投资者因Figma和Palantir股价表现积极追捧未上市科技公司晚期融资 [8] 战略规划 - 新融资将用于加速AI战略和推动全球增长 [3] - 融资使公司能推迟IPO计划 尽管华尔街对AI领域兴趣浓厚 [8] - 首席执行官认为公司有潜力成为万亿美元级企业 但强调仍需大量工作 [8]
全球第5家千亿独角兽公司即将诞生
财联社· 2025-08-20 11:09
融资与估值 - Databricks正在进行超过10亿美元的K轮融资 对应估值超过1000亿美元 [1] - 公司上一轮融资于去年底完成 规模100亿美元 估值620亿美元 [1] - 本轮融资由现有股东参与 包括a16z、Insight Partners和Thrive Capital [7] - 千亿美元估值使公司跻身全球顶级未上市独角兽行列 与SpaceX、OpenAI、字节跳动(估值均超3000亿美元)及xAI(合并估值1100亿美元)同属顶级阵营 [3] 业务与技术 - 公司专注于大数据处理平台 帮助企业整合分散数据并利用机器学习与AI进行分析应用 [4] - 提出"数据湖仓"(Lakehouse)概念 打通数据存储、查询、分析全流程 并引入可视化工具与生成式AI功能 [7] - 平台能力涵盖原始数据存储(如股票资讯、社交媒体舆情)、报表生成、投研分析及AI模型训练 [7] 财务与运营 - 年化收入预计达37亿美元(截至今年7月) 同比增长50% [7] - 主要竞争对手Snowflake预计本财年收入45亿美元 增长率25% 当前市值642亿美元 [7] - 公司员工总数约9000人 计划今年新增3000个岗位 [7] 行业与市场动态 - Figma上市首日暴涨250% 市值超550亿美元(当前调整至338亿美元 仍为IPO估值两倍以上) [9] - Palantir股价显著上涨 激发投资者对未上市科技公司晚期融资的认购热情 [10] - 二级市场科技股炒作热度回升 推动私募市场融资需求 [8][9][10] 战略规划 - 新增资金将用于加速人工智能战略并推动全球业务增长 [3]