可观测性
搜索文档
Observe · Secure · AI丨观测云2025中国可观测日深圳站圆满收官
搜狐财经· 2025-12-17 11:44
12 月 10 日,观测云2025 可观测日·深圳站成功举办。来自云计算、AI、运维与工程领域的行业专家、企业技术负 责人齐聚深圳,在一个下午的深度交流中,共同探讨 AI 时代下,可观测性的进化方向与落地路径。 它不是一场"单向输出"的技术论坛,而是一场关于未来技术体系的集体对话。 01 开场致辞:观测云如何在 AI 时代走在前面 大会伊始,由观测云业务 VP 蔡文瑜带来开场致辞,系统回顾了观测云在 2025 年取得的关键进展,并阐述了观测 云面向 2026 的核心判断与发展方向。 过去三年里,观测云完成了 3 次大版本发布、100+ 次产品迭代,逐步搭建起一套完整、稳定、可持续演进的可观 测性平台;同时,累计沉淀了超过 45 万字的技术文档库,让每一位开发者都能用得明白。 目前,观测云已在全球部署 10+ 节点,服务 8 万+ 全球活跃用户账号,并获得 1000+ 付费商业用户的持续使用与 信任。 面向 2026,观测云将持续围绕更智能的分析能力、更工程化的落地方式,以及更开放的生态集成,推动可观测性 真正成为企业在 AI 时代应对复杂系统的底层支撑。在蔡文瑜看来,AI 正在重塑整个技术体系的运行方式。 A ...
对话一线架构大佬 Christian Ciceri:颠覆传统认知,顶尖架构师眼中,决定职业生涯上限的不是技术能力
36氪· 2025-11-12 07:48
软件架构师角色演变 - 软件架构师角色从传统系统设计、模块划分和技术决策转向技术能力、业务理解与数据驱动决策三位一体的转型期[1][2] - 云原生、微服务、大规模分布式系统和低代码/无代码平台普及导致软件系统复杂性呈指数级增长[1] - 架构师面临在快速迭代与持续交付环境中保持架构健康和团队效率的挑战[1] AI对软件架构的影响 - AI工具可实现自动化代码生成、智能测试和辅助设计,快速完成依赖图绘制和性能瓶颈分析等传统架构任务[1] - AI可辅助分析指标和提供改进方案,但无法取代人类在技术决策、系统理解与判断方面的作用[4][6] - 当前AI生成的架构建议定位为"助手"而非"伙伴",决策权仍需人类经验主导[4][7] 可度量与可演化架构理念 - 采用"可度量、可演化架构"理念,通过指标推动争议客观化,确保系统随业务需求同步成长[3][6] - 架构治理需对所有软件属性保持持续监控,而不仅是运行时质量属性[3][8] - 演化式软件架构中的适应度函数可实时监测架构健康状况,及早发现开发速度下降、缺陷增加等退化迹象[3][8] 架构可观测性实践 - 可观测性应融入系统设计,使架构质量实时可见和可验证[8] - 架构退化迹象包括开发速度变慢、缺陷增加、性能问题等逐步显现的症状[8] - 架构性错误应通过失败的架构单元测试被检测到[8] 架构指标应用与误区 - 指标应结合团队文化建设谨慎引入,建立在真实且公认的痛点上[9] - 测试代码覆盖率是最常被滥用的指标,无法有效反映测试策略质量[9] - 代码覆盖率极低时仍可作为有用信号,反映团队生产力不足或开发流程问题[9] 架构师能力与团队文化 - 优秀架构师需要分析能力、领导力、共情能力和好奇心,其中好奇心推动持续学习和创造性解决方案[10] - 架构是共享愿景,决策需整个团队共同参与,确保所有决策都是集体性的[10] - 建立可持续架构文化需架构师作为引导者提升团队水平,而不仅是设立架构部门[7] 行业资源推荐 - 领域驱动设计(DDD)著作具有参考价值,推荐《Balancing Coupling in Software Design》获得更深入软件设计洞见[10]
多维无界,观测有道|Bonree ONE 2025秋季版全球发布!
经济观察报· 2025-10-29 10:07
产品发布核心事件 - 博睿数据于2025年10月24日成功举办「多维无界 观测有道」Bonree ONE 2025秋季版全球发布会 [1] - 公司正式发布一体化智能可观测平台Bonree ONE 2025秋季版,旨在以更全面、更智能、更稳定的能力帮助企业驾驭复杂数字系统 [1] - 公司强调可观测性是企业掌控复杂系统的战略基石,并致力于在全球可观测性领域建立源自中国的世界级品牌 [1] AI深度融合 - 通过AI构建多维度智能模块协同框架,实现观测数据向自主运维决策与精准根因定位的转化 [3] - 小睿助理作为统一交互入口,结合AIGC与RAG知识库,提供智能问答、导航引导、AI帮写等功能 [3] - 智能问答功能基于1,035篇公共文档和21,954篇私域文档,实现实时推理和故障排查 [3] - 具备智能环境感知、智能导航及AI帮写功能,AI帮写可快速生成PromQL并支持一键回填 [3] - 实现自主决策型根因分析,通过大模型理解可观测数据,结合Agent、LLM与知识库输出排查建议 [4] 全面多维观测 - 以业务形态为核心组织IT运维数据,实现分层分类呈现,支持从宏观健康状态到细节问题的逐层下钻 [5] - 链路编排功能支持用户围绕核心业务定制关键路径视图,摆脱孤立指标,页面布局与图表完全自定义 [5] - 宏观概览将复杂分布式系统映射为清晰可视的核心业务链路,掌控系统整体健康状态 [5] - 焦点详情支持每个节点逐层下钻,整合日志、调用链、告警等多维信息,显著缩短故障排查时间 [5] 架构突破升级 - 核心ETL引擎Ingester经过重构,资源消耗降低65%,实现毫秒级数据接入 [6] - QueryService对PromQL兼容度大幅提升,增强查询便捷性与能力 [6] - AIService全面融入大模型技术,驱动监控与分析系统智能化 [6] - 全链路架构升级覆盖ETL、存储与AI服务三大核心环节,形成从数据处理到智能分析的技术闭环 [6] ETL架构升级详情 - 新一代ETL引擎以流批一体为核心,在处理能力、资源调度、算法支持、性能与稳定性五个维度增强 [8] - 新增滚动、滑动、会话及全局窗口支持,并提供"精准一次"处理语义保障 [8] - 支持任务级与算子级并行度灵活配置,内置200+算子并支持UDF [8] - 资源利用率提升65%,实时流数据处理延迟降至毫秒级,计算资源需求降至原方案的⅓ [8] - 构建50+监控指标与智能预警体系,引入自适应流量控制与熔断保护机制 [8] 存储体系升级详情 - QueryService对PromQL兼容度提升至99.44%,增强多协议交互稳定性 [9] - 通过动态索引、并行副本加速及列存储压缩技术,查询性能提升3倍,存储占用降低50% [9] - 借助分级存储与无锁并发机制,数据延迟从分钟级优化至秒级,整体入库与查询效率提升30% [9] AIService智能能力重构 - 上层构建四大智能模块:智能问答、下一代根因分析引擎、智能检索及智能总结 [10] - 底层通过OneFlow可编排平台与MCP服务平台,实现能力灵活调度与闭环服务支撑 [10] 行业客户实践 - 平台已赢得金融、互联网、能源、制造业等关键领域超百家头部客户认可 [11] - 国投证券引入该平台推进证券交易系统全链路可观测平台建设,构建从APP客户端到核心交易系统的完整观测体系 [11] - 通过关键标识实现每笔委托交易端到端打通,提升多场景协同效率,未来将在AIOps、FinOps等领域深化应用 [11] 行业圆桌对话 - 大会设立圆桌对话环节,汇聚金融、制造等领域技术领袖,探讨"AI + 可观测"的探索、实践和展望 [13] - 对话聚焦应用场景与价值、行业突破点及未来演进方向,基于真实案例拆解一线实践经验 [13] 公司战略与展望 - 发布会彰显了公司在可观测领域的创新成果及对智能运维趋势的洞察与布局 [14] - 公司将持续加大海外投入,重点深耕东南亚市场并推进全球业务布局,目标成为企业级服务领域全球顶级高科技公司 [16]
AI 时代可观测性的“智”变与“智”控 | 直播预告
AI前线· 2025-10-12 05:32
直播活动概述 - 直播主题为AI时代可观测性的"智"变与"智"控之道 [2] - 直播时间为10月15日20:00-21:30 [2] - 参与嘉宾来自阿里云、字节跳动、小红书三家公司的技术专家 [2][3] 核心讨论议题 - 头部企业共话AI时代可观测性的新边界 [3] - 探讨大模型落地的路线之争:智能治理与算法优先的权衡 [3][6] - 关注SRE Agent在降噪提效方面的效率革命 [6] - 目标是构建"观测-分析-行动"的通用智能闭环 [6] 技术实践与案例 - 新型归因平台可实现分钟级定位80%的线上故障 [6] - 平台为移动端故障止损提供了基础支撑 [6] - 分享eBPF技术在大规模常态化运行中的实践经验 [6] - 探索可观测指标归因的底层原理 [6]
AI低质代码泛滥、API经济盛行,老牌科技厂商 F5 如何应对大模型应用“后遗症”?
AI前线· 2025-09-10 13:01
AI编程工具在企业应用中的效率与挑战 - AI编程工具显著提升开发效率但带来新型挑战 首要挑战是安全性问题 AI生成代码可能包含新安全漏洞 [2] - "Vibe Coding"导致大量低质代码涌现 API数量激增使企业运维负担加重 [2] - "黑盒子"问题凸显 人类开发者难以理解AI生成代码的内在逻辑 使调试和漏洞排查变得复杂耗时 [2] 企业应用安全现状与WAAP采用 - 应用交付与安全防护环节成为性能制约因素 身份验证的便捷性与安全性需要平衡 [4] - WAAP成为AI默认保护标准 超过91%用户已应用WAAP保护AI/机器学习模型安全 [5] - 基于AI的应用交付成为最大红利 2025年利用大模型分析应用和API性能的比例达54% [7] AI在运维流程中的应用 - 57%运维人员使用AI生成脚本用于配置部署与调整 56%用AI生成自定义策略 55%用AI执行脚本实现全流程智能化 [7] - 可观测性成为AI驱动自动化关键支撑 65%受访者利用可观测性驱动自动化 Open Telemetry成为主流选择 [7] - 现代应用占比从2020年29%提升至2025年53% 传统应用从71%降至47% [7] 企业落地AI应用的三大难题 - 复杂IT架构 特殊安全需求与成本控制目标构成企业落地AI必须攻克的三大难题 [9] - AI基础设施投入巨大 仅8卡服务器成本就达百万级 支撑海量算力业务需要巨大前期投资 [12] - 到2028年80%企业将嵌入AI能力 其中94%AI应用部署在混合多云复杂架构环境中 [12] F5的ADSP平台转型与能力 - 从传统ADC进化为应用交付与安全平台(ADSP) 功能从WAF升级至WAAP 核心目标转向API保护 [11] - ADSP平台可无缝运行于本地数据中心高性能硬件 虚拟化与混合环境及云原生SaaS环境 实现跨环境一体化运维 [14] - 平台提供融合能力 既保证应用安全又保证应用交付快速 特别适合边缘AI控制延时性需求 [15] AI网关产品的技术创新 - AI网关具备基于抽象化和上下文的大语言模型路由能力 可将提示词精准匹配至合适的大模型 [16] - TBLB AI推理网关通过实时判断后台算力 将GPU算力调用率提升30-60% 某芯片制造厂推理服务成功率提升至少8% [16] - AI网关集成多个安全小模型 做智能调度 不断扩充大模型安全防护能力 应对新型攻击 [16] F5平台的全方位服务能力 - 为所有应用提供全面整合交付服务 包括负载均衡 DNS CDN 多云网络及API网关 [17] - WAAP平台与零信任 AI安全 网络防火墙深度协同 实现代理式安全运营 [17] - 解决方案具备前所未有的部署灵活性 可部署于本地数据中心 公有云 主权云 SaaS平台 边缘网络及AI工厂等环境 [17] 跨职能运维支持与AI助手 - 平台覆盖NetOps SecOps DevOps和平台运维 提供统一策略管理 深度安全分析 自动化与编排工具 [17] - 发布AI助手具备"解释 生成 优化"三大核心能力 可跨平台应用于全系列产品 [19]
券商信息系统稳定性保障迈入标准化阶段
证券日报· 2025-08-07 16:42
行业监管动态 - 中国证券业协会制定《证券行业信息系统稳定性保障体系标准》并向券商征求意见 旨在推动行业技术能力数智化、规范化与协同化发展 [1] - 监管层多次发文强调需强化金融机构信息系统稳定性保障能力 防范系统性风险并提升系统技术韧性 [1] 行业现状与挑战 - 证券交易系统(集中交易、手机证券、投资交易)若出现异常将直接影响投资者权益与市场秩序 [1] - 分布式架构和微服务技术应用导致系统架构复杂度指数级提升 传统被动运维模式难以适应业务需求 [1] - 行业存在四大痛点:架构韧性设计缺失导致运行期风险防控成本高 运行期风险感知缺乏主动挖掘能力 故障应急依赖个别专家经验 数智化技术应用深度不足 [2] 标准制定原则与框架 - 《标准》编制遵循合规、可控、闭环和数据四大原则 以《证券基金经营机构信息技术管理办法》为基础确保符合监管要求 [2] - 结合头部机构最佳实践提炼可复制技术方案与管理流程 预留弹性空间适应不同规模机构需求 [2] - 提出"三位一体"稳定性保障体系框架:组织保障(组织架构/人员能力/目标管理) 制度保障(全流程制度闭环) 过程保障(10大核心过程含架构管理/故障管理等) [3] 技术应用与评价体系 - 明确融合智能运维、可观测性等前沿技术 将AI算法、大数据分析、大模型嵌入稳定性管理流程 [3] - 建立可量化稳定性度量体系 包括故障监控发现率、自动化发布率、恢复能力达标率等指标 [4] - 通过常态化评估与复盘形成"监控-评估-优化"闭环改进机制 [4]
事关券商交易系统稳定性!中证协出手!
券商中国· 2025-08-07 09:17
行业信息系统稳定性保障 - 中证协正在就《证券行业信息系统稳定性保障体系标准(征求意见稿)》向行业征求意见,旨在推动证券公司加强网络与信息系统安全稳定运行保障体系和能力建设,提高资本市场系统稳定性水平 [1][2] - 文件编制工作在2023年底就已启动,旨在融合行业最佳实践,为行业提供可落地的稳定性保障框架,推动全行业技术能力的数智化、规范化与协同化发展 [2][4] 当前系统运行问题 - 证券市场交易连续性要求高,集中交易、手机证券、投资交易等交易系统若出现异常,将直接影响投资者权益与市场秩序 [3] - 随着云计算、分布式架构等技术的广泛应用,系统架构复杂度显著提升,传统运维模式已难以应对新型风险挑战 [3] - 稳定性保障未将架构韧性设计(如熔断限流、自动恢复)嵌入系统开发阶段,系统可运维性涉及的监控、日志、自动化等能力不足,导致运行期风险防控成本高 [3] - 运行期风险感知仍以"事后响应"为主,缺乏基于数据驱动的主动风险挖掘能力,故障应急以个别专家经验为主,应急效率有待提升 [3] - 数智化技术应用深度不足,智能监控、自动化处置等能力尚未全面覆盖核心场景,导致异常响应效率与业务实时性要求存在差距 [3] "三位一体"保障体系 - 《标准》提出了"三位一体"的稳定性保障体系框架,包括组织保障、制度保障和过程保障 [4][5] - 组织保障明确稳定性保障的组织架构、人员能力要求及目标管理(SLI/SLO量化指标、复盘优化) [4] - 制度保障涵盖办法规范、技术标准、操作规程及时序任务,形成全流程制度闭环 [4] - 过程保障聚焦稳定性架构管理、可观测管理、监控告警、故障管理等10大核心过程,每个过程包含机制保障、关键活动及评价要素 [5] 政策背景与行业实践 - 在数字化转型加速推进的背景下,证券行业信息系统的稳定性已成为保障金融市场安全运行的核心基础 [5] - 《金融科技发展规划(2022-2025年)》《证券期货业科技发展"十四五"规划》《证券公司网络和信息安全三年提升计划(2023-2025)》等政策文件均强调需强化金融机构信息系统的稳定性保障能力 [5] - 《标准》在编写过程中有接近20家同业专家参与编写,内容聚焦系统的稳定性保障核心价值,引导行业推动运维左移来提升架构韧性与可运维性非功能性需求 [5] - 建立可度量的稳定性评价要素,如"故障监控发现率""自动化发布率""恢复能力达标率"等量化指标,并通过常态化评估与复盘,形成"监控-评估-优化"的闭环改进机制 [5]
2025年行业发展研究报告:金融数字化转型中的可观测性实践与趋势洞察
搜狐财经· 2025-07-20 02:07
金融数字化转型与可观测性概述 - 全球数字化转型支出预计2027年达4万亿美元,2022-2027年复合增长率16.2%,中国金融行业IT支出2025年将达3359.36亿元 [8][12] - 金融数字化转型呈现技术融合深化、业务场景扩展、服务模式创新加速三大特征,可观测性市场爆发式增长 [12] - 头部金融机构核心业务系统全面上云,人工智能提升反欺诈准确率,区块链实现跨境支付实时结算 [13] 可观测性技术趋势 - 实时数据采集技术融合多元异构数据源,AI驱动智能根因定位与预测性分析 [20][25] - 分布式系统监控实现毫秒级交易异常识别,流式计算处理百万笔/秒交易数据流 [27] - 智能体协同监控框架通过LLM实现自主故障修复,知识中枢沉淀运维经验 [29] - OpenTelemetry成为多云监控统一标准,支撑跨职能协作 [31] 行业实践案例 银行业 - 全链路监控缩短故障定位时间80%,AI大模型生成故障处置预案 [34][36][39] - 业务黄金指标聚焦成功率、响应时间、吞吐量,KBOM工具提升问题识别准确率 [38] 证券业 - 交易系统响应时间控制在300ms以内,开户业务无纸化改造突破时空限制 [40][43] - 运营驾驶舱实时监控数百项指标,AI智能规则引擎自动化落地合规要求 [41] 保险业 - 数据可视化使核保效率提升35%,3D动态模拟与物联网缩短车险理赔周期 [34][47][48] - 客户旅程地图分析投保转化节点,精准营销策略提升用户留存率 [45][48] 技术支撑与挑战 - 中国云计算市场规模2021年8378亿元,2027年预计持续增长,为可观测性提供基础设施 [2] - 系统复杂化导致故障排查难度上升,需优化数据流转与监控精准度 [2][33]
Datadog:利用人工智能功能实现核心基础设施可能性
美股研究社· 2025-07-01 12:19
AI技术布局 - Datadog在DASH 2025活动上展示了面向基础设施监控平台的全新AI功能,包括AI工作负载的观察、分析、响应和自动化[1] - 公司与OpenAI、Anthropic和ServiceNow等主要AI提供商合作,提供全面的AI代理可观察性功能[1] - 平台新增GPU优化和故障排除功能,可实时监控AI集群的部署和性能[3] - 6月10日发布了AI代理,涵盖事件响应、产品开发和安全训练,可集成到核心平台实现工作流自动化[3] - 推出Code Security工具和Datadog LLM Observability,用于检测漏洞和监控AI模型完整性[3] 财务表现 - 2025财年第一季度收入增长24.6%,调整后营业利润增长1.2%[4] - 年经常性收入超过10万美元的客户持续增长,使用8种以上产品的客户比例上升至13%[5] - 收入增长率从2022年Q1的82.8%逐步放缓至2025年Q1的24.6%[6] - 非GAAP毛利率保持在80%以上,调整后营业利润率从2022年Q1的23.1%降至2025年Q1的21.9%[6] - 预计2025财年收入增长20%,调整后营业利润下降6.5%[7] 市场前景 - 云托管成本上涨和AI技术投资短期内对利润率造成压力[8] - 预计可观测性市场2024-2032年复合年增长率为10.5%[8] - 分析师预测公司年利润率将增长360个基点,主要来自产品附加率提升和运营杠杆[8] - 预计2025-2034年收入保持20%年增长,经营利润率从5.6%提升至38%[10] - 自由现金流预计从2025年的9.62亿美元增长至2034年的60.18亿美元,年增长率23.4%[10] 竞争分析 - ServiceNow拥有自己的服务可观测性平台,并在IT基础设施可观测性市场扩张[13] - ServiceNow的优势在于能从自有平台收集各种数据,且具有更强的创新能力[13] - Datadog通过DASH 2025明确传达了在核心平台中整合AI能力的战略[13] 估值分析 - 采用DCF模型计算,设定WACC为10.5%,终端增长率5%[11] - 公允价值计算为每股145美元[12]
没有RAG打底,一切都是PPT,RAG作者Douwe Kiela的10个关键教训
虎嗅· 2025-07-01 04:09
文章核心观点 - AI在理解上下文和隐性知识方面存在挑战,导致聊天生硬且准确率不足[1][6][11] - RAG技术应用面临工程难度大、专业化要求高、数据护城河构建等核心问题[15][20][26] - 企业AI项目需关注可观测性而非绝对准确率,建立闭环迭代机制[45][46][52] AI技术瓶颈 - 当前AI能覆盖80%场景但业务要求95%准确率[1] - 大模型擅长有限集任务(如围棋)但难以处理语料残缺的隐性知识[8][9][10] - 专家系统需解决医生诊断中的微表情解读、伦理判断等非结构化问题[11] RAG技术实践 - 工程复杂度远超模型:50个SOP需25-50万字提示词,数据工程占80%工作量[15][17][19] - 垂直领域专业化优于通用AI,如法律Harvey、医疗Open Evidence等案例[20][22] - 数据是核心壁垒:企业非结构化数据构建的飞轮系统形成差异化优势[26][28] 生产环境挑战 - 试点项目70分易实现,但生产需处理千万级文档和数万场景[29][30] - 快速迭代比追求完美更重要,初期barely functional即可[33][34][35] - 竞争焦点转向试错速度与资源,但需平衡成本与差异化[36][37][38] 可观测性方法论 - 审计追踪和归因机制比准确率更重要,需记录错误上下文[45][47][48] - 财务审核案例展示4类错误闭环处理:费用标准、发票合规等[51] - 五步方法论:锁定关键字段、显性化规则、双跑道架构等[52] 行业落地建议 - 优先将业务SOP全量导入Workflow,强化基础数据[56] - 建立审计链闭环,积累可观测数据再优化推理[56] - 盘活非结构化资产,通过数据飞轮拉开竞争差距[56][58]