智能运维(AI-Ops)
通过AI技术来改善运维团队的工作方式
AI的两个含义
使用现代人工智能在实现IT运维自动化
最早的叫法
AlgorithmicIT
使用自动化和规则来执行IT运维
AI-Ops并不是一个全新的理念,而是IT运营分析和管理(ITOA/ITOM)体系与大数据和人工智能技术结合的产物。AI-Ops智能运维以ITOA/ITOM系统所采集的运维大数据为基础,利用人工智能和机器学习算法对运维数据进行深入分析,涵盖IT监控,应用性能管理、外网监控、日志分析,系统安全等方面。
根据艾瑞咨询、Gartner等机构的数据显示,中国企业IT运维已是千亿级市场,2016年为5231.8亿元的市场规模,并且以16%的复合年均增长率高速增长,预计到2020年,将达到9463.9亿元的市场规模。
在企业IT运维的发展过程中,存在着IT运维难度大幅提高,成本急剧上升的现状,相关调查显示,90%使用混合云的企业,81%使用多云的企业均遇到以上问题。在部署上,系统部署慢,项目启动晚;在迁移时,系统复杂,云迁移难;在运维中,管理工具多,统一难,使得IT运维效率较低。而人员的流动性高,运维经验缺乏;业务开展中,系统的不稳定性,拓展受阻;以及运维不当,信息安全隐患多等问题,造成了成本的居高不下。
在这样的发展背景下,高效率、低成本的AIOps无疑将是企业IT运维刚需所在。据Gartner等报告宣称,到2020年,近50%的企业将在他们的业务和IT运维方面采用AIOps,远高于2017年的5%。
当系统越来越多,越来越复杂
最终导致警报、故障排除、管理更困难
故障诊断和修复工作
需要花费数个小时、数天甚至数周
这么多问题该如何解决?
几秒钟就能搞定工作难题该如何实现?
AI-Ops孕育而生
✨
提供了哪些技术亮点?
带来了哪些价值?
解决了哪些技术问题?
关键技术
01
人工智能(AI)——使用深度学习神经网络等人工智能技术来充分理解不同系统之间发生时间的方式和原因。使用专家规则系统和推理引擎作为自动化故障排除和自动修复的一部分。
02
机器学习(ML)——使用先进的数学技术分析、预测、警报和建模各种系统,服务器、服务、日志、警报等等。
03
大数据(BD)——一切都基于大数据,数十万个数据点位于500,000个不同的指标(每个服务器和服务数百个数据点)上。
关键价值
1.加分项:告警
更多、更快的警报,减少重复、错误警报
2.加分项:登录
更好地分析,更方便地发现与解决问题
3.加分项:系统性能
优化系统性,解决效率不高的服务
4.减分项:排查时间
更多系统自动修复与更快的备份
5.减分项:更少的人员
更少的人员与资源成本
6.减分项:成本控制
自动化减少人员工作量
解决问题
异常检测
高级警报以更快的速度查找实际问题
事件管理
将警报组合成事件,删除重复虚假数据
登录分析
更强大的自动化运维、排查支持
专业排查
更快的问题解决
深度分析
运营机器学习,人工智能,数据指标、模型,进行深度学习
自动修复
基于人工智能,自动修复问题
动态建模
基于机器学习,更好地理解关系及超载失败
关系分析
基于机器学习,更好地理解关系及超载失败
整理/夏立成上海蓝盟创始人,IT外包服务专家,复旦校友创新创业俱乐部副会长,专注创业、运动和公益。