————————分割线————————
偶认为好的运维管理分为内外两个板块。对内,大家管理软件的打包、发布、恢复、备份这几个重要工作节点;对外,大家要保持服务器的稳定与出问题后的容灾方案。最后,要根据公司情况选择相应的管理工具,偶分享下大家公司的整体运维思路吧。(目前线上用户有20万左右,日活4万左右,相比算小公司,但是,思路可以借鉴)。
本来想写一些关于细节的东西,但是,这样会显得很片面,偶曾今有幸和谷歌瑞士的技术总监聊过关于运维管理的方法,他告诉偶说:“偶给你说两组数据,只要大家能根据自身业务状况满足即可”。
这两组数据分别是:
1.大家谷歌所有产品每年的发布量达到4000多万次,但运维工程师的工作量并不困难;
2.除了自然灾害和断网,大家的服务器永远不会崩。
顺便说下大家公司用到的工具:
代码管理工具GitLab、Jenkins、Rancher、zookeeper、kafka、钉钉(webhook通知),还有一些其他的工具就不一一介绍了。
希望能帮助你。