服务稳定性

进入五月以来,公司服务就接连出现稳定性问题,本来技术团队划归各业务线了,我人也从运营中心调到了产品中心,事情有专门的人解决,和我关系就不大了。但一个月来问题接连不断,按下葫芦浮起瓢,公司领导痛下决心要解决服务稳定性问题,这个问题涉及很多部门,于是我就被任命为这个居中协调的人了。

现在的情况是N条业务线共用分发服务器、数据库,还有一些业务共用应用服务器,甚至共用数据库连接池、NFS。交换机、网卡、apache、tomcat、程序代码都被当作怀疑的目标,而且每个环节的改动似乎都解决过问题。所以一团麻,很晕菜。

现在的思路是:短期加强监控做好应急预案,然后做出系统结构的调整,使得系统可控、稳定性得到加强。

凭直觉,在系统结构调整上有下面思路和原则:

  • 按业务拆分:分发、应用、数据库、文件存储这几个方面看看如何拆分最佳。
  • 划分系统运维和技术开发的界限和接口:减少系统运维管理的范围,增加开发团队管理的范围,使得出问题的时候能快速定位是网络、硬件、数据库还是程序的问题。
  • 技术平台一致性:现在前端分发、app服务器、数据访问层都有很多技术不一致。但我估计现在去统一技术平台已经不现实了,只能借鉴一些混合编程的思路让多个技术平台和谐共处。
  • 招牛人,办牛事:这忘记是当年哪个人告诉我的了,给我印象很深,而且越来越觉得有道理。

PS:上面的文字是前几天写的,目前系统的状况是:将前端分发服务器从DELL切换到IBM服务器上就好了,至少应付过了月初访问量最大的几天。接下来做系统结构的调整吧。

Related posts

3 thoughts on “服务稳定性

  1. 招牛人,办牛事
    support! 牛人还是不够多,有些操作全凭感觉,出了问题再去换另一种做法,换来换去最后也不知道真正的问题是什么了~上次我遇到服务器连接数过多的问题时,和系统部一起找原因,就是这个感觉。

  2. Pingback: 服务稳定性2 - 李新阳(Reggie Lee)的博客

Leave a Reply

Your email address will not be published. Required fields are marked *

*

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>