服务稳定性2

时间过去了10天,公司服务稳定性改进工作有了哪些推进?Till Now,在“服务稳定性”问题上,我们完成了两个工作:

  1. 故障紧急监控和处理的预案。这个预案经过了1次故障的检验,还比较有效。
  2. 完成故障紧急监控数据采集方案。确定了数据采集的项目,并进行了一次演习。也让相关技术人员熟悉了这些数据的意义,下次再出故障料可准确定位故障原因。

“治标”的工作差不多了,开始“治本”,昨天组织了一次后续质量改进的工作思路讨论。大体形成了如下思路:

  1. 必须按业务拆分
  2. 在数据库、应用服务器、分发服务器三个层面中,拆分的优先顺序是:数据库 –>应用服务器 –> 分发服务器
  3. 服务器采购
  4. 服务稳定工作列入各部门Q3重要工作内容
  5. 指标化:将服务可用性、性能指标化 ==> 落实指标的检查方法 ==> 落实指标日报 ==> 建日报处理和定期总结机制。
  6. 忘记了。。。(昨天开完会一直没空写既要,本子落单位了,所以细节忘记了)

其实都是很基本的问题,早应该随着业务发展不断重构的,甚至应该从一开始就做到的事情,拖到现在来做。亡羊补牢。

Related posts

Leave a Reply

Your email address will not be published. Required fields are marked *

*

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>