但不可否认,运维是极其重要的岗位。如果要搞一场限时干掉网站的竞赛,运维工程师们肯定当仁不让地勇拔头筹——机房门卡、远程电源、root口令等等都在运维掌握之中,随便祭起一招半式,便可在谈笑间令网站灰飞烟灭。也正因其重要,运维工程师就不得不小心谨慎,如临深渊,如履薄冰,不能有太多自由发挥的余地,不得有一丝一毫的差池。
在运维层面如何保证网站稳定,除了倚靠个人的小心谨慎之外,建立适当的工序流程是必不可少的。如果没有标准化的文档机制,没有多级操作工序,没有流程控制,任何一个人都能独立完成某项生产环境的变更操作,那么即便操作当时没有出问题,日积月累,今后难免会导致巨大隐患。
首先,要建立标准化的文档机制。人与人之间是有差异的,对于同一个问题或者需求,不同的人会有不同的解决方式,如果没有标准化的文档机制,每个人都自逞想象,任意施为,那么同样的问题有五花八门的解法,就给未来的排障工作埋下了地雷。另一方面,如果不建立以标准化文档为核心的运维模式,独立操作者可以任意撰写操作文档,无人据其执行操作,也无人负责审核、修订、更新,那么长此以往,所谓的“文档”,无异于一堆废纸。
其次,必须防止独立进行生产环境的变更。虽然这样看上去很有效率,很节约成本,但是有效率地解决问题的同时,也很可能有效率地制造故障。运维的权限实在太大了,要么不出问题,一出问题肯定就是大问题。所以,防火防盗防运维,必须得像防范政府一样,建立三权分立的体制来防止运维工程师单枪匹马地独立闯祸。理想的运维组织架构至少应该包含三个部分:
制单组 -> 督审组 -> 操作组
其中,制单组由资深工程师组成,负责接受需求、制作工单。督审组由专家以上级别更资深的工程师组成,负责审核工单、分配任务、监督执行。操作组由普通工程师组成,接受督审组分配的任务,完全依照审核通过的工单所述步骤操作,并将结果汇报给督审组。
制单组须依据现有标准文档制作工单,若发现当前标准文档无法满足新需求、解决新问题,则要求督审组提供标准解决方案。督审组负责维护标准文档,若发现制单组所制作的工单并非依循现有标准,则退回重做;若发现旧问题的新解法,则对原有标准文档进行修订;若发现新问题,则将新问题的解决方案标准化,增补文档。操作组负责执行督审组审批通过的工单,若发现任何一步执行出错,或者与工单所述状况不同,则请示督审组,在其指导下按工单所述回滚方案执行回滚。
郎咸平 老师认为,所谓高新技术企业,无不是依循“持续积累、持续改进”这样的运作模式逐步发展起来的。积累和改进的基础就是文档与工序流程。只有把“鱼香肉丝”的制作过程,分割为二十道环环相扣的工序流程,反复实验,“持续积累、持续改进”,即便不如某位特级大厨做的那么好吃,只要达到 80% 的水平,全球一样难吃,就能像 KFC 那样开全球中餐连锁,不怕大厨跑了。而如果没有文档机制,没有工序流程,任何一个人离职,都有可能造成一场不小的灾难。
立足现实,着眼长远,因地制宜建立必要的工序流程,才能为将来的发展奠定坚实的基础。反之,生搬硬套叠床架屋的所谓“最佳实践”,虽然不失为一种制度改进的方法,但天朝与番邦风土各异,终究难免“淮橘为枳”的梦魇。
(《科幻:中国高新技术企业发展战略评判》,郎咸平 等编著,东方出版社,2006年1月)



6 评论:
hutuworm 的文采比我好至少 64 倍,好文 :)
@Fenng 过奖过奖。今天读了一本书,有感而发,请指正! :)
制单组 -> 督审组 -> 操作组
个人人为下面的顺序更好
制单组 -> 操作组 -> 督审组
操作出现错误,或者没有按照制单组的工单操作时,需要有督审组进行检查。原来的顺序对督审组要求很高,而且吧制单组的责任转嫁给了督审组,这样不恰当。因为保证工单的有效和正确是制单组的职责,而不是督审组的职责。
@sbilly 不妨再仔细想想。
制单组 -> 操作组 -> 督审组
这种方式问题大了,运维层面都是要首先保证稳定性和安全性是第一位的,操作出问题了,再要督审根本就没有用处了。
不过根据我的经历来看,督审组的最大作用应该是在确认出了问题如何回到起始状态,也许名称改改更好一些。
文中说到运维人员没有什么技术含量,呵呵,个人觉得是纯技术人员的看法吧。术业有专攻,是没有可比性的。
中餐的问题是,即使操作流程是标准的,每个操作对厨师能力也是有要求的.
这就好比体操.
告诉你李小双的自由体操全套动作是由什么动作组成的 -- 实际上不用'告诉',谁都可以看得到 -- 哪怕精确到每一次空翻前助跑了多少步,每一步步幅有多大,也丝毫不能让一个连前空翻都做不好的人完成李小双80%(甚至10%)的动作...
发表评论