如何正確認(rèn)識IT系統(tǒng)的可靠性

字號:

如何正確認(rèn)識IT系統(tǒng)的可靠性
     我們在服務(wù)器可靠性方面經(jīng)歷得太多了。我們總是在努力保障服務(wù)器、路由器和switch的正常運轉(zhuǎn),而用戶卻總在抱怨系統(tǒng)的可靠性太差。一旦系統(tǒng)出現(xiàn)故障,用戶們就會把幫助席位的電話打爆了。而且每系統(tǒng)出現(xiàn)故障,他們都會責(zé)備系統(tǒng)維護(hù)人員。等到高級管理人員終來到的時候,由于他們也同樣經(jīng)受了系統(tǒng)故障帶來的痛苦,他們會站在用戶一邊。當(dāng)這些問題如潮 水一樣涌來,問題出現(xiàn)了:究竟什么是可靠性?誰來測量它?當(dāng)我為一個客戶提供支持流程改進(jìn)服務(wù)的時候,我學(xué)到了很多東西。
     我的客戶是一家中型(大約有3000或者左右的節(jié)點)公司,它在20個州和4個國家有辦事機(jī)構(gòu)。它邀請我作在的公司幫助他們解決反復(fù)出現(xiàn)、困擾著他們的“可靠性”問題。他們期望我們能到他們的環(huán)境中去,并為他們的問題提供特別的技術(shù)和服務(wù)方案。我們公司派了一個比較小的團(tuán)隊進(jìn)行這一個項目,我是其中的一個低級別成員。
     經(jīng)過兩個星期的評估,我們發(fā)現(xiàn)了一些非常顯見的問題。服務(wù)器維護(hù)人員把MS Exchange和MS SQL Server安裝在衛(wèi)星辦公室的同一個磁盤陣列。網(wǎng)絡(luò)小組在對路由器做規(guī)劃的時候非常奇怪地忽略了國外的辦公室。有三個用戶總是飛來飛去,他們總是處在安全域之外;他們帳戶故障的頻率比其他用戶高出兩個量級。我們建議采用磁盤陣列來解決由雙任務(wù)服務(wù)器所引起的磁盤連接問題,避免在歐洲辦公室的工作時間安排關(guān)機(jī),培訓(xùn)那些問題多的用戶??蛻舴浅8屑の覀儯才帕肆鶄€月的試用來驗證這樣做的效果。
     我們滿懷期望,希望可靠性的問題解決了。從技術(shù)角度說,確實如此??墒怯脩舻腎T部門的人員卻不太情愿采用我們的建議方案。設(shè)備正常運行的時間顯示我們的方法還是達(dá)到了預(yù)期的效果。服務(wù)器不再按照一定的周期出故障。通往歐洲的連接始終狀態(tài)良好。帳號故障率下降了80%
     不幸的是,用戶仍然周期性地抱怨網(wǎng)絡(luò)穩(wěn)定性。從技術(shù)角度穩(wěn)定性的提高并沒有轉(zhuǎn)換成用戶滿意度的提高,為什么?
    測量可靠性:我們在測量什么?
     IT人員還在自鳴得意的時候,我們就開始嘗試去找出這個問題的答案。一位工程師被指派負(fù)責(zé)這一工作,他是我初幾年工作的導(dǎo)師,他發(fā)現(xiàn)了一些不同尋常的事。我們打了很多電話,有時候還裝扮成潛在用戶來觀察系統(tǒng)是如何跟蹤數(shù)據(jù)流的。
     經(jīng)過兩個星期的工作,我們有如下發(fā)現(xiàn):
     用戶覺得只有他們不能完成工作時,他們的問題才受到重視。因此,當(dāng)他們希望能夠立刻得到重視,他們就會宣稱當(dāng)時遇到的問題妨礙他們完成工作。所有被標(biāo)志著“妨礙工作”的問題都會被當(dāng)作是可靠性的問題。
     IT小組的成員則認(rèn)為任何沒有造成系統(tǒng)重啟的錯誤都不能夠算做一個失敗,因為他們的獎金是按照是否能夠建設(shè)一個零故障的環(huán)境來計算的。一臺不需要重啟以重新提供服務(wù)的服務(wù)器永遠(yuǎn)“沒有故障”,雖然它不能為客戶提供服務(wù)。
     用戶通常分不清楚什么是網(wǎng)絡(luò)故障,服務(wù)器故障,服務(wù)故障或者是安全防范措施。他們把任何問題都看作是系統(tǒng)故障。這就讓終端用戶不能夠很好地進(jìn)行系統(tǒng)穩(wěn)定性跟蹤,盡管高級管理層們可能相信他們能夠擔(dān)負(fù)這一任務(wù)。
    執(zhí)行者認(rèn)為經(jīng)過這些基礎(chǔ)分析,我們完成了我們的工作。可是我的導(dǎo)師不這樣認(rèn)為。他準(zhǔn)備了一份報告,上面論述了該公司因為測試如下三種完全不同的事情,并試圖把它們放在一起對照比較,所以自己造成了無窮無盡的問題:
     用戶感覺可靠性,這包括服務(wù)訪問能力、培訓(xùn)、可用性、企業(yè)文化、不同項目產(chǎn)生的行政輻射,本地和集中支持產(chǎn)生的人的沖突。
     對于設(shè)備正常運行時間的技術(shù)考核沒有考慮到它的可用性??己讼到y(tǒng)正常運行時間是很好的第一步,但并不是考核可靠性的首要而全部的指標(biāo)。
     管理信息系統(tǒng)認(rèn)為所有的報告者都對于基本信息有同等的了解。這就造成了模糊的數(shù)據(jù)。這些數(shù)據(jù)會引導(dǎo)管理人員做出錯誤的決定,比如采用技術(shù)的方案來解決流程或溝通的問題。
     為了解決這些問題,避免重復(fù)的電話,我們的小組建議IT人員和管理人員在他們初的數(shù)據(jù)分析上采取更多積極的行動。為了擺脫對通用報告的依賴,我們設(shè)計了四種基本的調(diào)查工具,這樣客戶就可以對用戶進(jìn)行調(diào)查,對遇見的問題按照實際種類進(jìn)行分類。
     后一個調(diào)查工具為企業(yè)IT部門贏得未來的勝利提供了有力的幫助。通過迫使企業(yè)內(nèi)部員工和管理團(tuán)隊把故障時間和用戶問題報告相關(guān)聯(lián),他們發(fā)現(xiàn)了很多潛在的問題。更重要的是,它迫使企業(yè)開始了解用戶的需求,而不僅僅是選擇一個技術(shù)方案,并把它強(qiáng)加給用戶。