【問(wèn)題描述】
某天早上(shàng),公司內(nèi)部好(h→✘δǎo)多(duō)辦公系統登錄失敗。郵件(jiàn)系統、流程管理(lφ×ǐ)、代碼管理(lǐ)等。但(dàn)是(shì)過了(le)大(dà)概一(®∑yī)個(gè)小(xiǎo)時(shí),基÷→本所有(yǒu)情況都(dōu)恢複正常。
【問(wèn)題确認】
業(yè)務系統的(de)狀況:沒有(yǒu)任何異常情況,• ≤₽一(yī)切訪問(wèn)正常。
數(shù)據中心基礎實施:連續好(hǎo)多×"σ(duō)系統報(bào)警,而且還(hái)有(yǒu)物÷≥✔σ(wù)理(lǐ)主機(jī)報(bào)警,問(wèn)β題一(yī)大(dà)堆。
【解決過程】
先來(lái)描述一(yī)下(xià)環境,基本9€ 0%以上(shàng)系統運行(xíng)在Vmware虛拟化(huà)平≠ ✔台之上(shàng),業(yè)務系統和(hé)內(nè"®÷i)部辦公管理(lǐ)系統完全隔離(lí)為(wèi)兩個(gè)不(bù)γ₹₩同的(de)集群環境。
辦公區(qū)為(wèi)8台宿主機(jī)組成的(de)®↓¥物(wù)理(lǐ)集群,集群共享一(yī)台存儲設備上(shà↑↑ng)的(de)存儲資源。
首先,我們再一(yī)次确認了(le)宿主機(j☆♦¶ī)的(de)情況,5台宿主機(jī)當前運行(xíng)∏©∏∏狀态正常,虛拟機(jī)也(yě)處于正常狀态。隻有(yǒu)一(≥≠yī)台宿主機(jī)處于失聯狀态。當把這(zhè)一(yī)♥β♥台宿主機(jī)再次重新啓動之後,它也(yě)恢複正常•>了(le)。
再次,查看(kàn)問(wèn)題發生(shēn≤β$g)時(shí)間(jiān)的(de)日(rì)志(zhì)→α,包括宿主機(jī)日(rì)志(zhì)。我們發現(xi™$±àn)有(yǒu)好(hǎo)多(duō)虛拟機(jī)發生(σshēng)了(le)HA切換,不(bù)僅僅是(shì)故障 ∑•ε主機(jī)上(shàng)的(de)虛拟機(jī),而且還(hái)包括其₹★他(tā)非故障主機(jī)上(shàng)的(de)虛拟機(jī)。再₩δ♣€仔細看(kàn),還(hái)有(yǒu)好(hǎ'₹o)多(duō)虛拟機(jī)發生(shēng)了(le)熱(rè)遷移,有(→σ♦yǒu)的(de)遷移失敗,有(yǒu)的(d↔σ™e)遷移成功。總之幾乎所有(yǒu)主機(jī)上(shàng)的(de₹←)虛拟機(jī)發生(shēng)過HA和(hé↓₹γ)熱(rè)遷移現(xiàn)象。
随後,我們再次确認宿主機(jī)硬件(jià€εn)日(rì)志(zhì),發現(xiàn)故障時(shí)刻點先後有(↑¶yǒu)三台宿主機(jī)發生(shēng)重新啓動。這(zhè)樣的(de)¶'話(huà),事(shì)情就(jiù)清楚了(le),幾台宿主機(jī)先∏₩∏後發生(shēng)重新啓動,觸發宿主機(jī)上(shàng)的(d∑€e)虛拟機(jī)發生(shēng)HA,在這(zhè)個(ε&πgè)過程中由于資源使用(yòng)的(δβde)瞬間(jiān)不(bù)均衡,又(yòu)觸發了(le)€∏DRS的(de)自(zì)動遷移。這(zhè'Ω♦☆)麽多(duō)事(shì)情發生(shēng)的(de)時(↕↔♥shí)間(jiān)又(yòu)是(shì)如(rú)此之集中,導緻φ<面積性的(de)故障發生(shēng)。
【問(wèn)題總結】
此次問(wèn)題之後,我們根據環境資源重新評估了(le)HA和(hé)DR•÷S等的(de)策略,将激進策略修改為(wèi)相(xiàng)對∑δ<(duì)保守的(de)策略。
本來(lái)虛拟化(huà)的(de)HA和(hé)DR≥®S策略是(shì)為(wèi)了(le)保障虛拟機(jī)的(de)₽π平衡和(hé)高(gāo)可(kě)用(yòng)性δ&✘的(de)機(jī)制(zhì),但(dàn)是(shì)在某種不(bùπ ↑•)合理(lǐ)策略策略和(hé)極端物(wùαβΩ¶)理(lǐ)故障場(chǎng)合下(xià®≤©)就(jiù)有(yǒu)可(kě)能(néng)導緻比正常故障範圍還(hái'<±§)要(yào)大(dà)很(hěn)多(duō)的(de)面積性故障。試想φ₽,如(rú)果DRS處于非激進狀态,那(nà)麽§♠在發生(shēng)HA的(de)時(shí)λλε候,即使資源不(bù)夠,那(nà)麽故障範圍僅限于很(hě✘₹≠n)小(xiǎo)一(yī)部分(fēn)虛拟機(jī),不( ∑ ☆bù)會(huì)發生(shēng)彼此影(yǐng)響,而且時(s↑π₽☆hí)間(jiān)集中化(huà)的(de)影(yǐng)響。尤其是(sγ☆ hì)Windows的(de)虛拟機(jī),成功熱(rè)遷移的(d✘×₽∏e)概率比Linux要(yào)低(dī)很(hěn)多(duō)。所以提醒∞α$γ大(dà)家(jiā)合理(lǐ)設置高(gāo)可(kě)用♣↕∞(yòng)策略。
在基于X86虛拟化(huà)架構實現(xiàn)的(×↓≠de)過程當中,相(xiàng)信每一(yī)個(gè)工(↓¥≥ gōng)程師(shī)在回憶的(de)時(shí)候都(dōu)"φ不(bù)會(huì)覺得(de)裡(lǐ)面有(yǒu)太複≠<雜(zá)太難以忘卻的(de)困難點,都(d€←ōu)覺得(de)是(shì)一(yī)個(gè)非常容易上(s₩'hàng)手的(de)項目。但(dàn)× 是(shì)是(shì)否能(néng)夠提供一(y₩εī)個(gè)穩固安全高(gāo)效的(de₩ε)虛拟化(huà)架構平台其實并不(bù)是(shì)一(yī)件(j₹γiàn)很(hěn)簡單的(de)事(shì)情。
上(shàng)述故障及其解決隻是(shì)其中一(★$yī)個(gè)案例。
網絡虛拟化(huà)設計(jì)、集群高(gāo)可(kě)用(yòng≤γ)設計(jì)、資源調度策略設計(jì)、存Ω<儲的(de)高(gāo)可(kě)用(yòng)高←←(gāo)性能(néng)設計(jì)、部署&£實現(xiàn)動态化(huà)及運維的(de)自(zì)動化(huà)≥≤×等等都(dōu)是(shì)需要(yào)精心考慮、細緻琢磨、頻(pín₹)繁優化(huà)才能(néng)使其成為(wèi)一(yī)個(gè)功能(Ωε✘™néng)擴展性強、功能(néng)穩定可(k ←>πě)靠、性能(néng)發揮持久化(huà)的(de)基礎平台。
為(wèi)此,社區(qū)在12月(y™♦¶uè)30日(rì)将基于虛拟化(huà)架構β當中的(de)高(gāo)可(kě)用(yòng)設計(j←£πì)方面進行(xíng)細緻深入探討(tǎo)。
拟從(cóng)以下(xià)幾個(gè¥)方面展開(kāi):
1 集群的(de)高(gāo)可(kě)用(yòng ₩♥×)性策略及參數(shù)選擇。
2 集群的(de)資源分(fēn)配策略制(zhì)定。
3 集群的(de)資源調度功能(néng)策略規劃。
4 在複雜(zá)應用(yòng)負載均衡策略條件(jiàn)下(xià)的(>£≤de)HA及DRS策略規劃細節。
5 存儲高(gāo)可(kě)用(yòng)實現(xσ© ✔iàn)的(de)方式以及優劣選擇。
希望有(yǒu)更多(duō)的(de)同業₽≥(yè)兄弟(dì),能(néng)夠基于這(zhè)些(xiē)方面以↕∏☆∞及相(xiàng)關的(de)擴展方面仔細回憶,把自(zì↕★)己珍貴的(de)經曆和(hé)總結分(fēn)享給大(dà)家(jiā)$β。
同時(shí)也(yě)希望在這(zhè)些(xiē)方面有(yǒu)♠± φ過疑問(wèn)以及現(xiàn)在仍然有(yǒ•u)很(hěn)多(duō)疑問(wèn)的( ↑de)的(de)兄弟(dì)提出自(zì)己的(de)問(wèn)題和(h♦×↑♥é)思考,我們一(yī)起討(tǎo)論一(yī>♦∏•)起分(fēn)析。使我們在這(zhè)條路(lù)上(shàng)多(± ≤£duō)些(xiē)朋(péng)友(yǒu)多(duō)些(xiē)見(ji★₩¥àn)解,共同成長(cháng)。
·····×₩↑₩;···&>"☆→middot;···&middo<t;
信息來(lái)源:AIX專家(jiā)俱樂(yuè)部
原文(wén)點擊:
高(gāo)可(kě)用(yòng)策略不(bù)合理(lǐ)導緻的(d<≤e)面積性故障