JAVA基礎(chǔ):Java系統(tǒng)運行時性能和可用性監(jiān)控

字號：小 中 大

簡介：
    當(dāng)今的許多 Java 應(yīng)用程序都依賴于一組復(fù)雜的分布式依賴關(guān)系和移動部件。很多外部因素都可能對應(yīng)用程序的性能和可用性造成影響。這些影響基本上都無法完全消除或解決，且難以在預(yù)生成環(huán)境中準(zhǔn)確模擬。Stuff happens。但是，您可以創(chuàng)建并維護一個全面的系統(tǒng)來監(jiān)控應(yīng)用程序的整個生態(tài)系統(tǒng)，從而顯著降低這些事件的嚴(yán)重性和持續(xù)時間。
    本系列文章給出了實現(xiàn)此類系統(tǒng)的一些模式和技巧。模式，以及我將使用的一些術(shù)語，都表示泛指。通過結(jié)合示例代碼和插圖，它們將幫助您理解應(yīng)用程序性能監(jiān)控的概念。這種理解強調(diào)解決方案的必要性，并能幫助您選擇商業(yè)或開源的解決方案。您可以擴展和定制一個解決方案，或者根據(jù)需要將其作為設(shè)計解決方案的藍圖。
    第 1 部分：
    探究應(yīng)用程序性能管理（APM）系統(tǒng)的屬性
    描述系統(tǒng)監(jiān)控的常見反面模式
    列舉監(jiān)控 JVM 性能的方法
    提供有效插裝應(yīng)用程序源代碼的方法
    第 2 部分將重點介紹插裝 Java 類及資源而無需修改原始源代碼的方法。第 3 部分將論述監(jiān)控 JVM 外部資源的方法，包括主機及其操作系統(tǒng)以及數(shù)據(jù)庫和消息傳遞系統(tǒng)等遠程服務(wù)。它還將總結(jié)并歸納其他的 APM 問題，如數(shù)據(jù)管理、數(shù)據(jù)虛擬化、報告和報警。
    APM 系統(tǒng)：模式和反面模式
    為讓大家正確入門，應(yīng)當(dāng)強調(diào)，雖然此處介紹的多數(shù)與 Java 相關(guān)的內(nèi)容看上去與應(yīng)用程序和代碼性能分析的流程類似，但其實并非如此。性能分析是一個極具價值的生產(chǎn)前流程，它可以確認您的 Java 代碼是否可擴展、高效、快速和足夠出色。但是，根據(jù) stuff happens 公理，當(dāng)您在生產(chǎn)中遇到無法說明的問題時，優(yōu)秀的開發(fā)階段代碼性能分析可能無用武之地。
    我的意思是，在生產(chǎn)中實現(xiàn)性能分析的一些方面，并從運行中的應(yīng)用程序收集一些相同的實時數(shù)據(jù)及其所有外部依賴關(guān)系。該數(shù)據(jù)由一系列遍及目標(biāo)的定量測量指標(biāo)組成，它們?yōu)檎麄€系統(tǒng)的健康狀況提供細粒度和詳細的表示。此外，通過保留這些指標(biāo)的歷史庫，您可以捕獲準(zhǔn)確的基線，以幫助您確認環(huán)境仍然健康，或查明特定缺陷的根源和規(guī)模。
    監(jiān)控反面模式
    完全沒有監(jiān)控資源的應(yīng)用程序微乎其微，但仍然需要考慮這些反面模式，它們經(jīng)常出現(xiàn)在運行環(huán)境中：
    盲點：某些系統(tǒng)依賴關(guān)系未受監(jiān)控，或者監(jiān)控數(shù)據(jù)不可訪問。運行中的數(shù)據(jù)庫可以覆蓋所有監(jiān)控范圍，但如果受支持的網(wǎng)絡(luò)無法全面覆蓋，則診斷小組在分析數(shù)據(jù)庫性能和應(yīng)用服務(wù)器癥狀時將無法看到網(wǎng)絡(luò)中的故障。
    黑盒：核心應(yīng)用程序或者它的某個依賴關(guān)系對于其內(nèi)部可能不具有監(jiān)控透明性。JVM 是一個不折不扣的黑盒。舉例來說，診斷小組正在調(diào)查 JVM 中的莫名延時問題，并且只擁有支持操作系統(tǒng)的統(tǒng)計數(shù)據(jù)（如 CPU 利用率和進程需要的內(nèi)存大小），則他們可能無法診斷垃圾收集或線程同步問題。
    脫節(jié)和斷開的監(jiān)控系統(tǒng)：應(yīng)用程序可以由大型共享數(shù)據(jù)中心托管，其中，依賴關(guān)系由一系列共享資源組成，比如說數(shù)據(jù)庫、存儲區(qū)網(wǎng)絡(luò)（SAN）庫、消息傳遞及中間件服務(wù)。組織有時高度孤立，各小組只負責(zé)管理自己的監(jiān)控和 APM 系統(tǒng)沒有各依賴關(guān)系的整合視圖，各組件所有者只能管中窺豹，只見一斑。
    圖 1 對比了孤立和整合的 APM 系統(tǒng)：
    圖 1. 孤立和整合 APM 系統(tǒng)的對比

事后報告和相關(guān)性：為嘗試解決孤立監(jiān)控的問題，運營支持小組可以運行定期進程獲取各來源的數(shù)據(jù)，將這些數(shù)據(jù)整合到一個地方，然后再生成匯總報表。這種方法有時效率低下且不切實際，因為它需要按照指定頻率嚴(yán)格執(zhí)行，而缺乏實時數(shù)據(jù)也會對診斷小組當(dāng)場發(fā)現(xiàn)問題的能力產(chǎn)生負面影響。此外，事后聚合有時缺乏足夠的粒度，從而導(dǎo)致重要模式隱藏在數(shù)據(jù)中不被發(fā)覺。舉例來說，某個報告可能顯示某特定服務(wù)調(diào)用昨天平均耗時 200 毫秒，但卻隱藏了它在下午 1:00 到 1:45 間平均耗時 3500 毫秒。
    定期或隨需應(yīng)變的監(jiān)控：由于某些工具強制占用較高的資源開銷，因此不能（或不應(yīng)）經(jīng)常使用它們。結(jié)果，它們很少收集數(shù)據(jù)，或者只在檢測到問題后才收集數(shù)據(jù)。因此，APM 系統(tǒng)只能執(zhí)行最低基線，而無法在問題惡化前提前報警，并且可能會自己加劇勢態(tài)的嚴(yán)重性。
    非持久化監(jiān)控：許多工具都提供了有用的性能和可用性指標(biāo)實時顯示功能，但它們并不支持持久化指標(biāo)供長期或短期比較和分析的功能。常見的一種情況是，如果缺少歷下文，則性能指標(biāo)將毫無價值，因為沒有判斷指標(biāo)優(yōu)劣的基準(zhǔn)。舉例來說，當(dāng)前的 CPU 利用率是 45%。如果不知道歷史利用率的情況，則不好判斷當(dāng)前 CPU 利用率負荷的輕重程度。但是，如果知道歷史的典型值為百分之 x，可接受的用戶性能上限是百分之 y，則情況就大有改觀了。
    對生產(chǎn)前模型的依賴：假設(shè)所有潛在問題都可在生產(chǎn)部署之前從環(huán)境中清除，則完全依賴生產(chǎn)前監(jiān)控和系統(tǒng)模型的實踐經(jīng)常會導(dǎo)致運行時監(jiān)控不夠全面。這些假設(shè)無法解決不可預(yù)測事件和依賴性故障，因此，診斷小組在遇到此類事件時將沒有工具和數(shù)據(jù)可用。
    整合 APM 的實現(xiàn)并不排除監(jiān)控和診斷工具，如 DBA 管理工具集、低級網(wǎng)絡(luò)分析應(yīng)用程序和數(shù)據(jù)中心管理解決方案。這些工具仍然是無價的資源，但如果它們依賴于整合視圖的專有性，則難以克服孤立效果的影響。

JAVA基礎(chǔ):Java系統(tǒng)運行時性能和可用性監(jiān)控

字號： 小 中 大

字號：小中大