JAVA應用CPU跳點自動DUMP工具

2024年2月6日 19点热度 0人点赞

背景

在做系統監控時,CPU的使用率是一個關鍵的指標,它反映了系統的性能穩定性以及是否存在異常情況,能幫助我們了解系統的負載情況。通過監控CPU使用率,可以判斷系統是否正常運行或者是否存在性能問題。如果CPU使用率過高,可能表示系統存在資源瓶頸,需要進行優化或升級。

CPU監控的難點

現有的監控平臺提供了多種方式來獲取容器和JVM的CPU使用率,並能夠實時發送CPU跳點的報警。然而,對於運維人員來說,這些功能遠遠不夠,因為我們需要深入了解導致CPU高的原因。由於CPU是一個動態變化的指標,僅僅在收到報警後通過運維平臺的手動操作進行排查,很難抓住事故發生的現場情況。因此,我們需要一個能夠自動記錄現場的工具。

自動DUMP工具

對於Linux系統,我們可以通過設置一個周期的定時任務來檢測CPU使用率。如果我們發現CPU使用率高,我們可以獲取CPU使用率高的線程,並進一步處理JVM線程抓包的問題。

我們可以使用top命令來獲取進程的CPU使用率以及線程的CPU使用率。針對JAVA應用程序,我們可以使用Jstack來dump當前線程的堆棧信息。然後,我們可以解析這兩者的輸出,並通過線程號進行匹配,最終生成一個包含CPU使用率的線程堆棧清單。最後,我們可以將此清單持久化到一個文本文件中。

最終的輸出文件格式如下:

當前JAVA進程ID:205
當前JAVA進程ID(205)CPU使用率:99%
Top 10 CPU占用線程信息:
=======================================================
線程TID: 1511, THREAD_NID:5e7, CPU使用率: 77.2%
"Thread-31" #415 daemon prio=5 os_prio=0 tid=0x00007f00900cc800 nid=0x5e7 runnable [0x00007f01c5839000]
java.lang.Thread.State: RUNNABLE
at 
...
...
java.lang.reflect.Executable.sharedGetParameterAnnotations(Executable.java:553)
at  java.util.concurrent.CompletableFuture$AsyncRun.run(CompletableFuture.java:1626)
at java.lang.Thread.run(Thread.java:748)
=======================================================
線程TID: 208, THREAD_NID:d0, CPU使用率: 2.0%
"Gang worker#0 (Parallel GC Threads)" os_prio=0 tid=0x00007f037c02a000 nid=0xd0 runnable
=======================================================
線程TID: 209, THREAD_NID:d1, CPU使用率: 2.0%
"Gang worker#1 (Parallel GC Threads)" os_prio=0 tid=0x00007f037c02b800 nid=0xd1 runnable
=======================================================

具體實現步驟如下:

  1. 從環境變量中讀取CPU閾值和線程數閾值,腳本的兩個配置項,不同分組和不同環境可以設置不同的閾值。
  2. 獲取JAVA進程ID:使用pgrep命令獲取當前運行中的Java進程的PID,並將其保存到變量中。
  3. 獲取當前CPU使用率:使用top命令獲取當前CPU使用率,主要是獲取JAVA進程的CPU使用率。
  4. 檢查CPU使用率是否超過閾值:與預設的CPU閾值進行比較,如果超過閾值,則執行後續操作,否則結束。
  5. 查找JAVA進程內占用CPU最高的線程:使用top命令查找占用CPU最高的前十個線程,並獲取它們的相關信息。
  6. 捕捉JVM線程快照:使用jstack命令捕捉JVM線程快照,並將其保存到指定的日志文件中。
  7. 輸出線程信息:解析並匹配線程棧文件,將占用CPU最高的前十個線程的信息包括線程的PID和堆棧信息合並到同一行輸出。
  8. 日志記錄和保存:將相關的CPU使用率及線程快照信息記錄到日志文件中,方便後續分析和優化。

使用方式

在應用的啟動腳本(start.sh)中添加命令,在crontab中添加一個分鐘周期的定時任務

echo "* * * * * sh /export/App/bin/cpu-peak-dump.sh" | crontab -

註:如果需要更細周期粒度的監控,也可以通過while true加sleep來控制運行周期,如果使用更細粒度周期時需要註意腳本本身造成的CPU使用率。

總結

該腳本是一個用於CPU性能監控的實用工具,通過定時檢測並觸發線程快照的方式,方便我們快速發現CPU異常占用以及定位問題所在。通過設置合適的閾值和線程數,可以根據具體項目的需求來應用該腳本,並根據日志記錄的線程信息進行問題分析和優化。

註意:在使用該腳本時,需要根據具體環境配置相關的路徑和變量,並根據項目的需要進行相應的調整和優化。

希望本文對您理解和運用該腳本提供了一些幫助,如有疑問或需要進一步了解,請隨時聯系我。

附錄

完整的腳本文件cpu-peak-dump.sh

#!/bin/bash

# 由crontab觸發每分鐘執行一次,判斷CPU使用率大於閾值時觸發dump
# 使用方式:
# 把當前文件放到項目中與start.sh相同的目錄
# 修改start.sh 在腳本最後加一行,一般是這一行後邊 echo "$APP_NAME is up runnig :)"
# echo "* * * * * sh /export/App/bin/cpu-peak-dump.sh" | crontab -
# 可配置項:
# 觸發dump的cpu閾值。default 70
# STACK_DUMP_CPU_THRESHOLD=xxx
# 觸發dump時列舉的線程數(按使用率由高到低排列) default 10
# STACK_DUMP_THREAD_COUNT=xxx
# 配置方式,使用行雲分組的環境變量配置即可
# stack log 存放目錄 /export/Logs/
# stack log 文件名: jstack_snapshot_$(date  %Y%m%d%H%M%S).log
# 最後,記得配置相應的日志清理策略
# 設置CPU閾值,當CPU使用率達到該閾值時觸發線程快照
CPU_THRESHOLD="${STACK_DUMP_CPU_THRESHOLD:-70}"
THREAD_COUNT="${STACK_DUMP_THREAD_COUNT:-10}"
echo "Current CPU_THRESHOLD is $CPU_THRESHOLD"
JAVA_PID=$(pgrep -d, -x java)
echo "Current JAVA_PID is $JAVA_PID"
# 使用top命令獲取當前CPU使用率,並提取其中的CPU利用率百分比
CPU_USAGE=$(top -b -n 1 | grep -A10 "PID USER" | grep java | grep "$JAVA_PID" | awk '{print $9}' | cut -d'.' -f1)
echo "Current Java($JAVA_PID) CPU_USAGE :$CPU_USAGE"%
if [ -z "$JAVA_PID" ]; then
  echo "No Java process found."
  exit 1
fi
# 檢查CPU使用率是否超過閾值
if [[ $CPU_USAGE -gt $CPU_THRESHOLD ]]; then
  # 使用top命令查找占用CPU最高的前十個線程,並獲取它們的信息
  TOP_THREADS=$(top -H -b -n 1 -p "$JAVA_PID" | grep -A$THREAD_COUNT 'PID USER' | head -n $THREAD_COUNT | grep -v 'PID')
  # 使用jstack捕捉JVM線程快照
  # 請將下面的Java進程ID替換為你要監視的Java進程的實際進程ID
  JSTACK_OUTPUT=$(/export/servers/jdk1.8.0_191/bin/jstack "$JAVA_PID")
  JSTACK_OUTPUT_FILE="/export/Logs/jstack_snapshot_$(date  %Y%m%d%H%M%S).log"
  echo "當前JAVA進程ID($JAVA_PID)CPU使用率:$CPU_USAGE"% >>$JSTACK_OUTPUT_FILE
  # 獲取占用CPU最高的前十個線程的信息,包括線程的PID和堆棧信息,並將它們合並到同一行輸出
  echo "Top ${THREAD_COUNT} CPU占用線程信息:" >>$JSTACK_OUTPUT_FILE
  while read -r THREAD_INFO; do
    THREAD_TID=$(echo "$THREAD_INFO" | awk '{print $1}')
    THREAD_NID=$(printf "%x\n" $THREAD_TID)
    THREAD_STACK=$(echo "$JSTACK_OUTPUT" | sed -n "/nid=0x$THREAD_NID /,/^$/p")
    THREAD_CPU_USAGE=$(echo "$THREAD_INFO" | awk '{print $9}')
    echo "=======================================================" >>$JSTACK_OUTPUT_FILE
    echo "線程TID: $THREAD_TID, THREAD_NID:$THREAD_NID, CPU使用率: $THREAD_CPU_USAGE%" >>$JSTACK_OUTPUT_FILE
    echo "$THREAD_STACK" >>$JSTACK_OUTPUT_FILE
  done <<<"$TOP_THREADS"
  #  echo "====all stack as below:====" >>$JSTACK_OUTPUT_FILE
  #  echo "$JSTACK_OUTPUT" >>$JSTACK_OUTPUT_FILE
  echo "捕捉了JVM線程快照並保存到 $JSTACK_OUTPUT_FILE"
fi

作者:京東物流 張濤

來源:京東雲開發者社區 自猿其說 Tech 轉載請註明來源