线上问题排查技巧 - 969251639/study GitHub Wiki

1. 日志查看
监控日志文件输出:
tail -f 日志文件

监控日志文件输出(基于某个关键词):
tail -f 日志文件 | grep '关键词'

输出最后的行数的日志内容
tail -行数 日志文件

显示xxx.log文件里匹配???那行以及上下3行
cat xxx.log | grep -C 3 '???'
显示xxx.log文件里匹配???那行以及前3行
cat xxx.log | grep -B 3 '???'
显示xxx.log文件里匹配???那行以及后3行
cat xxx.log | grep -A 3 '???'

2. 查看CPU使用率
执行top -c ,显示进程运行信息列表
键入P (大写p),进程按照CPU使用率排序 键入M (大写m),进程按照内存使用率排序

top -Hp pid,显示一个进程的线程运行信息列表即某个java进程内所有tid的cpu,men的占用

printf "%x\n" xxx 可以将十进制xxx转成十六进制输出

jstack pid | grep '十六进制的线程号' -C5 --color 输出进程号为pid,且只显示grep后的关键字相关的前后五行的堆栈信息

3. 查看java内存
jps 用于列出所有java相关线程的pid等信息

jinfo pid 查看java进程的所有相关信息,特别是vm配置

jstat -gc|gcunit pid (时间) 查看gc内存占用情况,特别注意fullgc的次数和时间以及各个内存分布的占比是否合理

开启gc日志(发现gc异常时可以打开,比如gc突然大幅度变高) jinfo -flag +PrintGCDetails pid jinfo -flag +PrintGC pid

关闭gc日志 jinfo -flag -PrintGCDetails pid jinfo -flag -PrintGC pid

jstack pid > xxx.txt 导出当前的堆栈信息到xxx.txt文件

jmap -heap pid 可以查看进程号为pid的堆栈内存信息

jmap -histo:live pid | more 可以查看进程号为pid的存活对象的占用大小,并从大到小排序(注:该命令会导致fullgc,生产慎用)

jmap -dump:live,format=b,file=heap.bin pid 导出堆栈信息,并保存在heap.bin文件中,可以将此文件导入到eclipse MAT进行分析

ll /proc/${PID}/fd | wc -l 查看连接数 ll /proc/${PID}/task | wc -l (效果等同pstree -p | wc -l) 查看线程数也可以ps -o nlwp pid --查看进程里面有多少个线程数量

4. pidstat
pidstat是sysstat工具的一个命令,用于监控全部或指定进程的cpu、内存、线程、设备IO等系统资源的占用情况。pidstat首次运行时显示自系统启动开始的各项统计信息,之后运行pidstat将显示自上次运行该命令以后的统计信息。用户可以通过指定统计的次数和时间来获得所需的统计信息。

pidstat 的用法:

pidstat [ 选项 ] [ <时间间隔> ] [ <次数> ]

常用的参数: -u:默认的参数,显示各个进程的cpu使用统计
-r:显示各个进程的内存使用统计
-d:显示各个进程的IO使用情况
-p:指定进程号
-w:显示每个进程的上下文切换情况
-t:显示选择任务的线程的统计信息外的额外信息
-T { TASK | CHILD | ALL }
这个选项指定了pidstat监控的。TASK表示报告独立的task,CHILD关键字表示报告进程下所有线程统计信息。ALL表示报告独立的task和task下面的所有线程。
注意:task和子线程的全局的统计信息和pidstat选项无关。这些统计信息不会对应到当前的统计间隔,这些统计信息只有在子线程kill或者完成的时候才会被收集。
-V:版本号
-h:在一行上显示了所有活动,这样其他程序可以容易解析。
-I:在SMP环境,表示任务的CPU使用率/内核数量
-l:显示命令名和所有参数

示例一:查看所有进程的 CPU 使用情况( -u -p ALL)

pidstat
pidstat -u -p ALL

pidstat 和 pidstat -u -p ALL 是等效的。
pidstat 默认显示了所有进程的cpu使用率。

详细说明

  • PID:进程ID
  • %usr:进程在用户空间占用cpu的百分比
  • %system:进程在内核空间占用cpu的百分比
  • %guest:进程在虚拟机占用cpu的百分比
  • %CPU:进程占用cpu的百分比
  • CPU:处理进程的cpu编号
  • Command:当前进程对应的命令

示例二: cpu使用情况统计(-u)

pidstat -u

使用-u选项,pidstat将显示各活动进程的cpu使用统计,执行”pidstat -u”与单独执行”pidstat”的效果一样。

示例三: 内存使用情况统计(-r)

pidstat -r  

使用-r选项,pidstat将显示各活动进程的内存使用统计:

  • PID:进程标识符
  • Minflt/s:任务每秒发生的次要错误,不需要从磁盘中加载页
  • Majflt/s:任务每秒发生的主要错误,需要从磁盘中加载页
  • VSZ:虚拟地址大小,虚拟内存的使用KB
  • RSS:常驻集合大小,非交换区五里内存使用KB
  • Command:task命令名

示例四:显示各个进程的IO使用情况(-d)

pidstat -d

报告IO统计显示以下信息:

  • PID:进程id
  • kB_rd/s:每秒从磁盘读取的KB
  • kB_wr/s:每秒写入磁盘KB
  • kB_ccwr/s:任务取消的写入磁盘的KB。当任务截断脏的pagecache的时候会发生。
  • COMMAND:task的命令名

示例五:显示每个进程的上下文切换情况(-w)

pidstat -w -p 2831

  • PID:进程id
  • Cswch/s:每秒主动任务上下文切换数量
  • Nvcswch/s:每秒被动任务上下文切换数量
  • Command:命令名

示例六:显示选择任务的线程的统计信息外的额外信息 (-t)

pidstat -t -p 2831

  • TGID:主线程的表示
  • TID:线程id
  • %usr:进程在用户空间占用cpu的百分比
  • %system:进程在内核空间占用cpu的百分比
  • %guest:进程在虚拟机占用cpu的百分比
  • %CPU:进程占用cpu的百分比
  • CPU:处理进程的cpu编号
  • Command:当前进程对应的命令

示例七:pidstat -T

pidstat -T TASK
pidstat -T CHILD
pidstat -T ALL

TASK表示报告独立的task。
CHILD关键字表示报告进程下所有线程统计信息。
ALL表示报告独立的task和task下面的所有线程。

注意:task和子线程的全局的统计信息和pidstat选项无关。这些统计信息不会对应到当前的统计间隔,这些统计信息只有在子线程kill或者完成的时候才会被收集。

  • PID:进程id
  • Usr-ms:任务和子线程在用户级别使用的毫秒数。
  • System-ms:任务和子线程在系统级别使用的毫秒数。
  • Guest-ms:任务和子线程在虚拟机(running a virtual processor)使用的毫秒数。
  • Command:命令名
⚠️ **GitHub.com Fallback** ⚠️