基于python的Linux系统指定进程性能监控思路详解

更新时间：2019年09月12日 10:06:50 作者：leeyoshinari

这篇文章主要介绍了基于python的Linux系统指定进程性能监控的思路详解，本文给大家介绍的非常详细，具有一定的参考借鉴价值,需要的朋友可以参考下

监控Linux服务器的工具、组件和程序网上有很多，但是一台服务器上会有很多进程同时运行，特别是做性能测试的时候，可能一台服务器上部署多个服务，如果只监控整个服务器的CPU和内存，当某个服务出现性能问题时，并不能有效准确的定位出（当然通过其他工具也可以实现），因此，很有必要只监控指定的进程。需求明确了，于是动手撸了一个性能监控脚本。

一、整体思路

1、为了方便的启动监控和停止监控，在想查看监控结果的时候随时查看监控结果，用flask开启了一个服务，通过发送get请求可以随时启停监控和查看监控结果。
2、针对控制是否监控cpu、内存、IO，开启多线程监控。
3、为了减少对其他组件的依赖，将监控结果写到日志中。
4、为了方便查看监控结果，直接将结果以html方式返回。

在这里插入图片描述

二、配置文件

config.py

IP = '127.0.0.1'
PORT = '5555'
LEVEL = 'INFO' # log level
BACKUP_COUNT = 9 # log backup counter
LOG_PATH = 'logs' # log path
INTERVAL = 1 # interval, run command interval.
SLEEPTIME = 3 # interval, when stopping monitor, polling to start monitor when satisfying condition.
ERROR_TIMES = 5 # times, number of running command. When equal, automatically stopped monitor.
IS_JVM_ALERT = True # Whether to alert when the frequency of Full GC is too high.
IS_MONITOR_SYSTEM = True # Whether to monitor system's CPU and Memory.
IS_MEM_ALERT = True # Whether to alert when memory is too low. Alert by sending email.
MIN_MEM = 2  # Minxium memory, uint: G
# 0: don't clear cache, 1: clear page caches, 2: clear dentries and inodes caches, 3: include 1 and 2;
# echo 1 >/proc/sys/vm/drop_caches
ECHO = 0
SMTP_SERVER = 'smtp.sina.com' # SMTP server
SENDER_NAME = '张三'  # sender name
SENDER_EMAIL = 'zhangsan@qq.com' # sender's email
PASSWORD = 'UjBWYVJFZE9RbFpIV1QwOVBUMDlQUT09' # email password, base64 encode.
RECEIVER_NAME = 'baidu_all' # receiver name
RECEIVER_EMAIL = ['zhangsan@qq.com', 'zhangsi@qq.com'] # receiver's email
DISK = 'device1' # Which disk your application runs
START_TIME = 'startTime.txt' # Store the time of start monitoring.
FGC_TIMES = 'FullGC.txt' # Store the time of every FullGC time.
# html
HTML = '<html><body>{}</body><html>'
ERROR = '<p style="color:red">{}</p>'
HEADER = '<div id="header"><h2 align="center">Performance Monitor (pid={})</h2></div>'
ANALYSIS = '<div id="container" style="width:730px; margin:0 auto">{}</div>'

IP和PORT：开启服务的服务器IP和端口，必须和所监控的服务在同一台服务器上；
BACKUP_COUNT：默认为9，即只保留最近9天监控结果；
INTERVAL：两次监控的时间间隔，默认为1s，主要用于cpu和内存监控，当同时监控多个端口或进程时，请将该值设小一点；
ERROR_TIMES：命令执行失败次数，当大于该次数时，则会自动停止监控；主要用于监控指定的进程，如果进程被杀掉，则必须自动停止监控，且必须手动触发再次开始监控；如果监控指定的端口，当端口的进程被杀掉后，也会停止监控，如果端口被重新启动，则自动开始监控；
IS_JVM_ALERT：仅针对java应用，如果频繁FullGC，则邮件提醒；一般性能测试，FullGC的频率不得小于3600秒；
IS_MONITOR_SYSTEM ：是否监控系统总CPU使用率和剩余内存；
IS_MEM_ALERT：当系统剩余内存过低时，是否邮件提醒；
MIN_MEM：允许系统最小剩余内存，单位为G；
ECHO：当系统剩余内存过低时，是否释放缓存；0为不释放，1为释放页面缓存，2为释放dentries和inodes缓存，3为释放1和2；
DISK：磁盘号，如果监控IO，需要输入磁盘号，通过df -h 文件名查看当前文件挂在哪个磁盘下；
START_TIME：记录每次手动触发开始监控的时间；
FGC_TIMES：记录每次FullGC的时间，用于排查问题；

三、接口和服务

server.py

server = Flask(__name__)
permon = PerMon()
# 开启多线程
t = [threading.Thread(target=permon.write_cpu_mem, args=()),
 threading.Thread(target=permon.write_io, args=())]
for i in range(len(t)):
 t[i].start()
# 开始监控
# http://127.0.0.1:5555/runMonitor?isRun=1&type=pid&num=23121&totalTime=3600
@server.route('/runMonitor', methods=['get'])
def runMonitor():......
# 画监控结果图
# http://127.0.0.1:5555/plotMonitor?type=pid&num=23121
@server.route('/plotMonitor', methods=['get'])
def plotMonitor():.......
server.run(port=cfg.PORT, debug=True, host=cfg.IP) # 开启服务

通过在浏览器地址栏输入对应的url，即可启停监控和查看监控结果

url传参：

1、开始监控

http://127.0.0.1:5555/runMonitor?isRun=1&type=pid&num=23121&totalTime=3600
isRun：1为开始监控，0为停止监控；
type和num：type=pid时，表明num为进程号，type=port，表明num为端口号；可以同时监控多个端口或进程，多个端口或进程用英文逗号隔开；
totalTime：为监控总时间，单位为秒；如果不传入totalTime，则默认一直监控；

2、查看监控结果

http://127.0.0.1:
5555/plotMonitor?type=port&num=23121&system=1&startTime=2019-08-03 08:08:08&duration=3600
type和num：type=pid时，表明num为进程号，type=port，表明num为端口号；
system：表示查看系统监控结果；如果传了type和num，不管sysytem是否传值，都只能看到进程的监控结果；不传type和num，只传system，则可以查看系统监控结果；
startTime：查看监控结果开始时间；
duration：查看监控结果的时长，单位为秒；
如果不传startTime和duration，则默认查看最近一次开始监控以来的所有结果；如果需要查看某一段时间内的监控结果，则需要传startTime和duration，查看监控结果的时间范围为从startTime开始到startTime+duration为止。
注：如果在查看监控结果输入的一段时间内，服务被重启过，则进程号会有变化，此时仍输入重启前的进程号，则只能查看对应进程号在对应时间段内的监控结果。一般情况下，端口号不会轻易变化，建议查看监控结果时输入端口号。

四、监控

performance_monitor.py

使用top命令监控CPU和内存，使用jstat命令监控JVM内存（仅java应用），使用iotop命令监控进程读写磁盘，使用iostat命令监控磁盘IO，使用netstat命令根据端口查进程，使用ps命令查看服务启动时长。因此，服务器必须支持以上命令，如不支持，请安装。

注：由于进程可以开启多个线程，在查看进程的IO时，是看不到任何IO；而查看进程开启的某个线程IO时，是可以看到IO的，但是线程是一直是在变化的；故目前暂不支持监控指定进程IO的。

五、查看监控结果

draw_performance.py

1、分别画CPU图、内存和JVM图、IO图和句柄数图；
2、为方便统计CPU和IO使用情况，计算百分位数；
3、为方便统计垃圾回收信息，计算java应用的ygc、fgc，以及各自的频率。

监控结果效果图如下：

在这里插入图片描述

六、扩展函数

extern.py 有两个功能

1、端口转进程

try:
 result = os.popen(f'netstat -nlp|grep {port} |tr -s " "').readlines()
 res = [line.strip() for line in result if str(port) in line]
 p = res[0].split(' ')
 pp = p[3].split(':')[-1]
 if str(port) == pp:
 pid = p[-1].split('/')[0]
except Exception as err:
 logger.logger.error(err)

2、查找包含监控结果的日志

整体思路：

        （1）根据输入的开始时间和结束时间，查找包含这段时间的所有日志文件；
        （2）根据查找出来的日志文件，找出包含监控结果的所有日志；
        （3）画图的时候遍历找出的所有日志。

补充

1、为了方便查看最近一次开始监控的时间，会将每一次开始监控的时间写到startTime.txt文件中；

2、为了方便排查java应用可能出现的问题，将每一次Full GC的时间写到FullGC.txt文件中。

项目地址：https://github.com/leeyoshinari/performance_monitor

总结

以上所述是小编给大家介绍的基于python的Linux系统指定进程性能监控,希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对脚本之家网站的支持！
如果你觉得本文对你有帮助，欢迎转载，烦请注明出处，谢谢！

您可能感兴趣的文章:

windows安装openssh并通过生成SSH密钥登录Linux服务器
本文为大家详细讲解了在windows系统下安装openssh并通过生成SSH密钥登录Linux服务器
2018-10-10
apache documentroot指向htcdoc之外提示403错误的解决方法
在windows和RH都碰到过，只要把主目录指到其他地方后就出现权限不够的403提示，郁闷了好久。
2010-04-04
Linux VPS及服务器更加安全之设置Putty SSH使用密钥登录
这篇文章主要介绍了Linux VPS及服务器更加安全之设置Putty SSH使用密钥登录,需要的朋友可以参考下
2016-10-10
linux查看匹配内容的前后几行方法
这篇文章给大家分享了linux查看匹配内容的前后几行的方法以及实例代码，有兴趣的朋友可以参考学习下。
2018-07-07
如何在Linux操作系统下安装Apache服务的方法实例详解
这篇文章主要介绍了如何在Linux操作系统下安装Apache服务的方法，本文通过实例图文相结合给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2020-07-07
详解CentOs设置静态IP的方法
这篇文章主要介绍了详解CentOs设置静态IP的方法，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2016-12-12
阿里云OSS访问权限配置(RAM权限控制)实现
这篇文章主要介绍了阿里云OSS访问权限配置(RAM权限控制)实现，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2020-08-08
linux下的yum命令原理和详解
本文主要介绍linux下的yum命令原理和详解，讲解的比较全面，需要的朋友可以参考一下。
2016-06-06
LuManager图文安装使用教程和创建MysqL快速建站基本教程
这篇文章主要介绍了LuManager图文安装使用教程和创建MysqL快速建站基本教程,需要的朋友可以参考下
2016-04-04
解决Linux未启用网卡的问题
本文详细介绍了解决Linux未启用网卡的问题，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2022-03-03