Python垃圾回收及Linux Fork

 更新时间:2022年01月26日 11:05:24   作者:令狐葱dennis  
这篇文章主要介绍了Python垃圾回收及Linux Forkm,Python垃圾回收主要以引用计数为主,分代回收为辅,而一个进程调用fork()函数后,系统先给新的进程分配资源,例如存储数据和代码的空间,下面来看文章具体介绍吧

前言:

在口袋助理看到了其他部门的同事针对Python2内存占用做的一点优化工作,自己比较感兴趣,遂记录下。

1.Linux fork简介

fork是Linux提供的创建子进程的系统调用。为了优化创建进程速度,Linux内核使用了Copy-on-Write的方式去创建进程,所谓Copy-on-Write是指执行fork之后,
内核并不立即给子进程分配物理内存空间,而是让子进程的虚内存映射到父进程的物理内存。仅仅当子进程向地址空间中执行写入操作时,才给它分配一段物理内存。
通过这种方式既优化了进程创建的时间,又减少了子进程的内存占用。

1.Copy-On-Write策略增加Python多进程内存占用的原因

Python GC采用引用技术的方式去管理对每个对象的引用,每一个被GC跟踪的对象会由一个PyGC_Head的结构体去表示。如下所示,其中gc_refs就是每个对象的引用计数值,
当我们在子进程中读取父进程创建的对象的时候,就会导致子进程的虚地址空间中的gc_refs加1,从而触发了内核的缺页中断,这是内核就会给子进程创建新的物理内存。
仅仅是简单的读取操作就会导致新的内存空间产生。

/* GC information is stored BEFORE the object structure. */
typedef union _gc_head 
{
    struct {
        union _gc_head *gc_next;
        union _gc_head *gc_prev;
        Py_ssize_t gc_refs;
    } gc;
    long double dummy; /* force worst-case alignment */
} PyGC_Head;

3.解决办法

python3的解决方法:

针对这个问题,Python3.7增加了三组API(有instagram团体提交的)[1]。

freeze用于将GC追踪的所有对象都移动到永生代(permanent generation),之后垃圾回收会忽略这些被设置为永生代的对象。

实际使用中,我们可以在父进程中执行freeze函数,然后子进程中使用和父进程共享的对象,这样对象的引用技术就不会增加,从而避免了COW的发生。

python2的解决方法:

  • (1) 针对Python2,我们可以简单的把Python3的相关函数移植过来
  • (2) 使用multiprocessing.Array去共享数据。Array会从共享内存中取一段取存储数据,并不会增加引用技术值,从而触发COW。

实现方面,Array使用Posix共享内存 + mmap去实现。[3]

#!/usr/bin/env python
# coding=utf-8
from multiprocessing import Array
import os
import sys

def foo():
    shared_cache = Array('i', range(0, 100), lock=False)
    pid = os.fork()
    if pid > 0:
        print("parent:", sys.getrefcount(shared_cache)) 
    elif pid == 0:
        print("child:", sys.getrefcount(shared_cache))


foo()

到此这篇关于Python垃圾回收及Linux Fork的文章就介绍到这了,更多相关Python垃圾回收及Linux Fork内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

参考:

1.https://instagram-engineering.com/copy-on-write-friendly-python-garbage-collection-ad6ed5233ddf
2.https://llvllatrix.wordpress.com/2016/02/19/python-vs-copy-on-write/
3.https://github.com/python/cpython/blob/main/Lib/multiprocessing/shared_memory.py

相关文章

  • 解析PyCharm集成GitLab代码仓的问题

    解析PyCharm集成GitLab代码仓的问题

    这篇文章主要介绍了PyCharm集成GitLab代码仓的相关知识,本文通过图文并茂的形式给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2022-09-09
  • python3 循环读取excel文件并写入json操作

    python3 循环读取excel文件并写入json操作

    这篇文章主要介绍了python3 循环读取excel文件并写入json操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-07-07
  • python实现指定字符串补全空格、前面填充0的方法

    python实现指定字符串补全空格、前面填充0的方法

    这篇文章主要介绍了python实现指定字符串补全空格、前面填充0的方法 ,非常不错,具有一定的参考借鉴价值,需要的朋友可以参考下
    2018-11-11
  • python 实现提取log文件中的关键句子,并进行统计分析

    python 实现提取log文件中的关键句子,并进行统计分析

    今天小编就为大家分享一篇python 实现提取log文件中的关键句子,并进行统计分析,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-12-12
  • Python实现的用户登录系统功能示例

    Python实现的用户登录系统功能示例

    这篇文章主要介绍了Python实现的用户登录系统功能,涉及Python流程控制及字符串判断等相关操作技巧,需要的朋友可以参考下
    2018-02-02
  • Python 使用 environs 库定义环境变量的方法

    Python 使用 environs 库定义环境变量的方法

    这篇文章主要介绍了Python 使用 environs 库来更好地定义环境变量,本节我们以 Python 项目为例,说说环境变量的设置。通过实例代码给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下
    2020-02-02
  • Python 作图实现坐标轴截断(打断)的效果

    Python 作图实现坐标轴截断(打断)的效果

    这篇文章主要介绍了Python 作图实现坐标轴截断(打断)的效果,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-04-04
  • pytorch 数据处理:定义自己的数据集合实例

    pytorch 数据处理:定义自己的数据集合实例

    今天小编就为大家分享一篇pytorch 数据处理:定义自己的数据集合实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-12-12
  • Python面向对象之多态原理与用法案例分析

    Python面向对象之多态原理与用法案例分析

    这篇文章主要介绍了Python面向对象之多态原理与用法,结合具体案例形式分析了Python多态的具体功能、原理、使用方法与操作注意事项,需要的朋友可以参考下
    2019-12-12
  • python yield迭代器详解

    python yield迭代器详解

    带有yield的函数在Python中被称之为generator(生成器),也就是说,当你调用这个函数的时候,函数内部的代码并不立即执行 ,这个函数只是返回一个生成器
    2022-11-11

最新评论