python实现递归查找某个路径下所有文件中的中文字符

 更新时间:2019年08月31日 11:01:30   作者:weiguang1111  
这篇文章主要为大家详细介绍了python实现递归查找某个路径下所有文件中的中文字符,具有一定的参考价值,感兴趣的小伙伴们可以参考一下

本文实例为大家分享了python实现递归查找某个路径下所有文件中的中文字符,供大家参考,具体内容如下

# -*- coding: utf-8 -*-
# @ description:
# @ author: 
# @ created: 2018/7/21
 
import re
import sys
import os
 
reload(sys)
sys.setdefaultencoding("utf8")
 
 
def translate(str):
  out = set()
  line = str.strip().decode('utf-8', 'ignore') # 处理前进行相关的处理,包括转换成Unicode等
  p2 = re.compile(ur'[^\u4e00-\u9fa5]') # 中文的编码范围是:\u4e00到\u9fa5
  zh = " ".join(p2.split(line)).strip()
  # zh = "\n".join(zh.split()) #dsds经过相关处理后得到中文的文本
  for s in zh.split():
    out.add(s) # 经过相关处理后得到中文的文本
  return out
 
def extract_file(path):
  result = set()
  try:
    f = open(path) # 打开文件
    lines = f.readlines()
    for line in lines:
      string = translate(line)
      if string:
        result.update(string)
  except Exception as e:
    pass
  return result
 
 
def extract(path):
  result = set()
  files = os.listdir(path)
  for file in files:
    if not file.startswith("."):
      if not os.path.isdir(path + "/" + file): # 判断是否是文件夹,不是文件夹才打开ssgsg判断是否是文件夹,不是文件夹才打开
        sub_file = extract_file(path + "/" + file)
        if sub_file:
          result.update(sub_file)
      else:
        print file
        child = extract(path + "/" + file)
        if child:
          result.update(child)
  return result
 
 
if __name__ == '__main__':
  path = "/Users/common"
  result = extract(path)
  res_file = open("result.txt", "w")
  for s in result:
    res_file.write(s + "\n")

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

相关文章

  • 在Django中使用MQTT的方法

    在Django中使用MQTT的方法

    这篇文章主要介绍了在Django中使用MQTT的方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-05-05
  • Pandas中resample方法详解

    Pandas中resample方法详解

    这篇文章主要介绍了Pandas中resample方法详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-07-07
  • Python连接SQL server数据库并进行简单查询的操作详解

    Python连接SQL server数据库并进行简单查询的操作详解

    SQL Server是微软推出的重量级的数据库,本文将给大家详细介绍了一下Python连接SQL server数据库详细流程,并通过代码示例给大家讲解的非常清除,具有一定的参考价值,需要的朋友可以参考下
    2024-02-02
  • Python实现光速定位并提取两个文件的不同之处

    Python实现光速定位并提取两个文件的不同之处

    如果你经常与Excel或Word打交道,那么从两份表格/文档中找到不一样的元素是一件让人很头疼的工作。本文就将以两份真实的Excel/Word文件为例,讲解如何使用Python光速对比并提取文件中的不同之处
    2022-08-08
  • pandas中提取DataFrame某些列的一些方法

    pandas中提取DataFrame某些列的一些方法

    dataframe是pandas包的重要对象,熟练掌握dataframe的基本操作是很有必要的,下面这篇文章主要给大家介绍了关于pandas中提取DataFrame某些列的一些方法,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
    2022-06-06
  • Django框架反向解析操作详解

    Django框架反向解析操作详解

    这篇文章主要介绍了Django框架反向解析操作,结合实例形式详细分析了Django框架相关定义、原理、使用方法及操作注意事项,需要的朋友可以参考下
    2019-11-11
  • Django使用原生SQL查询数据库详解

    Django使用原生SQL查询数据库详解

    本文介绍了Django ORM的优缺点,然后介绍了使用原生SQL进行查询的优点,包括更灵活、更高效等。接着介绍了如何在Django中使用原生SQL进行查询,包括利用Django的connection对象进行查询以及使用Django的CursorWrapper类进行封装。最后提醒了使用原生SQL查询的注意事项。
    2023-04-04
  • Django 如何实现文件上传下载

    Django 如何实现文件上传下载

    这篇文章主要介绍了Django 如何实现文件上传下载,帮助大家更好的理解和学习使用Django框架,感兴趣的朋友可以了解下
    2021-04-04
  • pybind11和numpy进行交互的方法

    pybind11和numpy进行交互的方法

    这篇文章主要介绍了pybind11和numpy进行交互的方法,本文通过实例代码给大家介绍的非常详细,具有一定的参考借鉴价值 ,需要的朋友可以参考下
    2019-07-07
  • Linux RedHat下安装Python2.7开发环境

    Linux RedHat下安装Python2.7开发环境

    这篇文章主要为大家详细介绍了Linux RedHat下安装Python2.7、pip、ipython环境、eclipse和PyDev环境,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2017-05-05

最新评论