python 读写文件包含多种编码格式的解决方式

 更新时间:2019年12月20日 15:41:00   作者:hm11290219  
今天小编就为大家分享一篇python 读写文件包含多种编码格式的解决方式,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

今天写一个脚本文件,需要将多个文件中的内容汇总到一个txt文件中,由于多个文件有三种不同的编码方式,读写出现错误,先将解决方法记录如下:

# -*- coding: utf-8 -*-
import wave
import pylab as pl
import numpy as np
import pandas as pd
import os
import time
import datetime
import arrow
import chardet
import sys 
reload(sys) 
sys.setdefaultencoding('utf8') 
os.chdir("F:/new_srt")


#get words of srt file
###########################################
def get_word():
 path = "F:/new_srt"
 filelist = os.listdir(path)
 for files in filelist:
  print files
  encoding = chardet.detect(open(files,'r').read())['encoding']
  if encoding == 'utf-8':
   data=pd.read_csv(files,encoding="utf-8",sep='\r',header=None)
  elif encoding == 'GB2312':
   try:
    data=pd.read_csv(files,encoding="gbk",sep='\r',header=None)
   except UnicodeDecodeError:
    data=pd.read_csv(files,encoding="utf-8",sep='\r',header=None)
  elif encoding == 'UTF-8-SIG':
   data=pd.read_csv(files,encoding="UTF-8-SIG",sep='\r',header=None)
  else:
   print 'this is an error about %s' % files 

  data_new=pd.DataFrame(np.reshape(data.values, (-1,3)))
  data_new.columns=['index','timecut','content']
  filename = os.path.splitext(files)[0]  #filetype = os.path.splitext(files)[1]
  with open('F:/result.txt', 'a') as file:
   file.write(str(filename)+' ' )
   for item in data_new['content']:
    file.write(item.decode("utf-8") +' ') #s=s.decode("utf-8") 
   file.write('\n')


if __name__ == '__main__':
 get_word()

以上这篇python 读写文件包含多种编码格式的解决方式就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • Python实现抢购IPhone手机

    Python实现抢购IPhone手机

    这篇文章主要为大家详细介绍了Python实现抢购IPhone手机,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-02-02
  • Python实现投影法分割图像示例(二)

    Python实现投影法分割图像示例(二)

    今天小编就为大家分享一篇Python实现投影法分割图像示例(二),具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-01-01
  • Python连接Mssql基础教程之Python库pymssql

    Python连接Mssql基础教程之Python库pymssql

    这篇文章主要给大家介绍了关于Python连接Mssql基础教程之Python库pymssql的相关资料,文中分别介绍了连接数据库、游标使用注意事项、游标返回行为字典变量、使用with语句(上下文管理器)以及调用存储过程等的实现,需要的朋友可以参考下
    2018-09-09
  • TensorFlow实现Softmax回归模型

    TensorFlow实现Softmax回归模型

    这篇文章主要介绍了TensorFlow实现Softmax回归模型,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-03-03
  • Django自定义插件实现网站登录验证码功能

    Django自定义插件实现网站登录验证码功能

    这篇文章主要为大家详细介绍了Django自定义插件实现网站登录验证码功能,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2017-04-04
  • Python鼠标事件及坐标获取窗口和屏幕坐标

    Python鼠标事件及坐标获取窗口和屏幕坐标

    这篇文章主要介绍了Python编程中如何通过鼠标事件及坐标获取窗口坐标和屏幕坐标的示例解析,有需要的朋友可以借鉴参考下,希望能够有所帮助
    2021-10-10
  • python 实现文件的递归拷贝实现代码

    python 实现文件的递归拷贝实现代码

    今天翻电脑时突然发现有个存了很多照片和视频的文件夹,想起来是去年换手机(流行的小5)时拷出来的。看了几张照片,往事又一幕幕的浮现在脑海,好吧,我是个感性的人
    2012-08-08
  • python删除指定类型(或非指定)的文件实例详解

    python删除指定类型(或非指定)的文件实例详解

    这篇文章主要介绍了python删除指定类型(或非指定)的文件,以实例形式较为详细的分析了Python删除文件的相关技巧,需要的朋友可以参考下
    2015-07-07
  • Python实现自动识别并填加验证码的示例代码

    Python实现自动识别并填加验证码的示例代码

    实现自动识别网页中的验证码并填写,需要结合使用网络爬虫技术、图像识别(OCR),以及可能的浏览器自动化工具(如Selenium),本文给大家介绍了Python实现自动识别并填加验证码的示例,需要的朋友可以参考下
    2024-06-06
  • Python删除n行后的其他行方法

    Python删除n行后的其他行方法

    今天小编就为大家分享一篇Python删除n行后的其他行方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-01-01

最新评论