python 高效去重复 支持GB级别大文件的示例代码
更新时间:2018年11月08日 14:46:05 作者:夜班机器人
今天小编就为大家分享一篇python 高效去重复 支持GB级别大文件的示例代码,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
如下所示:
#coding=utf-8 import sys, re, os def getDictList(dict): regx = '''[\w\~`\!\@\#\$\%\^\&\*\(\)\_\-\+\=\[\]\{\}\:\;\,\.\/\<\>\?]+''' with open(dict) as f: data = f.read() return re.findall(regx, data) def rmdp(dictList): return list(set(dictList)) def fileSave(dictRmdp, out): with open(out, 'a') as f: for line in dictRmdp: f.write(line + '\n') def main(): try: dict = sys.argv[1].strip() out = sys.argv[2].strip() except Exception, e: print 'error:', e me = os.path.basename(__file__) print 'usage: %s <input> <output>' %me print 'example: %s dict.txt dict_rmdp.txt' %me exit() dictList = getDictList(dict) dictRmdp = rmdp(dictList) fileSave(dictRmdp, out) if __name__ == '__main__': main()
以上这篇python 高效去重复 支持GB级别大文件的示例代码就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。
相关文章
Pytorch中的数据转换Transforms与DataLoader方式
这篇文章主要介绍了Pytorch中的数据转换Transforms与DataLoader方式,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教2023-02-02vscode搭建python Django网站开发环境的示例
本文主要介绍了vscode搭建python Django网站开发环境的示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧2023-02-02
最新评论