Python使用ElementTree美化XML格式的操作

更新时间：2020年03月06日 13:27:11 作者：shinobiii

这篇文章主要介绍了Python使用ElementTree美化XML格式的操作，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

Python中使用ElementTree可以很方便的处理XML，但是产生的XML文件内容会合并在一行，难以看清楚。

如下格式：

<root><aa>aatext<cc>cctext</cc></aa><bb>bbtext<dd>ddtext<ee>eetext</ee></dd></bb></root>

使用minidom模块中的toprettyxml和writexml方法都有参数可以优化XML，但是有两个问题：

a. 如果解析的XML已经是美化过的，那么执行该方法会多出很多空行

b. 产生的结果会将text也独立一行，如下：

<root> 
  <aa> 
    aatext 
  </aa> 
  <bb> 
    bbtext 
  </bb> 
</root>

而我想产生如下结果：

<root> 
  <aa>aatext</aa> 
  <bb>bbtext</bb> 
</root>

于是只能自己写一个美化XML的方法。

我们首先研究一下ElementTree模块中的Element类，使用getroot方法返回的便是Element类。

该类中有四个属性tag、attrib、text与tail, 对应在XML中如下图所示：

整个XML就是一个Element，里面嵌套了很多子Element。

Element可以使用for循环迭代。

通过在text和tail中增加换行和制表符，就可以实现美化XML的目的。

美化代码如下：

def prettyXml(element, indent, newline, level = 0): # elemnt为传进来的Elment类，参数indent用于缩进，newline用于换行 
  if element: # 判断element是否有子元素 
    if element.text == None or element.text.isspace(): # 如果element的text没有内容 
      element.text = newline + indent * (level + 1)  
    else: 
      element.text = newline + indent * (level + 1) + element.text.strip() + newline + indent * (level + 1) 
  #else: # 此处两行如果把注释去掉，Element的text也会另起一行 
    #element.text = newline + indent * (level + 1) + element.text.strip() + newline + indent * level 
  temp = list(element) # 将elemnt转成list 
  for subelement in temp: 
    if temp.index(subelement) < (len(temp) - 1): # 如果不是list的最后一个元素，说明下一个行是同级别元素的起始，缩进应一致 
      subelement.tail = newline + indent * (level + 1) 
    else: # 如果是list的最后一个元素， 说明下一行是母元素的结束，缩进应该少一个 
      subelement.tail = newline + indent * level 
    prettyXml(subelement, indent, newline, level = level + 1) # 对子元素进行递归操作 
     
from xml.etree import ElementTree   #导入ElementTree模块 
tree = ElementTree.parse('test.xml')  #解析test.xml这个文件，该文件内容如上文 
root = tree.getroot()         #得到根元素，Element类 
prettyXml(root, '\t', '\n')      #执行美化方法 
ElementTree.dump(root)         #显示出美化后的XML内容

输出结果如下：

<root> 
  <aa> 
    aatext 
    <cc>cctext</cc> 
  </aa> 
  <bb> 
    bbtext 
    <dd> 
      ddtext 
      <ee>eetext</ee> 
    </dd> 
  </bb> 
</root>

残留问题点：

windows下的换行符是"\r\n"，只需将prettyXml方法的第三个参数改为"\r\n"，使用记事本打开生成的XML大部分OK。

但是XML说明与根元素开始符之间不知如何插入"\r\n".

补充知识：python-xml 模块-代码生成xml 文档

一、XML 模块

什么是xml：可扩展的标记语言，标记翻译为标签，用标签来组织数据的语言，也是一种语言可以用来自定义文档结构。相比json 使用场景更加广泛，但是语法格式相比json 复杂很多

什么时候使用json：前后台交互数据时使用json

什么时候使用xml：当需要自定义文档结构时使用xml，比如java中经常用xml来作为配置文件，常见操作就是通过程序去读取配置信息，而修改增加删除，一般是交给用户来手动完成

标签的叫发：node(节点)、elment(元素)、tag(标签)

需求从conuntrys中获取所有的国家名称

==========================>countrys
<data>
  <country name="Liechtenstein">
    <rank updated="yes">2</rank>
    <year>2009</year>
    <gdppc>141100</gdppc>
    <neighbor direction="E" name="Austria" />
    <neighbor direction="W" name="Switzerland" />
  </country>
  <country name="Singapore">
    <rank updated="yes">5</rank>
    <year>2012</year>
    <gdppc>59900</gdppc>
    <neighbor direction="N" name="Malaysia" />
  </country>
  <country name="Panama">
    <rank updated="yes">69</rank>
    <year>2012</year>
    <gdppc>13600</gdppc>
    <neighbor direction="W" name="Costa Rica" />
    <neighbor direction="E" name="Colombia" />
  </country>
</data># 取别名可以用于简化书写
import xml.etree.ElementTree as ET
tree = ET.parse('countrys')
#获取根标签#第一种获取标签的方式
#全文查找
iter() 
# 获取迭代器 如果不指定参数 则迭代器迭代的是所有标签
print(root.iter())
# 获取迭代器 如果指定参数 则迭代器迭代的是所有名称匹配的标签
for e in root.iter("rank"):
  print(e)
 
#第二种获取标签的方式
#在当前标签下(所有子级标签)寻找第一个名称匹配的标签
print(root.find("rank")) #第一个名称不匹配所以返回None#第三种获取标签的方式
#在当前标签下(所有子级标签)寻找所有名称匹配的标签
print(root.findall("rank")) #[]

练习：找到新加坡中year 这个标签

#print(e.tag) #标签名称
#print(e.attrib) #属性 字典类型
#print(e.text) #文本内容import xml.etree.ElementTree as ETtree = ET.parse("countrys")
# 获取根标签
root = tree.getroot()
for e in root.iter("country"):
  if e.attrib["name"] == "Singapore":
    y = e.find("year")
    print(y.text) #2012

在程序中修改文档内容：把所有year标签的文本加1

import xml.etree.ElementTree as ETtree = ET.parse("countrys")
root = tree.getroot()
for e in root.iter("year"):
  e.text = str(int(e.text) + 1)
  
#做完修改后要将修改后的内容写入文件
tree.write('countrys')

把新加坡国家删除：

import xml.etree.ElementTree as ETtree = ET.parse("countrys")
root = tree.getroot()for e in root.findall("country"):
  print(e)
  if e.attrib["name"] == "Singapore":
    #删除时要通过被删除的父级标签来删除
    root.remove(e)tree.write('countrys')

用程序将中国信息写入文档中：

import xml.etree.ElementTree as ETtree = ET.parse("countrys")
root = tree.getroot()
#添加时也需要将要添加的数据做成一个Element
c = ET.Element("country",{"name":"china"})# 在国家下有一堆子标签
ranke = ET.Element("ranke",{"updated":"yes"})
c.append(ranke)year = ET.Element("year")
year.text = "2018"
c.append(year)#添加到root标签中
root.append(c)
tree.write("countrys")

总结：一般不会通过程序去修改删除和添加

什么时候应该使用XML格式：

当你需要自定文档结构时(XML最强大的地方就是结构)

前后台交互不应该使用，前后台交互应该使用JSON格式

代码生成XML文档

import xml.etree.ElementTree as ET# 创建根标签
root = ET.Element("root")
root.text = "这是一个XML文档!"c = ET.Element("country",{"name":"china"})
root.append(c)tree = ET.ElementTree(root)
# 参数: 文件名称 编码方式 是否需要文档声明
tree.write("new.xml",encoding="utf-8",xml_declaration=True)=========================>new.xml 内容为
<?xml version='1.0' encoding='utf-8'?>
<root>这是一个XML文档!<country name="china" /></root>

以上这篇Python使用ElementTree美化XML格式的操作就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持脚本之家。

您可能感兴趣的文章:

python包pdfkit(wkhtmltopdf) 将HTML转换为PDF的操作方法
pdfkit，把HTML+CSS格式的文件转换成PDF格式文档的一种工具。它就是html转成pdf工具包wkhtmltopdf的Python封装。所以，必须手动安装wkhtmltopdf,这篇文章主要介绍了python包pdfkit(wkhtmltopdf)将HTML转换为PDF,需要的朋友可以参考下
2022-04-04
python操作sqlite的CRUD实例分析
这篇文章主要介绍了python操作sqlite的CRUD实现方法,涉及Python操作SQLite数据库CURD相关技巧,需要的朋友可以参考下
2015-05-05
使用python opencv对畸变图像进行矫正的实现
本文主要介绍了使用python opencv对畸变图像进行矫正的实现，文中通过示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2022-05-05
python Qt5实现窗体跟踪鼠标移动
今天小编就为大家分享一篇python Qt5实现窗体跟踪鼠标移动，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-12-12
Python操作MySQL的方法详细解读
这篇文章主要介绍了Python操作MySQL的方法详细解读,在Python中,通过使用第三方库:pymysql,完成对MySQL数据库的操作,Python操作MySQL并不难,难点是如何编写合适的SQL语句,需要的朋友可以参考下
2023-11-11
Python编写一个闹钟功能
本文给大家分享一个python小程序之基于python编写的一个闹钟功能，需要的的朋友参考下实现代码吧
2017-07-07
python编程进阶之异常处理用法实例分析
这篇文章主要介绍了python编程进阶之异常处理用法,结合实例形式分析了python异常捕获、处理相关语句、使用技巧与操作注意事项,需要的朋友可以参考下
2020-02-02
Python3.7黑帽编程之病毒篇（基础篇）
这篇文章主要介绍了Python3.7黑帽编程之病毒篇（基础篇），文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2020-02-02
Python中搜索和替换文件中的文本的实现(四种)
本文主要介绍了Python中搜索和替换文件中的文本的实现，文中通过示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2021-10-10
anaconda中安装的python环境中没有pip3的问题及解决
这篇文章主要介绍了anaconda中安装的python环境中没有pip3的问题及解决方案，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2023-02-02

Python使用ElementTree美化XML格式的操作

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具