Python Trie树实现字典排序

 更新时间:2014年03月28日 23:47:20   投稿:mdxy-dxy  
Trie树是一种很常用的树结构,它被广泛用于各个方面,比如字符串检索、中文分词、求字符串最长公共前缀和字典排序等等,而且在输入法中也能看到Trie树的身影

一般语言都提供了按字典排序的API,比如跟微信公众平台对接时就需要用到字典排序。按字典排序有很多种算法,最容易想到的就是字符串搜索的方式,但这种方式实现起来很麻烦,性能也不太好。Trie树是一种很常用的树结构,它被广泛用于各个方面,比如字符串检索、中文分词、求字符串最长公共前缀和字典排序等等,而且在输入法中也能看到Trie树的身影。


什么是Trie树

Trie树通常又称为字典树、单词查找树或前缀树,是一种用于快速检索的多叉树结构。如图数字的字典是一个10叉树:
 

同理小写英文字母或大写英文字母的字典数是一个26叉树。如上图可知,Trie树的根结点是不保存数据的,所有的数据都保存在它的孩子节点中。有字符串go, golang, php, python, perl,它这棵Trie树可如下图所示构造:
 

我们来分析下上面这张图。除了根节点外,每个子节点只存储一个字符。go和golang共享go前缀,php、perl和python只共用p前缀。为了实现字典排序,每一层节点上存储的字符都是按照字典排序的方式存储(这跟遍历的方式有关)。我们先来看看对单个字符如何进行字典排序。本文只考虑小写字母,其它方式类似。'a'在'b'的前面,而'a'的ASCII码小于'b'的ASCII码,因此通过它们的ASCII相减就可以得到字典顺序。而且python内置了字典排序的API,比如:
 

复制代码 代码如下:

#!/usr/bin/env python
#coding: utf8

if __name__ == '__main__':
 arr = [c for c in 'python']
 arr.sort()
 print arr

而且也可以使用我之前的一篇文章介绍的bitmap来实现:Python: 实现bitmap数据结构 。实现代码如下:

复制代码 代码如下:

#!/usr/bin/env python
#coding: utf8

class Bitmap(object):
 def __init__(self, max):
  self.size  = self.calcElemIndex(max, True)
  self.array = [0 for i in range(self.size)]

 def calcElemIndex(self, num, up=False):
  '''up为True则为向上取整, 否则为向下取整'''
  if up:
   return int((num + 31 - 1) / 31) #向上取整
  return num / 31

 def calcBitIndex(self, num):
  return num % 31

 def set(self, num):
  elemIndex = self.calcElemIndex(num)
  byteIndex = self.calcBitIndex(num)
  elem      = self.array[elemIndex]
  self.array[elemIndex]&nbsp;=&nbsp;elem&nbsp;|&nbsp;(1&nbsp;<<&nbsp;byteIndex)

 def&nbsp;clean(self,&nbsp;i):
  elemIndex&nbsp;=&nbsp;self.calcElemIndex(i)
  byteIndex&nbsp;=&nbsp;self.calcBitIndex(i)
  elem&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;=&nbsp;self.array[elemIndex]
  self.array[elemIndex]&nbsp;=&nbsp;elem&nbsp;&&nbsp;(~(1&nbsp;<<&nbsp;byteIndex))

 def&nbsp;test(self,&nbsp;i):
  elemIndex&nbsp;=&nbsp;self.calcElemIndex(i)
  byteIndex&nbsp;=&nbsp;self.calcBitIndex(i)
  if&nbsp;self.array[elemIndex]&nbsp;&&nbsp;(1&nbsp;<<&nbsp;byteIndex):
   return&nbsp;True
  return&nbsp;False

if&nbsp;__name__&nbsp;==&nbsp;'__main__':
 MAX&nbsp;=&nbsp;ord('z')
 suffle_array&nbsp;=&nbsp;[c&nbsp;for&nbsp;c&nbsp;in&nbsp;'python']
 result&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;=&nbsp;[]
 bitmap&nbsp;=&nbsp;Bitmap(MAX)
 for&nbsp;c&nbsp;in&nbsp;suffle_array:
  bitmap.set(ord(c))
 
 for&nbsp;i&nbsp;in&nbsp;range(MAX&nbsp;+&nbsp;1):
  if&nbsp;bitmap.test(i):
   result.append(chr(i))

 print&nbsp;'原始数组为:&nbsp;&nbsp;&nbsp;&nbsp;%s'&nbsp;%&nbsp;suffle_array
 print&nbsp;'排序后的数组为:&nbsp;%s'&nbsp;%&nbsp;result

bitmap的排序不能有重复字符。其实刚才所说的基于ASCII码相减的方式进行字典排序,已经有很多成熟算法了,比如排序、希尔排序、冒泡排序和堆排序等等。本文为了图简单,将使用Python自带的sorted方法来进行单字符的字典排序。如果读者自行实现单字符数组的排序也可以,而且这样将可以自定义字符串的排序方式。

实现思路

整个实现包括2个类:Trie类和Node类。Node类表示Trie树中的节点,由Trie类组织成一棵Trie树。我们先来看Node类:

复制代码 代码如下:

#!/usr/bin/env&nbsp;python
#coding:&nbsp;utf8

class&nbsp;Node(object):
 def&nbsp;__init__(self,&nbsp;c=None,&nbsp;word=None):
  self.c&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;=&nbsp;c&nbsp;&nbsp;&nbsp;&nbsp;#&nbsp;节点存储的单个字符
  self.word&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;=&nbsp;word&nbsp;#&nbsp;节点存储的词
  self.childs&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;=&nbsp;[]&nbsp;&nbsp;&nbsp;#&nbsp;此节点的子节点

Node包含三个成员变量。c为每个节点上存储的字符。word表示一个完整的词,在本文中指的是一个字符串。childs包含这个节点的所有子节点。既然在每个节点中存储了c,那么存储word有什么用呢?并且这个word应该存在哪个节点上呢?还是用刚才的图举例子:比如go和golang,它们共用go前缀,如果是字符串搜索倒好办,因为会提供原始字符串,只要在这棵Trie树上按照路径搜索即可。但是对于排序来说,不会提供任何输入,所以无法知道单词的边界在哪里,而Node类中的word就是起到单词边界作用。具体是存储在单词的最后一个节点上,如图所示:

而Node类中的c成员如果这棵树不用于搜索,则可以不定义它,因为在排序中它不是必须的。

接下来我们看看Trie类的定义:

复制代码 代码如下:

#!/usr/bin/env&nbsp;python
#coding:&nbsp;utf8

'''Trie树实现字符串数组字典排序'''

class&nbsp;Trie(object):
 def&nbsp;__init__(self):
  self.root&nbsp;&nbsp;=&nbsp;Node()&nbsp;#&nbsp;Trie树root节点引用

 def&nbsp;add(self,&nbsp;word):
  '''添加字符串'''
  node&nbsp;=&nbsp;self.root
  for&nbsp;c&nbsp;in&nbsp;word:
   pos&nbsp;=&nbsp;self.find(node,&nbsp;c)
   if&nbsp;pos&nbsp;<&nbsp;0:
    node.childs.append(Node(c))
    #为了图简单,这里直接使用Python内置的sorted来排序
    #pos有问题,因为sort之后的pos会变掉,所以需要再次find来获取真实的pos
    #自定义单字符数组的排序方式可以实现任意规则的字符串数组的排序
    node.childs&nbsp;=&nbsp;sorted(node.childs,&nbsp;key=lambda&nbsp;child:&nbsp;child.c)
    pos&nbsp;=&nbsp;self.find(node,&nbsp;c)
   node&nbsp;=&nbsp;node.childs[pos]
  node.word&nbsp;=&nbsp;word

 def&nbsp;preOrder(self,&nbsp;node):
  '''先序输出'''
  results&nbsp;=&nbsp;[]
  if&nbsp;node.word:
   results.append(node.word)
  for&nbsp;child&nbsp;in&nbsp;node.childs:
   results.extend(self.preOrder(child))
  return&nbsp;results

 def&nbsp;find(self,&nbsp;node,&nbsp;c):
  '''查找字符的位置'''
  childs&nbsp;=&nbsp;node.childs
  _len&nbsp;&nbsp;&nbsp;=&nbsp;len(childs)
  if&nbsp;_len&nbsp;==&nbsp;0:
   return&nbsp;-1
  for&nbsp;i&nbsp;in&nbsp;range(_len):
   if&nbsp;childs[i].c&nbsp;==&nbsp;c:
    return&nbsp;i
  return&nbsp;-1

 def&nbsp;setWords(self,&nbsp;words):
  for&nbsp;word&nbsp;in&nbsp;words:
   self.add(word)

Trie包含1个成员变量和4个方法。root用于引用根结点,它不存储具体的数据,但是它拥有子节点。setWords方法用于初始化,调用add方法来初始化Trie树,这种调用是基于每个字符串的。add方法将每个字符添加到子节点,如果存在则共用它并寻找下一个子节点,依此类推。find是用于查找是否已经建立了存储某个字符的子节点,而preOrder是先序获取存储的word。树的遍历方式有三种:先序遍历、中序遍历和后序遍历,如果各位不太明白,可自行Google去了解。接下我们测试一下:

复制代码 代码如下:

#!/usr/bin/env&nbsp;python
#coding:&nbsp;utf8

'''Trie树实现字符串数组字典排序'''

class&nbsp;Trie(object):
 def&nbsp;__init__(self):
  self.root&nbsp;&nbsp;=&nbsp;Node()&nbsp;#&nbsp;Trie树root节点引用

 def&nbsp;add(self,&nbsp;word):
  '''添加字符串'''
  node&nbsp;=&nbsp;self.root
  for&nbsp;c&nbsp;in&nbsp;word:
   pos&nbsp;=&nbsp;self.find(node,&nbsp;c)
   if&nbsp;pos&nbsp;<&nbsp;0:
    node.childs.append(Node(c))
    #为了图简单,这里直接使用Python内置的sorted来排序
    #pos有问题,因为sort之后的pos会变掉,所以需要再次find来获取真实的pos
    #自定义单字符数组的排序方式可以实现任意规则的字符串数组的排序
    node.childs&nbsp;=&nbsp;sorted(node.childs,&nbsp;key=lambda&nbsp;child:&nbsp;child.c)
    pos&nbsp;=&nbsp;self.find(node,&nbsp;c)
   node&nbsp;=&nbsp;node.childs[pos]
  node.word&nbsp;=&nbsp;word

 def&nbsp;preOrder(self,&nbsp;node):
  '''先序输出'''
  results&nbsp;=&nbsp;[]
  if&nbsp;node.word:
   results.append(node.word)
  for&nbsp;child&nbsp;in&nbsp;node.childs:
   results.extend(self.preOrder(child))
  return&nbsp;results

 def&nbsp;find(self,&nbsp;node,&nbsp;c):
  '''查找字符的位置'''
  childs&nbsp;=&nbsp;node.childs
  _len&nbsp;&nbsp;&nbsp;=&nbsp;len(childs)
  if&nbsp;_len&nbsp;==&nbsp;0:
   return&nbsp;-1
  for&nbsp;i&nbsp;in&nbsp;range(_len):
   if&nbsp;childs[i].c&nbsp;==&nbsp;c:
    return&nbsp;i
  return&nbsp;-1

 def&nbsp;setWords(self,&nbsp;words):
  for&nbsp;word&nbsp;in&nbsp;words:
   self.add(word)

class&nbsp;Node(object):
 def&nbsp;__init__(self,&nbsp;c=None,&nbsp;word=None):
  self.c&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;=&nbsp;c&nbsp;&nbsp;&nbsp;&nbsp;#&nbsp;节点存储的单个字符
  self.word&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;=&nbsp;word&nbsp;#&nbsp;节点存储的词
  self.childs&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;=&nbsp;[]&nbsp;&nbsp;&nbsp;#&nbsp;此节点的子节点

if&nbsp;__name__&nbsp;==&nbsp;'__main__':
 words&nbsp;=&nbsp;['python',&nbsp;'function',&nbsp;'php',&nbsp;'food',&nbsp;'kiss',&nbsp;'perl',&nbsp;'goal',&nbsp;'go',&nbsp;'golang',&nbsp;'easy']
 trie&nbsp;=&nbsp;Trie()
 trie.setWords(words)
 result&nbsp;=&nbsp;trie.preOrder(trie.root)
 print&nbsp;'原始字符串数组:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;%s'&nbsp;%&nbsp;words
 print&nbsp;'Trie树排序后:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;%s'&nbsp;%&nbsp;result
 words.sort()
 print&nbsp;'Python的sort排序后:&nbsp;%s'&nbsp;%&nbsp;words

结束语

树的种类非常之多。在树结构的实现中,树的遍历是个难点,需要多加练习。上述代码写得比较仓促,没有进行任何优化,但在此基础上可以实现任何方式的字符串排序,以及字符串搜索等。

相关文章

  • pycharm中使用pyplot时报错MatplotlibDeprecationWarning

    pycharm中使用pyplot时报错MatplotlibDeprecationWarning

    最近在使用Pycharm中matplotlib作图处理时报错,所以这篇文章主要给大家介绍了关于pycharm中使用pyplot时报错MatplotlibDeprecationWarning的相关资料,需要的朋友可以参考下
    2023-12-12
  • matplotlib相关系统目录获取方式小结

    matplotlib相关系统目录获取方式小结

    这篇文章主要介绍了matplotlib相关系统目录获取方式小结,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-02-02
  • Pycharm配置lua编译环境过程图解

    Pycharm配置lua编译环境过程图解

    这篇文章主要介绍了Pycharm配置lua编译环境过程图解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-11-11
  • 基于python的MD5脚本开发思路

    基于python的MD5脚本开发思路

    这篇文章主要介绍了基于python的MD5脚本,通过 string模块自动生成字典,使用permutations()函数,对字典进行全排列,本文通过实例代码给大家介绍的非常详细,需要的朋友可以参考下
    2022-03-03
  • 详解python3实现的web端json通信协议

    详解python3实现的web端json通信协议

    本篇文章主要介绍了python3实现的web端json通信协议,具有一定的参考价值,感兴趣的小伙伴们可以参考一下。
    2016-12-12
  • 基于Python中capitalize()与title()的区别详解

    基于Python中capitalize()与title()的区别详解

    下面小编就为大家分享一篇基于Python中capitalize()与title()的区别详解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2017-12-12
  • PyTorch 如何将CIFAR100数据按类标归类保存

    PyTorch 如何将CIFAR100数据按类标归类保存

    这篇文章主要介绍了PyTorch 将CIFAR100数据按类标归类保存的操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-05-05
  • Python实现轻松合并doc为txt的示例代码

    Python实现轻松合并doc为txt的示例代码

    这篇文章主要为大家详细介绍了如何利用Python编程语言和wxPython模块,打开指定文件夹中的DOC文档,并将它们的内容合并成一个便捷的TXT文档,需要的可以参考下
    2024-03-03
  • python使用pyecharts绘制简单的折线图

    python使用pyecharts绘制简单的折线图

    这篇文章讲给大家介绍一下python使用pyecharts绘制简单的折线图的党法步骤,文中有详细的代码示例讲解,对我们学习或工作有一定的帮助,需要的朋友可以参考下
    2023-07-07
  • Python调用高德API实现批量地址转经纬度并写入表格的功能

    Python调用高德API实现批量地址转经纬度并写入表格的功能

    这篇文章主要介绍了Python调用高德API实现批量地址转经纬度并写入表格的功能,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2021-01-01

最新评论