Python实现计算信息熵的示例代码
一:数据集准备
如博主使用的是:
多层感知机(MLP)实现考勤预测二分类任务(sklearn)对应数据集
导入至工程下
二:信息熵计算
1 导包
from math import log import pandas as pd
2 读取数据集
dataSet = pd.read_csv('dataSet.csv', header=None).values.tolist()
3 数据统计
numEntries = len(dataSet) # 数据集大小 labelCounts = {} for featVec in dataSet: # currentLabel = featVec[-1] # 获取分类标签 if currentLabel not in labelCounts.keys(): labelCounts[currentLabel] = 0 # 字典值不等于0??? labelCounts[currentLabel] += 1 # 每个类中数据个数统计
4 信息熵计算
infoEnt = 0.0 for key in labelCounts: # 信息熵计算 prob = float(labelCounts[key]) / numEntries infoEnt -= prob * log(prob, 2) return infoEnt # 返回值 infoEnt 为数据集的信息熵,表示为 float 类型
测试运行,得到 多层感知机(MLP)实现考勤预测二分类任务(sklearn)对应数据集 信息熵为0.5563916622348017
三:完整源码分享
from math import log import pandas as pd dataSet = pd.read_csv('dataSet.csv', header=None).values.tolist() def calcInfoEnt(dataSet): numEntries = len(dataSet) # 数据集大小 labelCounts = {} for featVec in dataSet: # currentLabel = featVec[-1] # 获取分类标签 if currentLabel not in labelCounts.keys(): labelCounts[currentLabel] = 0 # 字典值不等于0??? labelCounts[currentLabel] += 1 # 每个类中数据个数统计 infoEnt = 0.0 for key in labelCounts: # 信息熵计算 prob = float(labelCounts[key]) / numEntries infoEnt -= prob * log(prob, 2) return infoEnt # 返回值 infoEnt 为数据集的信息熵,表示为 float 类型 if __name__ == '__main__': # 输出为当前数据集的信息熵 print(calcInfoEnt(dataSet))
四:方法补充
熵,在信息论中是用来刻画信息混乱程度的一种度量。熵最早源于热力学,后应广泛用于物理、化学、信息论等领域。1850年,德国物理学家鲁道夫·克劳修斯首次提出熵的概念,用来表示任何一种能量在空间中分布的均匀程度。1948年,Shannon在Bell System Technical Journal上发表文章“A Mathematical Theory of Communication”,将信息熵的概念引入信息论中。本文所说的熵就是Shannon熵,即信息熵,解决了对信息的量化度量问题。
下面是小编为大家收集的计算信息熵的另一种方法,希望对大家有所帮助
import math #以整型数据为例,给出其信息熵的计算程序。 ########################################### '''统计已知数据中的不同数据及其出现次数''' ########################################### def StatDataInf( data ): dataArrayLen = len( data ) diffData = []; diffDataNum = []; dataCpy = data; for i in range( dataArrayLen ): count = 0; j = i if( dataCpy[j] != '/' ): temp = dataCpy[i] diffData.append( temp ) while( j < dataArrayLen ): if( dataCpy[j] == temp ): count = count + 1 dataCpy[j] = '/' j = j + 1 diffDataNum.append( count ) return diffData, diffDataNum ########################################### '''计算已知数据的熵''' ########################################### def DataEntropy( data, diffData, diffDataNum ): dataArrayLen = len( data ) diffDataArrayLen = len( diffDataNum ) entropyVal = 0; for i in range( diffDataArrayLen ): proptyVal = diffDataNum[i] / dataArrayLen entropyVal = entropyVal - proptyVal * math.log2( proptyVal ) return entropyVal def main(): data = [1, 2, 1, 2, 1, 2, 1, 2, 1, 2 ] [diffData, diffDataNum] = StatDataInf( data ) entropyVal = DataEntropy( data, diffData, diffDataNum ) print( entropyVal ) data = [1, 2, 1, 2, 2, 1, 2, 1, 1, 2, 1, 1, 1, 1, 1 ] [diffData, diffDataNum] = StatDataInf( data ) entropyVal = DataEntropy( data, diffData, diffDataNum ) print( entropyVal ) data = [1, 2, 3, 4, 2, 1, 2, 4, 3, 2, 3, 4, 1, 1, 1 ] [diffData, diffDataNum] = StatDataInf( data ) entropyVal = DataEntropy( data, diffData, diffDataNum ) print( entropyVal ) data = [1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4 ] [diffData, diffDataNum] = StatDataInf( data ) entropyVal = DataEntropy( data, diffData, diffDataNum ) print( entropyVal ) data = [1, 2, 3, 4, 5, 1, 2, 3, 4, 5, 1, 2, 3, 4, 5, 1, 2, 3, 4, 5, 1, 2, 3, 4, 1, 2, 3, 4, 5 ] [diffData, diffDataNum] = StatDataInf( data ) entropyVal = DataEntropy( data, diffData, diffDataNum ) print( entropyVal ) if __name__ == '__main__': main() ########################################### #运行结果 1.0 0.9182958340544896 1.965596230357602 2.0 2.3183692540329317
到此这篇关于Python实现计算信息熵的示例代码的文章就介绍到这了,更多相关Python计算信息熵内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!
相关文章
对python 中re.sub,replace(),strip()的区别详解
今天小编就为大家分享一篇对python 中re.sub,replace(),strip()的区别详解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧2019-07-07python中pandas nlargest()的详细用法小结
df.nlargest()是一个DataFrame的方法,用于返回DataFrame中最大的n个值所在的行,通过调用nlargest()方法,我们返回了分数最高的三个行,并按照降序排列,本文结合实例代码给大家介绍的非常详细,需要的朋友参考下吧2023-10-10
最新评论