python中如何使用朴素贝叶斯算法

更新时间：2017年04月06日 11:42:58 作者：lc19861217

本文主要介绍了python中如何使用朴素贝叶斯算法的相关知识。具有很好的参考价值。下面跟着小编一起来看下吧

这里再重复一下标题为什么是"使用"而不是"实现"：

首先，专业人士提供的算法比我们自己写的算法无论是效率还是正确率上都要高。

其次，对于数学不好的人来说，为了实现算法而去研究一堆公式是很痛苦的事情。

再次，除非他人提供的算法满足不了自己的需求，否则没必要"重复造轮子"。

下面言归正传，不了解贝叶斯算法的可以去查一下相关资料，这里只是简单介绍一下：

1.贝叶斯公式：

P(A|B)=P(AB)/P(B)

2.贝叶斯推断：

P(A|B)=P(A)×P(B|A)/P(B)

用文字表述：

后验概率=先验概率×相似度/标准化常量

而贝叶斯算法要解决的问题就是如何求出相似度，即：P(B|A)的值

3. 在scikit-learn包中提供了三种常用的朴素贝叶斯算法，下面依次说明：

1）高斯朴素贝叶斯：假设属性/特征是服从正态分布的(如下图)，主要应用于数值型特征。

使用scikit-learn包中自带的数据，代码及说明如下：

>>>from sklearn import datasets ##导入包中的数据
>>> iris=datasets.load_iris() ##加载数据
>>> iris.feature_names  ##显示特征名字
 ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
>>> iris.data   ##显示数据
 array([[ 5.1, 3.5, 1.4, 0.2],[ 4.9, 3. , 1.4, 0.2],[ 4.7, 3.2, 1.3, 0.2]............
>>> iris.data.size  ##数据大小 ---600个
>>> iris.target_names  ##显示分类的名字 
 array(['setosa', 'versicolor', 'virginica'], dtype='<U10')
>>> from sklearn.naive_bayes import GaussianNB ##导入高斯朴素贝叶斯算法
>>> clf = GaussianNB()    ##给算法赋一个变量，主要是为了方便使用
>>> clf.fit(iris.data, iris.target)  ##开始分类。对于量特别大的样本，可以使用函数partial_fit分类，避免一次加载过多数据到内存

>>> clf.predict(iris.data[0].reshape(1,-1)) ##验证分类。标红部分特别说明：因为predict的参数是数组，data[0]是列表，所以需要转换一下
array([0])
>>> data=np.array([6,4,6,2])   ##验证分类
>>> clf.predict(data.reshape(1,-1))
array([2])

这里涉及到一个问题：如何判断数据符合正态分布？ R语言里面有相关函数判断，或者直接绘图也可以看出来，但是都是P(x,y)这种可以在坐标系里面直接

画出来的情况，而例子中的数据如何确定，目前还没有搞明白，这部分后续会补上。

2）多项式分布朴素贝叶斯：常用于文本分类，特征是单词，值是单词出现的次数。

##示例来在官方文档，详细说明见第一个例子
>>> import numpy as np
>>> X = np.random.randint(5, size=(6, 100)) ##返回随机整数值：范围[0,5) 大小6*100 6行100列
>>> y = np.array([1, 2, 3, 4, 5, 6])
>>> from sklearn.naive_bayes import MultinomialNB
>>> clf = MultinomialNB()
>>> clf.fit(X, y)
MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True) 
>>> print(clf.predict(X[2]))
[3]

3）伯努力朴素贝叶斯：每个特征都是是布尔型，得出的结果是0或1，即出现没出现

##示例来在官方文档，详细说明见第一个例子
>>> import numpy as np
>>> X = np.random.randint(2, size=(6, 100))
>>> Y = np.array([1, 2, 3, 4, 4, 5])
>>> from sklearn.naive_bayes import BernoulliNB
>>> clf = BernoulliNB()
>>> clf.fit(X, Y)
BernoulliNB(alpha=1.0, binarize=0.0, class_prior=None, fit_prior=True) 
>>> print(clf.predict(X[2]))
[3]

补充说明：此文还不完善，示例一中也有部分说明需要写，最近事情较多，后续会逐渐完善。

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，同时也希望多多支持脚本之家！

您可能感兴趣的文章:

python实现媒体播放器功能
这篇文章主要为大家详细介绍了python实现媒体播放器功能，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2018-02-02
python 实用工具状态机transitions
这篇文章主要介绍了python 实用工具状态机transitions的使用，帮助大家更好的理解和学习python，感兴趣的朋友可以了解下
2020-11-11
Django实现带进度条的倒计时功能详解
这篇文章主要为大家详细介绍了如何利用Django实现简单的带进度条的倒计时功能，可以在页面加载后自动开始计时，下次计时需要手动刷新页面，需要的可以参考一下
2023-04-04
python去掉空格的一些常用方式
处理字符串时经常要定制化去掉无用的空格,python 中要么用存在的常规方法,或者用正则处理,下面这篇文章主要给大家介绍了python去掉空格的一些常用方式,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
2022-01-01
玩转python爬虫之爬取糗事百科段子
这篇文章主要介绍了python爬虫爬取糗事百科段子,详细介绍下，如何来抓取到糗事百科里面的指定内容，感兴趣的小伙伴们可以参考一下
2016-02-02
Python中Word文件自动化操作小结
Python-docx是一个Python库,提供了对Microsoft Word（.docx文件）的读写和修改功能,本文主要介绍了如何使用Python-docx实现Word文件自动化操作,需要的可以参考下
2024-04-04
python try...finally...的实现方法
这篇文章主要介绍了python try...finally...的实现方法，帮助大家更好的理解和使用python，感兴趣的朋友可以了解下
2020-11-11
Python HTTP客户端自定义Cookie实现实例
这篇文章主要介绍了Python HTTP客户端自定义Cookie实现实例的相关资料,需要的朋友可以参考下
2017-04-04
python读取几个G的csv文件方法
今天小编就为大家分享一篇python读取几个G的csv文件方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-01-01
讲解Python中运算符使用时的优先级
这篇文章主要介绍了讲解Python中运算符使用时的优先级,是Python学习当中的基础知识,需要的朋友可以参考下
2015-05-05

python中如何使用朴素贝叶斯算法

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具