原生python实现knn分类算法

更新时间：2019年10月24日 10:27:50 作者：大侠_

这篇文章主要介绍了原生python实现knn分类算法，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

一、题目要求

用原生Python实现knn分类算法。

二、题目分析

数据来源：鸢尾花数据集（见附录Iris.txt）

数据集包含150个数据集，分为3类，分别是：Iris Setosa（山鸢尾）、Iris Versicolour（杂色鸢尾）和Iris Virginica（维吉尼亚鸢尾）。每类有50个数据，每个数据包含四个属性，分别是：Sepal.Length（花萼长度）、Sepal.Width（花萼宽度）、Petal.Length（花瓣长度）和Petal.Width（花瓣宽度）。

将得到的数据集按照7:3的比例划分，其中7为训练集，3为测试集。编写算法实现：学习训练集的数据特征来预测测试集鸢尾花的种类，并且计算出预测的准确性。

KNN是通过测量不同特征值之间的距离进行分类。它的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别，其中K通常是不大于20的整数。KNN算法中，所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

三、算法设计

1）将文本文件按行分割，写入列表datas中

def data_read(filepath): # 读取txt文件，将读出的内容存入datas列表中
  fp = open(filepath, "r")
  datas = [] # 存储处理后的数据
  lines = fp.readlines() # 读取整个文件数据
  for line in lines:
    row = line.strip('\n').split(',') # 去除两头的换行符，按空格分割
    datas.append(row)
  fp.close()
  return datas

2）划分数据集与测试集，将数据集的数据存入labeldata_list列表，标签存入label_list列表，测试集数据存入text_list列表，标签存入textlabel_list列表。

3）对得到的两个数据集的数据和标签列表进行处理。将labeldata_list列表数据转换为元组labeldata_tuple，构造形入{labeldata_tuple: label_list}的字典mydict。这样不仅可以去掉重复数据，而且可唯一的标识各个数据所对应的鸢尾花种类。

for i in range(0, 105): # 数据集按照3:7的比例划分，其中105行为训练集，45行为测试集
  labeldata_list.append([datas[i][0], datas[i][1], datas[i][2], datas[i][3]])
  label_list.append(datas[i][4])

for i in range(105, 150): # 测试集的数据
  text_list.append([datas[i][0], datas[i][1], datas[i][2], datas[i][3]])
  textlabel_list.append(datas[i][4])

j = 0
for i in labeldata_list:
  labeldata_tuple = tuple(i)
  mydict.update({labeldata_tuple: label_list[j]})
  j = j + 1

4）计算测试集数据与各个训练集数据之间的距离，得到distance_list列表，外层循环进行一次，都会有一个该测试数据所对应的与训练数据最短距离。标记出该距离对应的训练集，在一个近邻的条件下，这个训练集的种类，就是该测试集的种类。
在计算距离时，使用绝对距离来计算。将每个训练集对应数据的属性值相减后求和add，得到一个测试数据与每个样本的距离，add的最小值就是距离最小值。

for i in range(len(text_list)):
  count += 1
  for j in range(len(train_list)):
    add1 = abs(float(train_list[j][0]) - float(text_list[i][0])) + abs(float(train_list[j][1])
                                      - float(text_list[i][1])) + abs(
      float(train_list[j][2]) - float(text_list[i][2])) + abs(float(train_list[j][3])
                                  - float(text_list[i][3]))
    distance_list.append(add1)
    if add > add1:
      add = add1
      index = train_list[j]
  print("预测", text_list[i], "的标签是：", mydict.get(index))

5）判断预测结果的准确性：将预测的测试数据种类与原始数据对比，若相同，则分子加一。

right = 0 # 分子
count = 0 # 分母
for i in range(len(text_list)):
  count += 1
  for j in range(len(train_list)):
    add1 = abs(float(train_list[j][0]) - float(text_list[i][0])) + abs(float(train_list[j][1])
                                      - float(text_list[i][1])) + abs(
      float(train_list[j][2]) - float(text_list[i][2])) + abs(float(train_list[j][3])
                                  - float(text_list[i][3]))
    distance_list.append(add1)
    if add > add1:
      add = add1
      index = train_list[j]
  print("预测", text_list[i], "的标签是：", mydict.get(index))
  if mydict.get(index) == textlabel_list[i]: # 当计算出来的1个近邻与测试集正确的标签相同时，分子加一
    right = right + 1
print('预测准确性：{:.2f}'.format(right / count))

6）举例，绘图

以测试集7.6,3.0,6.6,2.1,Iris-virginica为例：
首先运用anaconda绘制出数据集的散点图，其次，将需要测试的数据于数据集绘制在同一张图上，在一个近邻的前提下，距离测试数据最近的点的标签即为测试数据的的标签。如下图，黑色的测试点距离红点最近，所以，测试数据的标签就为virginica。

import matplotlib.pyplot as plt
import numpy as np
from sklearn.datasets import load_iris  #导入数据集iris
 
#载入数据集 
iris = load_iris() 
#获取花卉两列数据集 
DD = iris.data 
X = [x[0] for x in DD] 
Y = [x[1] for x in DD] 
#plt.scatter(7.6,3.0, color='black', marker='o')
plt.scatter(X[:50], Y[:50], color='red', marker='o', label='setosa') #前50个样本
plt.scatter(X[50:100], Y[50:100], color='blue', marker='x', label='versicolor') #中间50个
plt.scatter(X[100:], Y[100:],color='green', marker='+', label='Virginica') #后50个样本
plt.legend(loc=2) #左上角
plt.show()

算法数据流图：

在这里插入图片描述

计算各个测试数据与训练集间距离详细流程图：

在这里插入图片描述

五、测试

导入数据集

在这里插入图片描述

划分数据集

训练集：

在这里插入图片描述

测试集：

在这里插入图片描述

对得到的两个数据集的数据和标签列表进行处理

在这里插入图片描述

计算测试集数据与各个训练集数据之间的距离

在这里插入图片描述

判断预测结果的准确性

在这里插入图片描述

绘图举例

在这里插入图片描述

五、运行结果

1.对测试集所有数据进行预测，得到预测测试集的标签与预测准确性

在这里插入图片描述

绘出散点图：7.6,3.0,6.6,2.1,Iris-virginica作为测试集的举例

六、总结

学习了关于绘图的函数与库
发现在绘图方面anaconde比pycharm要方便的多

对向量之间的距离公式进行了复习
除了这次作业中使用到的绝对距离之外，还有：
a)欧氏距离
两个n维向量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的欧氏距离：
在这里插入图片描述
b)曼哈顿距离
两个n维向量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的曼哈顿距离

c)闵可夫斯基距离
两个n维变量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的闵可夫斯基距离定义为：

对文件的读操作进行使用

算法缺点：用了许多for循环，会降低效率，增加算法的时间复杂度；只是一个近邻的判断依据

七、源代码

def data_read(filepath): # 读取txt文件，将读出的内容存入datas列表中
  fp = open(filepath, "r")
  datas = [] # 存储处理后的数据
  lines = fp.readlines() # 读取整个文件数据
  for line in lines:
    row = line.strip('\n').split(',') # 去除两头的换行符，按空格分割
    datas.append(row)
  fp.close()
  return datas


datas = data_read("iris .txt")

labeldata_list = [] # 训练集的数据
label_list = [] # 训练集的标签
text_list = [] # 测试集数据
textlabel_list = [] # 测试集标签
labeldata_tuple = () # 转换列表为元组
mydict = {} # 以四维数据为键，以鸢尾花的特征为值。这样便可唯一标识

'''
划分数据集与测试集，将数据集的数据存入labeldata_list列表，标签存入label_list列表，
测试集数据存入text_list列表，标签存入textlabel_list列表。
'''
for i in range(0, 105): # 数据集按照3:7的比例划分，其中105行为训练集，45行为测试集
  labeldata_list.append([datas[i][0], datas[i][1], datas[i][2], datas[i][3]])
  label_list.append(datas[i][4])

for i in range(105, 150): # 测试集的数据
  text_list.append([datas[i][0], datas[i][1], datas[i][2], datas[i][3]])
  textlabel_list.append(datas[i][4])

j = 0
for i in labeldata_list:
  labeldata_tuple = tuple(i)
  mydict.update({labeldata_tuple: label_list[j]})
  j = j + 1


add = 100
index = 0
distance_list = []
train_list = []
for key, value in mydict.items():
  train_list.append(key)

right = 0 # 分子
count = 0 # 分母
'''
在计算距离时，使用绝对距离来计算。
将每个训练集对应数据的属性值相减后求和add，
得到一个测试数据与每个样本的距离，add的最小值就是距离最小值。
'''
for i in range(len(text_list)):
  count += 1
  for j in range(len(train_list)):
    add1 = abs(float(train_list[j][0]) - float(text_list[i][0])) + abs(float(train_list[j][1])
                                      - float(text_list[i][1])) + abs(
      float(train_list[j][2]) - float(text_list[i][2])) + abs(float(train_list[j][3])
                                  - float(text_list[i][3]))
    distance_list.append(add1)
    if add > add1:
      add = add1
      index = train_list[j]
  print("预测", text_list[i], "的标签是：", mydict.get(index))
  if mydict.get(index) == textlabel_list[i]: # 当计算出来的1个近邻与测试集正确的标签相同时，分子加一
    right = right + 1
print('预测准确性：{:.2f}'.format(right / count))

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持脚本之家。

您可能感兴趣的文章:

Python企业编码生成系统之系统主要函数设计详解
这篇文章主要介绍了Python企业编码生成系统之系统主要函数设计,涉及目录操作、文件读写、验证判断、编码输出等功能实现技巧,需要的朋友可以参考下
2019-07-07
Python实现自动清理电脑垃圾文件详解
经常存在在我们的电脑中的垃圾文件主要是指系统在运行过程中产生的tmp临时文件、日志文件、临时备份文件等。本文将利用Python实现自动清理这些垃圾文件，需要的可以参考一下
2022-03-03
Python中使用Frozenset对象的案例详解
Frozensets提供了一种创建不可变的集合的方法，它们只接受唯一的元素，并且是可散列类型的对象，所以它们可以在其他只接受可散列对象作为子对象的 Python 对象中使用，这篇文章主要介绍了如何在Python中使用Frozenset对象,需要的朋友可以参考下
2022-08-08
详解python中asyncio模块
本篇文章给大家详细分析了python中重要的asyncio模块相关知识点，有兴趣的朋友可以学习参考下。
2018-03-03
Python中可复用函数的6种实践
为了实现可维护性,我们的Python函数应该：小型、只做一项任务；没有重复；有一个层次的抽象性；有一个描述性的名字和有少于四个参数,下面我们就来看看这6个特性的实践吧
2023-08-08
python Dejavu库快速识别音频指纹实例探究
这篇文章主要为大家介绍了python Dejavu库快速识别音频指纹实例探究,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
2024-01-01
基于Python实现的影视数据智能分析系统
数据分析与可视化是当今数据分析的发展方向,大数据时代,数据资源具有海量特征,数据分析和可视化主要通过Python数据分析来实现,本文给大家介绍了如何基于Python实现的影视数据智能分析系统,文中给出了部分详细代码,感兴趣的朋友跟着小编一起来看看吧
2024-01-01
python中start和run方法的区别
大家好，本篇文章主要讲的是python中start和run方法的区别，感兴趣的同学赶快来看一看吧，对你有帮助的话记得收藏一下
2022-02-02
Python处理日期方法详细大全(30种方法)
这篇文章主要给大家介绍了关于Python处理日期方法详细大全,文中共介绍了30种方法,Python程序能用很多方式处理日期和时间,转换日期格式是一个常见的功能,Python提供了一个time和calendar模块可以用于格式化日期和时间,需要的朋友可以参考下
2023-12-12
Python实现身份证号码解析
本文给大家汇总介绍下使用Python实现身份证号码验证解析的几个方法，有需要的小伙伴可以参考下。
2015-09-09

原生python实现knn分类算法

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具