分享python机器学习中应用所产生的聚类数据集方法

 更新时间:2021年08月19日 11:45:16   作者:卓晴  
本文根据 机器学习中常用的聚类数据集生成方法 中的内容进行编辑实验和整理而得,有需要的朋友可以参考想,希望可以对大家在聚类数据方面有所帮助

01直接生成

这类方法是利用基本程序软件包numpy的随机数产生方法来生成各类用于聚类算法数据集合,也是自行制作轮子的生成方法。

一、基础类型

1、月牙形数据集合

from headm import *
import numpy as np
pltgif = PlotGIF()
def moon2Data(datanum):
    x1 = linspace(-3, 3, datanum)
    noise = np.random.randn(datanum) * 0.15
    y1 = -square(x1) / 3 + 4.5 + nois
    x2 = linspace(0, 6, datanum)
    noise = np.random.randn(datanum) * 0.15
    y2 = square(x2 - 3) / 3 + 0.5 + noise
    plt.clf()
    plt.axis([-3.5, 6.5, -.5, 5.5])
    plt.scatter(x1, y1, s=10)
    plt.scatter(x2, y2, s=10)
    plt.draw()
    plt.pause(.1)
    pltgif.append(plt)
for _ in range(20):
    moon2Data(300)
pltgif.save(r'd:\temp\GIF1.GIF')


2、方形数据集

from headm import *
import numpy as np
pltgif = PlotGIF()
def moon2Data(datanum):
    x = np.random.rand(datanum, 2)
    condition1 = x[:, 1] <= x[:, 0]
    condition2 = x[:, 1] <= (1-x[:, 0])
    index1 = np.where(condition1 & condition2)
    x1 = x[index1]
    x = np.delete(x, index1, axis=0)
    index2 = np.where(x[:, 0] <= 0.5)
    x2 = x[index2]
    x3 = np.delete(x, index2, axis=0)
    plt.clf()
    plt.scatter(x1[:, 0], x1[:, 1], s=10)
    plt.scatter(x2[:, 0], x2[:, 1], s=10)
    plt.scatter(x3[:, 0], x3[:, 1], s=10)
    plt.draw()
    plt.pause(.1)
    pltgif.append(plt)
for _ in range(20):
    moon2Data(1000)
pltgif.save(r'd:\temp\GIF1.GIF')


3、螺旋形数据集合

from headm import *
import numpy as np
pltgif = PlotGIF()
def randData(datanum):
    t = 1.5 * pi * (1+3*random.rand(1, datanum))
    x = t * cos(t)
    y = t * sin(t)
    X = concatenate((x,y))
    X += 0.7 * random.randn(2, datanum)
    X = X.T
    norm = plt.Normalize(y.min(), y.max())
    plt.clf()
    plt.scatter(X[:, 0], X[:, 1], s=10, c=norm(X[:,0]), cmap='viridis')
    plt.axis([-20, 21, -20, 16])
    plt.draw()
    plt.pause(.1)
    pltgif.append(plt)
for _ in range(20):
    randData(1000)
pltgif.save(r'd:\temp\GIF1.GIF')


下面的知识螺旋线,没有随机移动的点。

将随机幅值从原来的0.7增大到1.5,对应的数据集合为:


02样本生成器

利用sklearn.datasets自带的样本生成器来生成相应的数据集合。

一、基础数据集

1、点簇形数据集合

from headm import *
from sklearn.datasets import make_blobs
pltgif = PlotGIF()
def randData(datanum):
    x1,y1 = make_blobs(n_samples=datanum, n_features=2, centers=3, random_state=random.randint(0, 1000))
    plt.clf()
    plt.scatter(x1[:,0], x1[:, 1], c=y1, s=10)
    plt.draw()
    plt.pause(.1)
    pltgif.append(plt)
for _ in range(20):
    randData(300)
pltgif.save(r'd:\temp\gif1.gif')

绘制三簇点集合,也可以使用如下的语句:

plt.scatter(x1[y1==0][:,0], x1[y1==0][:,1], s=10)
plt.scatter(x1[y1==1][:,0], x1[y1==1][:,1], s=10)
plt.scatter(x1[y1==2][:,0], x1[y1==2][:,1], s=10)

2、线簇形数据集合

生成代码,只要在前面的x1后面使用旋转矩阵。

transformation = [[0.60834549, -0.63667341], [-0.40887718, 0.85253229]]
x1 = dot(x1, transformation)

其中转换矩阵的特征值与特征向量为:

  • 特征值:[0.20581711.25506068]
  • 特征向量:[[-0.845237740.7015526][-0.53439045-0.71261768]]

3、环形数据集合

from headm import *
from sklearn.datasets import make_circles
pltgif = PlotGIF()
def randData(datanum):
    x1,y1 = make_circles(n_samples=datanum, noise=0.07, random_state=random.randint(0, 1000), factor=0.6)
    plt.clf()
    plt.scatter(x1[y1==0][:,0], x1[y1==0][:,1], s=10)
    plt.scatter(x1[y1==1][:,0], x1[y1==1][:,1], s=10)
    plt.axis([-1.2, 1.2, -1.2, 1.2])
    plt.draw()
    plt.pause(.1)
    pltgif.append(plt)
for _ in range(20):
    randData(1000)
pltgif.save(r'd:\temp\gif1.gif')

4、月牙数据集合

from headm import *
from sklearn.datasets import make_moons
pltgif = PlotGIF()
def randData(datanum):
    x1,y1 = make_moons(n_samples=datanum, noise=0.07, random_state=random.randint(0, 1000))
    plt.clf()
    plt.scatter(x1[y1==0][:,0], x1[y1==0][:,1], s=10)
    plt.scatter(x1[y1==1][:,0], x1[y1==1][:,1], s=10)
    plt.axis([-1.5, 2.5, -1, 1.5])
    plt.draw()
    plt.pause(.1)
    pltgif.append(plt)
for _ in range(20):
    randData(1000)
pltgif.save(r'd:\temp\gif1.gif')

测试结论

sklearn里面还有好多函数来自定制数据,除此之外还可以使用numpy生成,然后通过高级索引进行划分,最好结合着matplotlib中的cmap来做颜色映射,这样可以做出好玩又好看的数据集,希望大家以后多多支持脚本之家!

相关文章

  • Python入门Anaconda和Pycharm的安装和配置详解

    Python入门Anaconda和Pycharm的安装和配置详解

    这篇文章主要介绍了Python入门Anaconda和Pycharm的安装和配置详解,文章通过图文介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-07-07
  • Python 设计模式行为型访问者模式

    Python 设计模式行为型访问者模式

    这篇文章主要介绍了Python 设计模式行为型访问者模式,访问者模式即Visitor Pattern,访问者模式,指作用于一个对象结构体上的元素的操作,下文相关资料需要的小伙伴可以参考一下
    2022-02-02
  • Numpy 中的矩阵求逆实例

    Numpy 中的矩阵求逆实例

    今天小编就为大家分享一篇Numpy 中的矩阵求逆实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-08-08
  • python 中使用yagmail 发送邮件功能

    python 中使用yagmail 发送邮件功能

    这篇文章主要介绍了python 中使用yagmail 发送邮件功能,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2021-12-12
  • Python 自动唤醒窗口截图脚本

    Python 自动唤醒窗口截图脚本

    截图的操作用途最为广泛,你可以用它配合定时工具,定时检测某个程序的运行情况,本文给大家讲下如何使用 win32api 实现自动唤醒并截图的操作,对Python窗口截图脚本知识感兴趣的朋友跟随小编一起看看吧
    2022-02-02
  • Python如何生成随机数及random随机数模块应用

    Python如何生成随机数及random随机数模块应用

    这篇文章主要介绍了Python如何生成随机数及random随机数模块应用,首先我们要知道在python中用于生成随机数的模块是random,在使用前需要import。由此展开内容介绍,需要的小伙伴可以参考一下
    2022-06-06
  • 解读dataframe中有关inf的处理技巧

    解读dataframe中有关inf的处理技巧

    这篇文章主要介绍了解读dataframe中有关inf的处理技巧,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2023-09-09
  • python代码打印100-999之间的回文数示例

    python代码打印100-999之间的回文数示例

    今天小编就为大家分享一篇python代码打印100-999之间的回文数示例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-11-11
  • pytorch .detach() .detach_() 和 .data用于切断反向传播的实现

    pytorch .detach() .detach_() 和 .data用于切断反向传播的实现

    这篇文章主要介绍了pytorch .detach() .detach_() 和 .data用于切断反向传播的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-12-12
  • python PyAutoGUI实现自动化鼠标键盘等常用操作

    python PyAutoGUI实现自动化鼠标键盘等常用操作

    这篇文章主要介绍了python PyAutoGUI实现自动化鼠标键盘等常用操作使用实例,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-12-12

最新评论