python 划分数据集为训练集和测试集的方法

 更新时间:2018年12月11日 15:29:50   作者:心雨心辰  
今天小编就为大家分享一篇python 划分数据集为训练集和测试集的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

sklearn的cross_validation包中含有将数据集按照一定的比例,随机划分为训练集和测试集的函数train_test_split

from sklearn.cross_validation import train_test_split
#x为数据集的feature熟悉,y为label.
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.3)

得到的x_train,y_train(x_test,y_test)的index对应的是x,y中被抽取到的序号。

若train_test_split传入的是带有label的数据,则如下代码:

from sklearn.cross_validation import train_test_split
#dat为数据集,含有feature和label.
train, test = train_test_split(dat, test_size = 0.3)

train,test含有feature和label的。

自己写了一个函数:

#X:含label的数据集:分割成训练集和测试集
#test_size:测试集占整个数据集的比例
def trainTestSplit(X,test_size=0.3):
 X_num=X.shape[0]
 train_index=range(X_num)
 test_index=[]
 test_num=int(X_num*test_size)
 for i in range(test_num):
  randomIndex=int(np.random.uniform(0,len(train_index)))
  test_index.append(train_index[randomIndex])
  del train_index[randomIndex]
 #train,test的index是抽取的数据集X的序号
 train=X.ix[train_index] 
 test=X.ix[test_index]
 return train,test

以上这篇python 划分数据集为训练集和测试集的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • Python求算数平方根和约数的方法汇总

    Python求算数平方根和约数的方法汇总

    这篇文章主要介绍了 Python求算数平方根和约数的方法汇总的相关资料,需要的朋友可以参考下
    2016-03-03
  • python文件和目录操作函数小结

    python文件和目录操作函数小结

    这篇文章主要介绍了python文件和目录操作函数小结,主要涉及到os模块和shutil模块的一些方法,需要的朋友可以参考下
    2014-07-07
  • Python数据结构与算法之跳表详解

    Python数据结构与算法之跳表详解

    跳表是带有附加指针的链表,使用这些附加指针可以跳过一些中间结点,用以快速完成查找、插入和删除等操作。本节将详细介绍跳表的相关概念及其具体实现,需要的可以参考一下
    2022-02-02
  • Python numpy 常用函数总结

    Python numpy 常用函数总结

    Numpy是Python的一个科学计算的库,提供了矩阵运算的功能,其一般与Scipy、matplotlib一起使用。这篇文章主要介绍了Python numpy 常用函数总结,需要的朋友可以参考下
    2017-12-12
  • windows及linux环境下永久修改pip镜像源的方法

    windows及linux环境下永久修改pip镜像源的方法

    不知道有没有人跟我一样,在刚接触Linux时被系统更新源问题搞得晕头转向,不同的Linux更新源配置也是不一样的,另外由于默认安装时的源大都是外国的更新源,速度相对国内会慢很多,接下来本文主要介绍在windows和linux两种系统环境中更新系统源的方法。
    2016-11-11
  • Python3利用SMTP协议发送E-mail电子邮件的方法

    Python3利用SMTP协议发送E-mail电子邮件的方法

    SMTP(Simple Mail Transfer Protocol)即简单邮件传输协议,它是一组用于由源地址到目的地址传送邮件的规则,由它来控制信件的中转方式。下面这篇文章主要给大家介绍了关于Python3如何利用SMTP协议发送E-mail电子邮件的方法,需要的朋友可以参考下。
    2017-09-09
  • 序列化Python对象的方法

    序列化Python对象的方法

    这篇文章主要介绍了序列化Python对象的方法,文中讲解非常细致,代码帮助大家更好的理解和学习,感兴趣的朋友可以了解下
    2020-08-08
  • Pandas 如何处理DataFrame中的inf值

    Pandas 如何处理DataFrame中的inf值

    这篇文章主要介绍了Pandas 如何处理DataFrame中的inf值,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-05-05
  • python子类如何继承父类的实例变量

    python子类如何继承父类的实例变量

    这篇文章主要介绍了python子类如何继承父类的实例变量,帮助大家更好的理解和学习使用python,感兴趣的朋友可以了解下
    2021-03-03
  • python机器学习darts时间序列预测和分析

    python机器学习darts时间序列预测和分析

    这篇文章主要介绍了python机器学习darts时间序列预测和分析使用实例探索,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2024-01-01

最新评论