python如何将数据集按比例随机切分

 更新时间:2023年09月09日 09:06:14   作者:Arxan_hjw  
这篇文章主要介绍了python如何将数据集按比例随机切分问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教

python将数据集按比例随机切分

# -*- coding: utf-8 -*-
"""
    将数据按比例切分
"""
from sklearn import model_selection
c = []
j = 0
#filename = r'E:\NER\CCKS2020\Data\ccks2020_2_task1_train\task1_train.txt'
filename = open(r'task1_train.txt','r',encoding='utf-8')
out_train = open(r'train.txt', 'w',encoding='utf-8')
out_test = open(r'temp.txt', 'w',encoding='utf-8')
for line in filename:
    #    items = line.strip().split()
    c.append(line)
c_train, c_test = model_selection.train_test_split(c, test_size=0.2)
for i in c_train:
    out_train.write(i)
for i in c_test:
    out_test.write(i)

sklearn数据集随机切分(train_test_split)

sklearn学习

给定数据集X和类别标签y,将数据集按一定比例随机切分为训练集和测试集。

代码

#!/usr/bin/env python
# -*- coding: utf-8 -*-
"""
功能:数据集按比例切分为训练集和测试集
时间:2017年3月11日 12:48:57
"""
# from sklearn.cross_validation import train_test_split
from sklearn.model_selection import train_test_split  # 更新
# 生成200个句子,前100个和后100个类别分别对应1和2
X = [[u"这是", u"第1个", u"测试"]] * 100 + [[u"这是", u"第2个", u"测试"]] * 100
y = [1] * 100 + [2] * 100
# 随机抽取20%的测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
print len(X_train), len(X_test)
# 查看句子和标签是否仍然对应
for i in range(len(X_test)):
    print "".join(X_test[i]), y_test[i]
if __name__ == "__main__":
    pass

实验结果

切分后的训练集和测试集标签仍然一一对应。

更新

由于sklearn更新,代码应改为:

from sklearn.model_selection import train_test_split

总结

以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • Python递归生成全排列序列实操

    Python递归生成全排列序列实操

    这篇文章主要介绍了Python递归生成全排列序列实操,文章给予Python递归的相关资料展开对全排列序列的实现介绍,需要的小伙伴可以参考一下
    2022-04-04
  • 在Python的Tornado框架中实现简单的在线代理的教程

    在Python的Tornado框架中实现简单的在线代理的教程

    这篇文章主要介绍了在Python的Tornado框架中实现简单的在线代理的教程,代理功能是一个常见的网络编程实现,需要的朋友可以参考下
    2015-05-05
  • 利用Python绘画双摆操作分享

    利用Python绘画双摆操作分享

    这篇文章主要介绍了利用Python画双摆,绘画双摆的过程主要包括以下步骤,双摆问题、运动过程及公式推导过程,下文详细介绍,需要的小伙伴可以参考一下
    2022-04-04
  • Python实现栈的方法

    Python实现栈的方法

    这篇文章主要介绍了Python实现栈的方法,实例分析了Python实现栈的相关技巧,具有一定参考借鉴价值,需要的朋友可以参考下
    2015-05-05
  • Python使用docx模块处理word文档流程详解

    Python使用docx模块处理word文档流程详解

    这篇文章主要介绍了Python使用docx模块处理word文档流程,docx模块是用于创建和更新Microsoft Word文件的Python库,用于办公可以显著提升工作效率,感兴趣的同学可以参考下文
    2023-05-05
  • 基于django和dropzone.js实现上传文件

    基于django和dropzone.js实现上传文件

    这篇文章主要介绍了基于django和dropzone.js实现上传文件,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-11-11
  • Python中unittest用法实例

    Python中unittest用法实例

    这篇文章主要介绍了Python中unittest用法,较为详细的讲述了unittest中相关函数的用法及完整实例,需要的朋友可以参考下
    2014-09-09
  • python3连接MySQL数据库实例详解

    python3连接MySQL数据库实例详解

    这篇文章主要为大家详细介绍了python3连接MySQL数据库实例,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-05-05
  • Python Matplotlib 实现3D绘图详解

    Python Matplotlib 实现3D绘图详解

    Matplotlib在二维绘图的基础上,构建了一部分较为实用的3D绘图程序包。本文将为大家详细介绍通过调用该程序包接口绘制 3D散点图、3D曲面图、3D线框图。感兴趣的同学可以了解一下
    2021-11-11
  • python 编码中为什么要写类型注解?

    python 编码中为什么要写类型注解?

    这篇文章主要介绍了python 编码中为什么要写类型注解,帮助大家更好的理解和学习使用python,感兴趣的朋友可以了解下
    2021-03-03

最新评论