pandas数据集的端到端处理

更新时间：2019年02月18日 16:16:41 作者：Inside_Zhang

今天小编就为大家分享一篇关于pandas数据集的端到端处理，小编觉得内容挺不错的，现在分享给大家，具有很好的参考价值，需要的朋友一起跟随小编来看看吧

1. 数据集基本信息

df = pd.read_csv()

df.head()：前五行；

df.info()：

rangeindex：行索引；
data columns：列索引；
dtypes：各个列的类型，
主体部分是各个列值的情况，比如可判断是否存在 NaN 值；

对于非数值型的属性列

df[‘some_categorical_columns'].value_counts()：取值分布；

df.describe()：各个列的基本统计信息

count
mean
std
min/max
25%, 50%, 75%：分位数

df.hist(bins=50, figsize=(20, 15))：统计直方图；

对 df 的每一列进行展示：

train_prices = pd.DataFrame({'price': train_df.SalePrice, 
    'log(price+1)': np.log1p(train_df.SalePrice)})
 # train_prices 共两列，一列列名为 price，一列列名为 log(price+1)
train_prices.hist()

2. 数据集拆分

def split_train_test(data, test_ratio=.3):
 shuffled_indices = np.random.permutation(len(data))
 test_size = int(len(data)*test_ratio)
 test_indices = shuffled_indices[:test_size]
 train_indices = shuffled_indices[test_size:]
 return data.iloc[train_indices], data.iloc[test_indices]

3. 数据预处理

一键把 categorical 型特征（字符串类型）转化为数值型：

>> df['label'] = pd.Categorical(df['label']).codes

一键把 categorical 型特征（字符串类型）转化为 one-hot 编码：

>> df = pd.get_dummies(df)

null 值统计与填充：

>> df.isnull().sum().sort_values(ascending=False).head()
# 填充为 mean 值
>> mean_cols = df.mean()
>> df = df.fillna(mean_cols)
>> df.isnull().sum().sum()
0

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，谢谢大家对脚本之家的支持。如果你想了解更多相关内容请查看下面相关链接

您可能感兴趣的文章:

基于ID3决策树算法的实现(Python版)
下面小编就为大家带来一篇基于ID3决策树算法的实现(Python版)。小编觉得挺不错的，现在就分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2017-05-05
Python利用matplotlib绘制圆环图(环形图)的实战案例
环形图也被称为圆环图,它在功能上与饼图相同,只是中间有一个空白,并且能够同时支持多个统计数据,下面这篇文章主要给大家介绍了关于Python利用matplotlib绘制圆环图的实战案例,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
2022-08-08
Python super( )函数用法总结
今天给大家带来的知识是关于Python的相关知识,文章围绕着super( )函数展开,文中有非常详细的介绍及代码示例,需要的朋友可以参考下
2021-06-06
对dataframe进行列相加,行相加的实例
今天小编就为大家分享一篇对dataframe进行列相加,行相加的实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-06-06
Python爬取你好李焕英豆瓣短评生成词云的示例代码
这篇文章主要介绍了Python爬取你好李焕英豆瓣短评生成词云,本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2021-02-02
python中nan与inf转为特定数字方法示例
这篇文章主要给大家介绍了将python中nan与inf转为特定数字的方法，文中给出了详细的示例代码和运行结果，对大家的理解和学习具有一定的参考学习价值，需要的朋友们下面来一起看看吧。
2017-05-05
python 第三方库的安装及pip的使用详解
下面小编就为大家带来一篇python 第三方库的安装及pip的使用详解。小编觉得挺不错的，现在就分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2017-05-05
人工智能学习pyTorch自建数据集及可视化结果实现过程
这篇文章主要为大家介绍了人工智能学习pyTorch自建数据集及可视化结果的实现过程，有需要的朋友可以借鉴参考下，希望能够有所帮助
2021-11-11
Python中三元运算符的简洁性及多用途实例探究
这篇文章主要为大家介绍了Python中三元运算符的简洁性及多用途实例探究,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
2024-01-01
闭包在python中的应用之translate和maketrans用法详解
这篇文章主要介绍了闭包在python中的应用之translate和maketrans用法,是比较实用的技巧,需要的朋友可以参考下
2014-08-08

pandas数据集的端到端处理

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具