TensorFlow2中提供的几种处理特征列的方法小结

 更新时间:2023年09月14日 09:34:11   作者:镰刀韭菜  
本文主要介绍了TensorFlow2中提供的几种处理特征列的方法小结,主要介绍了6种方式,具有一定的参考价值,感兴趣的可以了解一下

TensorFlow 2 提供了多种处理特征列的方法,用于对数据进行转换,然后把转换后的数据传入TensorFlow的layers.DenseFeatures层,并将该层作为神经网络的输入层。

1. 处理数值列

一个特征列的输出将成为模型的输入。 数值列(numeric column) 是最简单的列类型。它用于表示实数特征。使用此列时,模型将从 dataframe 中接收未更改的列值。
用法示例:

photo_count = feature_column.numeric_column('PhotoAmt')
demo(photo_count)

2. 对数值列进行分桶(或分段)

通常,如果不希望将数字直接输入模型,而是根据数值范围将其值分成不同的类别。例如,考虑代表一个人年龄的原始数据。我们可以用 分桶列(bucketized column)将年龄分成几个分桶(buckets),而不是将年龄表示成数值列。请注意下面的 one-hot 数值表示每行匹配的年龄范围。
用法示例:

age = feature_column.numeric_column('Age')
age_buckets = feature_column.bucketized_column(age, boundaries=[1, 3, 5])
demo(age_buckets)

3. 处理分类列

在数据集中,如果分类列用字符串表示(例如 ‘fixed’,‘normal’,或 ‘reversible’)。我们无法直接将字符串提供给模型。相反,我们必须首先将它们映射到数值。分类词汇列(categorical vocabulary columns)提供了一种用 one-hot 向量表示字符串的方法。词汇表可以用 categorical_column_with_vocabulary_list 作为 list 传递,或者用 categorical_column_with_vocabulary_file 从文件中加载。

用法示例:

# 把分类字段转换为分类列(categorical_column)
animal_type = feature_column.categorical_column_with_vocabulary_list('Type', ['Cat', 'Dog'])
# 把分类列(categorical_column)转换为独热编码
animal_type_one_hot = feature_column.indicator_column(animal_type)
demo(animal_type_one_hot)

4. 使用Embedding处理分类列

假设我们不是只有几个可能的字符串,而是每个类别有数千(或更多)值。 由于多种原因,随着类别数量的增加,使用 one-hot 编码训练神经网络变得不可行。我们可以使用嵌入列来克服此限制。嵌入列(embedding column)将数据表示为一个低维度密集向量,而非多维的 one-hot 向量,该低维度密集向量可以包含任何数,而不仅仅是 0 或 1。嵌入的大小(在下面的示例中为 8)是必须调整的参数。

关键点:当分类列具有许多可能的值时,最好使用嵌入列。

用法示例:

# Notice the input to the embedding column is the categorical column we previously created
breed1 = feature_column.categorical_column_with_vocabulary_list('Breed1', dataframe.Breed1.unique())
breed1_embedding = feature_column.embedding_column(breed1, dimension=8)
demo(breed1_embedding)

5. 经过哈希处理的特征列

表示具有大量数值的分类列的另一种方法是使用 categorical_column_with_hash_bucket。该特征列计算输入的一个哈希值,然后选择一个 hash_bucket_size 分桶来编码字符串。使用此列时,您不需要提供词汇表,并且可以选择使 hash_buckets 的数量远远小于实际类别的数量以节省空间。

关键点:该技术的一个重要缺点是可能存在冲突,不同的字符串被映射到同一个范围。实际上,无论如何,经过哈希处理的特征列对某些数据集都有效。
用法示例:

breed1_hashed = feature_column.categorical_column_with_hash_bucket('Breed1', hash_bucket_size=10)
demo(feature_column.indicator_column(breed1_hashed))

6. 使用组合的特征列

将多种特征组合到一个特征中,称为特征组合(feature crosses),它让模型能够为每种特征组合学习单独的权重。这里,我们将创建一个 age 和 thal 组合的新特征。请注意,crossed_column 不会构建所有可能组合的完整列表(可能非常大)。相反,它由 hashed_column 支持,因此可以选择表的大小。
用法示例

crossed_feature = feature_column.crossed_column([age_buckets, animal_type], hash_bucket_size=10)
demo(feature_column.indicator_column(crossed_feature))

经过前面这些方法预处理之后,可以把它们拼接起来一起作为神经网络的输入层。

到此这篇关于TensorFlow2中提供的几种处理特征列的方法小结的文章就介绍到这了,更多相关TensorFlow2 处理特征列内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • Python自动化之批量处理工作簿和工作表

    Python自动化之批量处理工作簿和工作表

    今天给大家整理了如何使用Python实现批量处理工作簿和工作表,文中有非常详细的介绍及代码示例,对小伙伴们很有帮助,需要的朋友可以参考下
    2021-06-06
  • Python实现模拟登录及表单提交的方法

    Python实现模拟登录及表单提交的方法

    这篇文章主要介绍了Python实现模拟登录及表单提交的方法,涉及Python正则匹配、cookie及URL操作的相关技巧,具有一定参考借鉴价值,需要的朋友可以参考下
    2015-07-07
  • 在Python中使用M2Crypto模块实现AES加密的教程

    在Python中使用M2Crypto模块实现AES加密的教程

    这篇文章主要介绍了在Python中使用M2Crypto模块实现AES加密的教程,例子中的方法使用aes_128_ecb算法,需要的朋友可以参考下
    2015-04-04
  • Python新手入门最容易犯的错误总结

    Python新手入门最容易犯的错误总结

    这篇文章主要总结了一些关于Python新手入门最容易犯的错误,希望通过学习本文总结的十二点易犯错误点,能够给新手们带来一定的帮助,需要的朋友可以参考学习,下面来一起看看吧。
    2017-04-04
  • 基于深度学习和OpenCV实现目标检测

    基于深度学习和OpenCV实现目标检测

    这篇文章主要介绍了通过使用OpenCV进行基于深度学习的对象检测以及使用OpenCV检测视频,文中的示例代码讲解详细,需要的可以参考一下
    2021-12-12
  • 详解Python+Turtle绘制奥运标志的实现

    详解Python+Turtle绘制奥运标志的实现

    turtle库是Python标准库之一,是入门级的图形绘制函数库。本文就将利用turtle库绘制一个奥运标志—奥运五环,感兴趣的可以学习一下
    2022-02-02
  • Python实现的手机号归属地相关信息查询功能示例

    Python实现的手机号归属地相关信息查询功能示例

    这篇文章主要介绍了Python实现的手机号归属地相关信息查询功能,涉及Python文件读取及基于第三方接口调用查询信息的相关操作技巧,需要的朋友可以参考下
    2017-06-06
  • pandas中.loc和.iloc以及.at和.iat的区别说明

    pandas中.loc和.iloc以及.at和.iat的区别说明

    这篇文章主要介绍了pandas中.loc和.iloc以及.at和.iat的区别说明,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-04-04
  • python分数实例用法

    python分数实例用法

    在本篇文章里小编给大家整理的是一篇关于python分数实例用法的相关内容,有兴趣的朋友们可以学习下。
    2021-04-04
  • 详解Python使用tensorflow入门指南

    详解Python使用tensorflow入门指南

    本篇文章主要介绍了详解Python使用tensorflow入门指南,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-02-02

最新评论