数据特征处理之特征哈希（Feature Hashing）

一、特征哈希（Feature Hashing/Hashing Trick）简介

大多数机器学习算法的输入要求都是实数矩阵，将原始数据转换成实数矩阵就是所谓的特征工程（Feature Engineering），而特征哈希（feature hashing，也称哈希技巧，hashing trick）就是一种特征工程技术。它的目标就是将一个数据点转换成一个向量。

我们先看一下对分类数据（categorical data）和文本数据（text data）进行特征工程处理的一般方法。

分类变量（category variable）就是一组有有限值（finite number of values）的变量。如身份证号、广告类别等。最常见的对分类变量的处理是使用独热模型（one-hot encoding）：创建$N$个二元变量，其中$N$是该分类变量所有可能的取值数量。

而对于文本数据的特征处理，最简单的方法是词袋模型（bag-of-word model）：创建$N$个二元变量，其中N是词汇的数量（即不同单词的数量）。对于每个文档来说，创建一个$N$维向量，文档中包含的某个词汇的数量即是这个向量中词汇对应的索引的值。

可以看到，这两种方法非常类似，都创建了高维稀疏的矩阵。而特征哈希是以哈希表（hash table）的方式来实现这两种转换方法。下面简要介绍一下哈希表。

二、哈希表（Hash Table）

哈希表是一种数据结构，它是根据键值（key）来直接访问内存存储位置的数据结构。每个哈希表都是用一个哈希函数（也叫散列函数，hash function）来实现键-值（key-value）对的映射。这种函数可以将任何一种数据或者消息压缩成摘要（即散列值），使得其数据量变小且格式固定。理想的散列函数会把不同的键散列到不同的块中，但是大多数哈希表都存在哈希碰撞（hashing collision）的可能，即不同的键可能会被映射到相同的值上（后面会解释，这一点不影响机器学习模型的效果）。

在运用哈希表的时候，通常我们需要定义输出的范围，例如假设我们希望将输出范围定义在0-N之间，那么我们就可以使用一个函数，可以将输入数据散列到[0,n-1]之间即可。假设我们创建如下的哈希函数，可以将单词映射成五种类别，即0-4索引：

数据特征处理之特征哈希（Feature Hashing）

一、特征哈希（Feature Hashing/Hashing Trick）简介

二、哈希表（Hash Table）

DataLearner 官方微信

三、简单的案例

特征哈希的使用技巧

热门博客