数据的特征抽取

现实世界中多数特征都不是连续变量，比如分类、文字、图像等，为了对非连续变量做特征表述，需要对这些特征做数学化表述，因此就用到了特征提取. sklearn.feature_extraction提供了特征提取的很多方法

分类特征变量提取

我们将城市和环境作为字典数据，来进行特征的提取。

sklearn.feature_extraction.DictVectorizer(sparse = True)

将映射列表转换为Numpy数组或scipy.sparse矩阵

sparse 是否转换为scipy.sparse矩阵表示，默认开启

方法

fit_transform(X,y)

应用并转化映射列表X，y为目标类型

inverse_transform(X[, dict_type])

将Numpy数组或scipy.sparse矩阵转换为映射列表

from sklearn.feature_extraction import DictVectorizer
onehot = DictVectorizer() # 如果结果不用toarray，请开启sparse=False
instances = [{'city': '北京','temperature':100},{'city': '上海','temperature':60}, {'city': '深圳','temperature':30}]
X = onehot.fit_transform(instances).toarray()
print(onehot.inverse_transform(X))

文本特征提取（只限于英文）

文本的特征提取应用于很多方面，比如说文档分类、垃圾邮件分类和新闻分类。那么文本分类是通过词是否存在、以及词的概率（重要性）来表示。

(1)文档的中词的出现

数值为1表示词表中的这个词出现，为0表示未出现

sklearn.feature_extraction.text.CountVectorizer()

将文本文档的集合转换为计数矩阵（scipy.sparse matrices）

方法

fit_transform(raw_documents,y)

学习词汇词典并返回词汇文档矩阵

from sklearn.feature_extraction.text import CountVectorizer
content = ["life is short,i like python","life is too long,i dislike python"]
vectorizer = CountVectorizer()
print(vectorizer.fit_transform(content).toarray())

需要toarray()方法转变为numpy的数组形式

温馨提示：每个文档中的词，只是整个语料库中所有词，的很小的一部分，这样造成特征向量的稀疏性（很多值为0）为了解决存储和运算速度的问题，使用Python的scipy.sparse矩阵结构

(2)TF-IDF表示词的重要性

TfidfVectorizer会根据指定的公式将文档中的词转换为概率表示。（朴素贝叶斯介绍详细的用法）

class sklearn.feature_extraction.text.TfidfVectorizer()

方法

fit_transform(raw_documents,y)

学习词汇和idf，返回术语文档矩阵。

from sklearn.feature_extraction.text import TfidfVectorizer
content = ["life is short,i like python","life is too long,i dislike python"]
vectorizer = TfidfVectorizer(stop_words='english')
print(vectorizer.fit_transform(content).toarray())
print(vectorizer.vocabulary_)

数据的特征抽取

分类特征变量提取

In [ ]:

# 导入DictVectorizer类
from sklearn.feature_extraction import DictVectorizer

# 1.实例化
# 如果结果不用toarray，请开启sparse=False
dcitvec = DictVectorizer(sparse=True)
# 准备特征值化的字典,放在一个列表中
dict = [{'city': '北京','temperature':100},{'city': '上海','temperature':60}, {'city': '深圳','temperature':30}]
# 抽取特征
sparse = dcitvec.fit_transform(dict)
print(sparse)
  (0, 1)	1.0
  (0, 3)	100.0
  (1, 0)	1.0
  (1, 3)	60.0
  (2, 2)	1.0
  (2, 3)	30.0

In [ ]:

# 1.实例化
# 如果结果不用toarray，请开启sparse=False
dcitvec = DictVectorizer(sparse=False)
# 准备特征值化的字典,放在一个列表中
dict = [{'city': '北京', 'temperature': 100}, {'city': '上海',
                                             'temperature': 60}, {'city': '深圳', 'temperature': 30}]
# 2.抽取特征
feature = dcitvec.fit_transform(dict)
feature

Out[ ]:

array([[  0.,   1.,   0., 100.],
       [  1.,   0.,   0.,  60.],
       [  0.,   0.,   1.,  30.]])

In [ ]:

# 获取列别名称
dcitvec.get_feature_names()

Out[ ]:

['city=上海', 'city=北京', 'city=深圳', 'temperature']

In [ ]:

# 将抽取的特征数组转换成列表
dcitvec.inverse_transform(feature)

Out[ ]:

[{'city=北京': 1.0, 'temperature': 100.0},
 {'city=上海': 1.0, 'temperature': 60.0},
 {'city=深圳': 1.0, 'temperature': 30.0}]

文本特征提取

计数方法

In [ ]:

# 导入CountVectorizer
from sklearn.feature_extraction.text import CountVectorizer
# 1.实例化
countvec = CountVectorizer()
# 准备特征值化的文本，放在一个列表中
text = "life is short,i like python","life is too long,i dislike python"
# 2.抽取特征
feature = countvec.fit_transform(text).toarray()
feature

Out[ ]:

array([[0, 1, 1, 1, 0, 1, 1, 0],
       [1, 1, 1, 0, 1, 1, 0, 1]], dtype=int64)

In [ ]:

# 获取特证值的名称
countvec.get_feature_names()

Out[ ]:

['dislike', 'is', 'life', 'like', 'long', 'python', 'short', 'too']

In [ ]:

# 将抽取的特征数组转换成列表
countvec.inverse_transform(feature)

Out[ ]:

[array(['is', 'life', 'like', 'python', 'short'], dtype='<U7'),
 array(['dislike', 'is', 'life', 'long', 'python', 'too'], dtype='<U7')]

权重方法

In [ ]:

# 导入
from sklearn.feature_extraction.text import TfidfVectorizer
# 1. 实例化
tfid = TfidfVectorizer()
# 2. 抽取特征值
feature = tfid.fit_transform(text).toarray()
feature

Out[ ]:

array([[0.        , 0.37930349, 0.37930349, 0.53309782, 0.        ,
        0.37930349, 0.53309782, 0.        ],
       [0.47042643, 0.33471228, 0.33471228, 0.        , 0.47042643,
        0.33471228, 0.        , 0.47042643]])

In [ ]:

# 获取特证值的名称
tfid.get_feature_names()

Out[ ]:

['dislike', 'is', 'life', 'like', 'long', 'python', 'short', 'too']

In [ ]:

#将抽取的特征数组转换成列表
tfid.inverse_transform(feature)

Out[ ]:

[array(['is', 'life', 'like', 'python', 'short'], dtype='<U7'),
 array(['dislike', 'is', 'life', 'long', 'python', 'too'], dtype='<U7')]

机器学习基础01DAY

数据的特征抽取

分类特征变量提取

方法

文本特征提取（只限于英文）

方法

方法

数据的特征抽取

分类特征变量提取

文本特征提取

计数方法

权重方法

RHCE服务---Web

《痞子衡嵌入式半月刊》第 74 期

发表评论点击这里取消回复。

猜你喜欢

Python 中连接MSSQL,MySQL,SQLite,Redis,ElasticSearch,Mongodb,PostgreSQL,Oracle,RabbitMQ

原来Python安装那么简单，只用两步就可以了

实现无限存储：基于JuiceFS 创建 Samba 和 NFS 共享

【pytorch】torch.clip() & torch.clamp() 数值裁剪

【Java监控】使用SkyWalking监控Java服务

odoo ORM API学习总结兼orm学习教程

【绩效季】遇到一个好领导有多重要，从被打差绩效到收获成长

【单片机入门】(四)应用层软件开发的单片机学习之路—–ESP32开发板PWM控制电机以及中断的使用

redis—面经

基于AI模型的验证码安全识别(B站，知乎等)

热门浏览

java 答案判题程序

基于阿里云、七牛云、宝塔面板，从零开始用Halo搭建个人博客网站

博客添加评论功能及定制化样式

MySQL 8.026 下载及安装教程-Windows 10系统环境

【注意】当同一个Class的多个对象出现在同一段代码内的时候，极易出错。

热评文章

数据分析的利器，Pandas 软件包详解与应用示例

用Vue仿了一个类似抖音的App

Jetpack Compose(4)——重组

Jetpack Compose(5)——生命周期与副作用函数

SpringSecurity认证和授权流程详解

热门标签

机器学习基础01DAY

数据的特征抽取

分类特征变量提取

方法

文本特征提取（只限于英文）

方法

方法

数据的特征抽取

分类特征变量提取

文本特征提取

计数方法

权重方法

RHCE服务---Web

《痞子衡嵌入式半月刊》 第 74 期

猜你喜欢

你能看到这个汉字么“  ” ？关于Unicode的私人使用区(PUA) 和浏览器端显示处理

WinForm RichTextBox 加载大量文本卡死和UTF-8乱码问题

.net 温故知新【12】：Asp.Net Core WebAPI 中的Rest风格

一文搞懂Git，掌握日常命令和基本操作

.net 温故知新【11】：Asp.Net Core WebAPI 入门使用及介绍

MagickImage 压缩图片，JPEG2000压缩方式

发表评论 点击这里取消回复。

猜你喜欢

Python 中连接MSSQL,MySQL,SQLite,Redis,ElasticSearch,Mongodb,PostgreSQL,Oracle,RabbitMQ

热门浏览

java 答案判题程序

基于阿里云、七牛云、宝塔面板，从零开始用Halo搭建个人博客网站

博客添加评论功能及定制化样式

MySQL 8.026 下载及安装教程-Windows 10系统环境

【注意】当同一个Class的多个对象出现在同一段代码内的时候，极易出错。

热评文章

数据分析的利器，Pandas 软件包详解与应用示例

用Vue仿了一个类似抖音的App

Jetpack Compose(4)——重组

Jetpack Compose(5)——生命周期与副作用函数

SpringSecurity认证和授权流程详解

热门标签

关注我们的公众号

《痞子衡嵌入式半月刊》第 74 期

发表评论点击这里取消回复。