[ML] Feature Selectors

SparkML中关于特征的算法可分为：Extractors（特征提取）、Transformers（特征转换）、Selectors（特征选择）三部分。

Ref: SparkML中三种特征选择算法（VectorSlicer/RFormula/ChiSqSelector）

一、代码示范

VectorSlicer 只是根据index而“手动指定特征”的手段，不是特征选择的依据。

RFormula 也只是根据column而“手动指定特征”的手段，不是特征选择的依据。

VectorSlicer
from pyspark.ml.feature import VectorSlicer

from pyspark.ml.linalg import Vectors

from pyspark.sql.types import Row

df = spark.createDataFrame([

    Row(userFeatures=Vectors.sparse(3, {0: -2.0, 1: 2.3})),

    Row(userFeatures=Vectors.dense([-2.0, 2.3, 0.0]))])

df.show()

+--------------------+

|        userFeatures|

+--------------------+

|(3,[0,1],[-2.0,2.3])|

|      [-2.0,2.3,0.0]|

+--------------------+

slicer = VectorSlicer(inputCol="userFeatures", outputCol="features", indices=[1])

output = slicer.transform(df)

output.select("userFeatures", "features").show()

+--------------------+-------------+

|        userFeatures|     features|

+--------------------+-------------+

|(3,[0,1],[-2.0,2.3])|(1,[0],[2.3])|

|      [-2.0,2.3,0.0]|        [2.3]|

+--------------------+-------------+

RFormula
from pyspark.ml.feature import RFormula

dataset = spark.createDataFrame(

    [(7, "US", 18, 1.0),

     (8, "CA", 12, 0.0),

     (9, "NZ", 15, 0.0)],

    ["id", "country", "hour", "clicked"])

formula = RFormula(

    formula="clicked ~ country + hour",　　# 指定使用两个特征，country特征会自动采用one hot编码。

    featuresCol="features",

    labelCol="label")

output = formula.fit(dataset).transform(dataset)

output.select("features", "label").show()

+--------------+-----+

|      features|label|

+--------------+-----+

|[0.0,0.0,18.0]|  1.0|

|[0.0,1.0,12.0]|  0.0|

|[1.0,0.0,15.0]|  0.0|

+--------------+-----+

ChiSqSelector
from pyspark.ml.feature import ChiSqSelector

from pyspark.ml.linalg import Vectors

df = spark.createDataFrame([

    (7, Vectors.dense([0.0, 0.0, 18.0, 1.0]), 1.0,),

    (8, Vectors.dense([0.0, 1.0, 12.0, 0.0]), 0.0,),

    (9, Vectors.dense([1.0, 0.0, 15.0, 0.1]), 0.0,)], ["id", "features", "clicked"])

selector = ChiSqSelector(numTopFeatures=1, featuresCol="features",

                         outputCol="selectedFeatures", labelCol="clicked")

result = selector.fit(df).transform(df)

print("ChiSqSelector output with top %d features selected" % selector.getNumTopFeatures())

result.show()

ChiSqSelector output with top 1 features selected

+---+------------------+-------+----------------+

| id|          features|clicked|selectedFeatures|

+---+------------------+-------+----------------+

|  7|[0.0,0.0,18.0,1.0]|    1.0|          [18.0]|

|  8|[0.0,1.0,12.0,0.0]|    0.0|          [12.0]|

|  9|[1.0,0.0,15.0,0.1]|    0.0|          [15.0]|

+---+------------------+-------+----------------+

二、实践心得

参考：[Feature] Feature selection

Outline

3.1 Filter

3.1.1 方差选择法

3.1.2 相关系数法

3.1.3 卡方检验　　　　# <---- ChiSqSelector

3.1.4 互信息法

3.2 Wrapper

3.2.1 递归特征消除法

3.3 Embedded

3.3.1 基于惩罚项的特征选择法

3.3.2 基于树模型的特征选择法

三、Embedded

Ref: [Feature] Feature selection - Embedded topic

问题，spark.ml可以lasso线性回归么？2.4.4貌似没有，但mllib里有，功能完善度不是很满意。

classification (SVMs, logistic regression)

linear regression (least squares, Lasso, ridge)

后者采样后，使用sklearn处理画出"轨迹图"。

使用Spark SQL在DataFrame中采样构成子数据集的过程。

End.

[ML] Feature Selectors的更多相关文章

[ML] Feature Transformers
方案选择可参考:[Scikit-learn] 4.3 Preprocessing data 代码示范可参考:[ML] Pyspark ML tutorial for beginners 本篇涉及:Fe ...
Spark.ML之PipeLine学习笔记
地址: http://spark.apache.org/docs/2.0.0/ml-pipeline.html Spark PipeLine 是基于DataFrames的高层的API,可以方便用户 ...
Add AI feature to Xamarin.Forms app
Now, AI is one of important technologies.Almost all platforms have API sets of AI. Following list is ...
spark ML pipeline 学习
一.pipeline 一个典型的机器学习过程从数据收集开始,要经历多个步骤,才能得到需要的输出.这非常类似于流水线式工作,即通常会包含源数据ETL(抽取.转化.加载),数据预处理,指标提取,模型训练与 ...
Spark ML机器学习
Spark提供了常用机器学习算法的实现, 封装于spark.ml和spark.mllib中. spark.mllib是基于RDD的机器学习库, spark.ml是基于DataFrame的机器学习库. ...
Spark ML 几种归一化(规范化)方法总结
规范化,有关之前都是用 python写的, 偶然要用scala 进行写, 看到这位大神写的, 那个网页也不错,那个连接图做的还蛮不错的,那天也将自己的博客弄一下那个插件. 本文来源原文地址:htt ...
Spark2 ML包之决策树分类Decision tree classifier详细解说
所用数据源,请参考本人博客http://www.cnblogs.com/wwxbi/p/6063613.html 1.导入包 import org.apache.spark.sql.SparkSess ...
基于Spark ML的Titanic Challenge (Top 6%)
下面代码按照之前参加Kaggle的python代码改写,只完成了模型的训练过程,还需要对test集的数据进行转换和对test集进行预测. scala 2.11.12 spark 2.2.2 packa ...
ML学习笔记之TF-IDF原理及使用
0x00 什么是TF-IDF TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率). # 是一种用于资讯检索与资讯探勘的常用加权技术. ...

随机推荐

04_Redis_Hash命令
一:Redis 哈希(Hash) 1.1:Redis hash 是一个string类型的field和value的映射表,hash特别适合用于存储对象. 1.2:Redis 中每个 hash 可以存储 ...
[Abp vNext微服务实践] - vue-element-admin管理Identity
一.简介 abp vNext微服务框架中已经提供通用权限和用户角色管理模块,管理UI使用的是MVC模式,不适用于国内主打的MVVM开发模式.在前端框架选型后笔者决定改造abp vNext微服务框架中原 ...
SQLite3学习笔记(2)
SQLite 创建表 SQLite 的CREATE TABLE 语句用于在任何指定的数据库创建一个新表. 创建新表,涉及到命名表.定义列及每一行的数据类型. CREATE TABLE 的基本语法如 ...
python+Appium自动化：yaml配置capability
场景学习了yaml之后就是要将capability的各项参数值与代码分离开. 先创建一个capability.yaml文件,把各项参数存放在其中,然后用load()进行读取. 例子: capabil ...
洛谷P3600随机数生成器——期望+DP
原题链接写到一半发现写不下去了... 所以orz xyz32768,您去看这篇题解吧,思路很清晰,我之前写的胡言乱语与之差距不啻天渊 #include <algorithm> #incl ...
vue_03 练习
1.有以下广告数据(实际数据命名可以略做调整) ad_data = { tv: [ {img: 'img/tv/001.png', title: 'tv1'}, {img: 'img/tv/002.p ...
C语言--变量
unsigned int 和 int 对计算机来讲没有区别, 只有在输出的时候, 计算机根据%d 和 %u 判断是否有符号位. %d 输出有符号的整数, %u 输出无符号整数. 无符号的整数比有符号的 ...
asp.net上传大文件的解决方案
IE的自带下载功能中没有断点续传功能,要实现断点续传功能,需要用到HTTP协议中鲜为人知的几个响应头和请求头. 一. 两个必要响应头Accept-Ranges.ETag 客户端每次提交下载请求时,服务 ...
java new一个对象的过程中发生了什么
java在new一个对象的时候,会先查看对象所属的类有没有被加载到内存,如果没有的话,就会先通过类的全限定名来加载.加载并初始化类完成后,再进行对象的创建工作. 我们先假设是第一次使用该类,这样的话n ...
mac使用brew安装mysql报RROR 2002 (HY000): Can't connect to local MySQL server through socket '/tmp/mysql.sock' (2)
使用mac安装mysql安装完后运行 mysql -uroot -p 报了 ERROR 2002 (HY000): Can't connect to local MySQL server throug ...