Spark2.0 特征提取、转换、选择之一：数据规范化，String-Index、离散-连续特征相互转换

【Spark2.0 特征提取、转换、选择之一：数据规范化，String-Index、离散-连续特征相互转换】的更多相关文章

Spark2.0 特征提取、转换、选择之一：数据规范化，String-Index、离散-连续特征相互转换

数据规范化(标准化) 在数据预处理时,这两个术语可以互换使用.(不考虑标准化在统计学中有特定的含义). 下面所有的规范化操作都是针对一个特征向量(dataFrame中的一个colum)来操作的. 首先举一个例子: //MaxAbsScaler例子(参考后面MaxAbsScaler部分) //例子:对特征0,特征1,特征2,分别进行缩放,使得值为[-1,1] //例如特征0,其特征向量为[1000,100,-10] absMax=1000,因此缩放为[1.0,0.1,-0.01] +-----+-…

Spark2.0 特征提取、转换、选择之二：特征选择、文本处理，以中文自然语言处理(情感分类)为例

特征选择 RFormula RFormula是一个很方便,也很强大的Feature选择(自由组合的)工具. 输入string 进行独热编码(见下面例子country) 输入数值型转换为double(见下面例子hour) label为string,也用StringIndexer进行编号 RFormula produces a vector column of features and a double or string column of label. Like when formulas ar…

Spark2.0机器学习系列之1：聚类算法(LDA）

在Spark2.0版本中(不是基于RDD API的MLlib),共有四种聚类方法: (1)K-means (2)Latent Dirichlet allocation (LDA) (3)Bisecting k-means(二分k均值算法) (4)Gaussian Mixture Model (GMM) 基于RDD API的MLLib中,共有六种聚类方法: (1)K-means (2)Gaussian mixture …

Spark2.0机器学习系列之2：基于Pipeline、交叉验证、ParamMap的模型选择和超参数调优

Spark中的CrossValidation Spark中采用是k折交叉验证 (k-fold cross validation).举个例子,例如10折交叉验证(10-fold cross validation),将数据集分成10份,轮流将其中9份做训练1份做验证,10次的结果的均值作为对算法精度的估计. 10折交叉检验最常见,是因为通过利用大量数据集.使用不同学习技术进行的大量试验,表明10折是获得最好误差估计的恰当选择,而且也有一些理论根据可以证明这一点.但这并非最终结论,争议仍然存在.而且似…

图文解析Spark2.0核心技术(转载)

导语 Spark2.0于2016-07-27正式发布,伴随着更简单.更快速.更智慧的新特性,spark 已经逐步替代 hadoop 在大数据中的地位,成为大数据处理的主流标准.本文主要以代码和绘图的方式结合,对运行架构.RDD 的实现.spark 作业原理.Sort-Based Shuffle 的存储原理. Standalone 模式 HA 机制进行解析. 1.运行架构 Spark支持多种运行模式.单机部署下,既可以用本地(Local)模式运行,也可以使用伪分布式模式来运行:当以分布式集群部署的…

Spark2.0机器学习系列之5：随机森林

概述随机森林是决策树的组合算法,基础是决策树,关于决策树和Spark2.0中的代码设计可以参考本人另外一篇博客: http://www.cnblogs.com/itboys/p/8312894.html随机森林Spark中基于Pipeline和DataFrame的代码编写和决策树基本上是一样的,只需要将classifer换一下可以了,其它部分是一模一样的,因此本文不再对代码进行注释分析. 随机森林模型可以快速地被应用到几乎任何的数据科学问题中去,从而使人们能够高效快捷地获得第一组基准测试结果.…

Spark2.0机器学习系列之3：决策树

概述分类决策树模型是一种描述对实例进行分类的树形结构. 决策树可以看为一个if-then规则集合,具有“互斥完备”性质 .决策树基本上都是采用的是贪心(即非回溯)的算法,自顶向下递归分治构造. 生成决策树一般包含三个步骤: 特征选择决策树生成剪枝决策树算法种类决策树主要有 ID3, C4.5, C5.0 and CART几种, ID3, C4.5, 和CART实际都采用的是贪心(即非回溯)的算法,自顶向下递归分治构造.对于每一个决策要求分成的组之间的“差异”最大.各种决策树算法之间…

初识Spark2.0之Spark SQL

内存计算平台spark在今年6月份的时候正式发布了spark2.0,相比上一版本的spark1.6版本,在内存优化,数据组织,流计算等方面都做出了较大的改变,同时更加注重基于DataFrame数据组织的MLlib,更加注重机器学习整个过程的管道化. 当然,作为使用者,特别是需要运用到线上的系统,大部分厂家还是会继续选择已经稳定的spark1.6版本,并且在spark2.0逐渐成熟之后才会开始考虑系统组件的升级.作为开发者,还是有必要先行一步,去了解spark2.0的一些特性和使用,及思考/借鉴一…

数据规范化——sklearn.preprocessing

sklearn实现---归类为5大类 sklearn.preprocessing.scale()(最常用,易受异常值影响) sklearn.preprocessing.StandardScaler() sklearn.preprocessing.minmax_scale()(一般缩放到[0,1]之间,若新数据集最大最小值范围有变,需重新minmax_scale) sklearn.preprocessing.MinMaxScaler() sklearn.preprocessing.maxabs_s…

学习Spark2.0中的Structured Streaming（一）

转载自:http://lxw1234.com/archives/2016/10/772.htm Spark2.0新增了Structured Streaming,它是基于SparkSQL构建的可扩展和容错的流式数据处理引擎,使得实时流式数据计算可以和离线计算采用相同的处理方式(DataFrame&SQL).Structured Streaming顾名思义,它将数据源和计算结果都映射成一张”结构化”的表,在计算的时候以结构化的方式去操作数据流,大大方便和提高了数据开发的效率. Spark2.0之前,…

Spark2.0机器学习系列之12：线性回归及L1、L2正则化区别与稀疏解

概述线性回归拟合一个因变量与一个自变量之间的线性关系y=f(x). Spark中实现了: (1)普通最小二乘法 (2)岭回归(L2正规化) (3)Lasso(L1正规化). (4)局部加权线性回归 (5)流式数据可以适用于线上的回归模型,每当有新数据达到时,更新模型的参数,MLlib目前使用普通的最小二乘支持流线性回归.除了每批数据到达时,模型更新最新的数据外,实际上与线下的执行是类似的. 本文采用的符号: 拟合函数 …

Spark2.0机器学习系列之9：聚类(k-means,Bisecting k-means,Streaming k-means）

在Spark2.0版本中(不是基于RDD API的MLlib),共有四种聚类方法: (1)K-means (2)Latent Dirichlet allocation (LDA) (3)Bisecting k-means(二分k均值算法) (4)Gaussian Mixture Model (GMM). 基于RDD API的MLLib中,共有六种聚类方法: (1)K-means (2)Gaussian mixture …

Spark2.0机器学习系列之7： MLPC（多层神经网络）

Spark2.0 MLPC(多层神经网络分类器)算法概述 MultilayerPerceptronClassifier(MLPC)这是一个基于前馈神经网络的分类器,它是一种在输入层与输出层之间含有一层或多层隐含结点的具有正向传播机制的神经网络模型. 中间的节点使用sigmoid (logistic)函数,输出层的节点使用softmax函数.输出层的节点的数目表示分类器有几类.MLPC学习过程中使用BP算法,优化问题抽象成logistic loss function并使用L-BFGS进行优化.…

Spark2.0机器学习系列之6：GBDT（梯度提升决策树）、GBDT与随机森林差异、参数调试及Scikit代码分析

概念梳理 GBDT的别称 GBDT(Gradient Boost Decision Tree),梯度提升决策树. GBDT这个算法还有一些其他的名字,比如说MART(Multiple Additive Regression Tree),GBRT(Gradient Boost Regression Tree),Tree Net等,其实它们都是一个东西(参考自wikipedia – Gradient Boosting),发明者是Friedman. 研究GBDT一定要看看Friedman的pa…

Spark2.0机器学习系列之4：Logistic回归及Binary分类（二分问题）结果评估

参数设置 α: 梯度上升算法迭代时候权重更新公式中包含 α : http://blog.csdn.net/lu597203933/article/details/38468303 为了更好理解 α和最大迭代次数的作用,给出Python版的函数计算过程. # 梯度上升算法-计算回归系数 # 每个回归系数初始化为1 # 重复R次: # 计算整个数据集的梯度 # 使用α*梯度更新回归系数的向量 # 返回回归系数 def gradAscent(dataMatIn, classLabels,alpha=…

spark2.0新特性之DataSet

1.Spark SQL,DataFrame,DataSet的错误类型检测时机 spark SQL:其类型检测与语法检测是在运行时检测的 DataFrame:在spark2.0以前的版本中,DataFrame是类型不安全的,其类型检查是在运行时才检查的,语法检查倒是在编译时检查的 DataSet:类型检测和语法检测是在编译时检测 2. DataSet的性能比RDD的性能更好,实现代码更简洁,且内存利用率更高通过统计单词的计数来举例: RDDs的实现(words的获取各自已经实现好了的) val…

【tensorflow2.0】处理结构化数据-titanic生存预测

1.准备数据 import numpy as np import pandas as pd import matplotlib.pyplot as plt import tensorflow as tf from tensorflow.keras import models,layers dftrain_raw = pd.read_csv('./data/titanic/train.csv') dftest_raw = pd.read_csv('./data/titanic/test.csv')…

ASP.NET MVC搭建项目后台UI框架—8、将View中选择的数据行中的部分数据传入到Controller中

目录 ASP.NET MVC搭建项目后台UI框架—1.后台主框架 ASP.NET MVC搭建项目后台UI框架—2.菜单特效 ASP.NET MVC搭建项目后台UI框架—3.面板折叠和展开 ASP.NET MVC搭建项目后台UI框架—4.tab多页签支持 ASP.NET MVC搭建项目后台UI框架—5.Demo演示Controller和View的交互 ASP.NET MVC搭建项目后台UI框架—6.客户管理(添加.修改.查询.分页) ASP.NET MVC搭建项目后台UI框架—7.统计报表 ASP…

Spark2.0自定义累加器

Spark2.0 自定义累加器在2.0中使用自定义累加器需要继承AccumulatorV2这个抽象类,同时必须对以下6个方法进行实现: 1.reset 方法: 将累加器进行重置; abstract defreset(): Unit Resets this accumulator, which is zero value. 2.add 方法: 向累加器中添加另一个值; abstract defadd(v: IN): Unit 3.merge方法: 合并另一个类型相同的累加器; abstract …

在Sqlserver下巧用行列转换日期的数据统计

在Sqlserver下巧用行列转换日期的数据统计前言在SQLSERVER 中有很多统计函数的基础语法,有使用Group By 或 partition by 后配合Sum,Count(*) 等用法.常应用于统计网站的PV流量.合同项目中月收入等业务场景中.在文中我分享下最近做过的统计小案例,和大家互相学习下:) 背景合同中行项目按月收入的统计 1.业务逻辑及需求 1.1 表业务逻辑合同是公司间互相签署的法律契约,一份合同从诞生起,就开始流转于公司的各个部门,最核心的还是盈亏的数值.盈亏是…

Apache Spark2.0正式发布

Apache Spark2.0正式发布 7月26日起Databricks开始提供Apache Spark 2.0的下载,这个版本是基于社区在过去两年的经验总结而成,不但加入了用户喜爱的功能,也修复了之前的痛点. 本文总结了Spark 2.0的三大主题:更简单.更快速.更智能,另有Spark 2.0内容的文章汇总介绍了更多细节. 两个月前,Databricks发布了Apache Spark 2.0的技术预览版,如下表所见,目前我们有10%的集群都在使用这个版本,根据客户使用新版的经验及反馈意见,新…

View中选择的数据行中的部分数据传入到Controller中

将View中选择的数据行中的部分数据传入到Controller中 ASP.NET MVC搭建项目后台UI框架—1.后台主框架 ASP.NET MVC搭建项目后台UI框架—2.菜单特效 ASP.NET MVC搭建项目后台UI框架—3.面板折叠和展开 ASP.NET MVC搭建项目后台UI框架—4.tab多页签支持 ASP.NET MVC搭建项目后台UI框架—5.Demo演示Controller和View的交互 ASP.NET MVC搭建项目后台UI框架—6.客户管理(添加.修改.查询.分页)…

C# DataTable 转换成JSON数据

原文:C# DataTable 转换成JSON数据 using System; using System.Collections.Generic; using System.Data; using System.Linq; using System.Text; using System.Web; using System.Web.Script.Serialization; namespace WsDemo { public class DataTableConvertJson { #region…