R_Studio(癌症)数据连续属性离散化处理
对“癌症.csv”中的肾细胞癌组织内微血管数进行连续属性的等宽离散化处理(分为3类),并用宽值找替原来的值
癌症.csv
setwd('D:\\data') list.files() dat=read.csv(file="癌症.csv",header=TRUE) #等宽离散化
v1=ceiling(dat[,1]) #等频离散化
names(data)='f'#变量重命名
attach(dat)
seq(0,length(f),length(f)/2)#等频划分为6组
v=sort(f)#按大小排序作为离散化依据
v2=rep(0,26)#定义新变量
for(i in 1:26) v2[i]=ifelse(f[i]<=v[13],1,
ifelse(f[i]<=v[26],2)) detach(dat) #聚类离散化
result=kmeans(dat[,4],2)
v3=result$cluster #图示结果
plot(dat[,4],v1,xlab='肾细胞癌组织内微血管数',ylab='等宽离散化')
plot(dat[,4],v2,xlab='肾细胞癌组织内微血管数',ylab='等频离散化')
plot(dat[,4],v3,xlab='肾细胞癌组织内微血管数',ylab='聚类离散化')
Gary.R
等宽离散化:将连续数据按照等宽区间标准离散化数据
setwd('D:\\data') list.files() dat=read.csv(file="癌症.csv",header=TRUE) #等宽离散化
v1=ceiling(dat[,4]) #图示结果
plot(dat[,4],v1,xlab='肾细胞癌组织内微血管数',ylab="等宽离散化")
等频离散化:将相同数量的数据放进一个区间
setwd('D:\\data') list.files() dat=read.csv(file="癌症.csv",header=TRUE) #等频离散化
names(data)='f'#变量重命名
attach(dat)
seq(0,length(f),length(f)/2)#等频划分为6组
v=sort(f)#按大小排序作为离散化依据
v2=rep(0,26)#定义新变量
for(i in 1:26) v2[i]=ifelse(f[i]<=v[13],1,
ifelse(f[i]<=v[26],2)) #图示结果
plot(dat[,4],v2,xlab='肾细胞癌组织内微血管数',ylab="等频离散化")
聚类离散化:一维聚类离散包括两个过程:通过聚类算法(K-Means算法)将连续属性值进行聚类,处理聚类之后的到的k个簇,得到每个簇对应的分类值(类似这个簇的标记)
setwd('D:\\data') list.files() dat=read.csv(file="癌症.csv",header=TRUE) #聚类离散化
result=kmeans(dat[,4],2)
v3=result$cluster #图示结果
plot(dat[,4],v3,xlab='肾细胞癌组织内微血管数',ylab='聚类离散化')
R_Studio(癌症)数据连续属性离散化处理的更多相关文章
- 数据处理:2.异常值处理 & 数据归一化 & 数据连续属性离散化
1.异常值分析 异常值是指样本中的个别值,其数值明显偏离其余的观测值.异常值也称离群点,异常值的分析也称为离群点的分析. 异常值分析 → 3σ原则 / 箱型图分析异常值处理方法 → 删除 / 修正填补 ...
- R_Studio(癌症)以等宽类别值、自定义类别值、等频类别值(分为5类)
对“癌症.csv”中的肾细胞癌组织内微血管数进行连续属性的离散化处理 增加“微血管数分类1”属性,取值为等宽类别值(分为5类),增加“微血管数分类2”属性,取值为自定义类别值(0~40,41~60,6 ...
- python数据分析数据标准化及离散化详解
python数据分析数据标准化及离散化详解 本文为大家分享了python数据分析数据标准化及离散化的具体内容,供大家参考,具体内容如下 标准化 1.离差标准化 是对原始数据的线性变换,使结果映射到[0 ...
- 多个PVSS数据点属性读写的优化处理
注:本译文出自15多年前,尚未用最新软硬件平台进行重新测试,只提供方法论层面的参考,具体性能指标不具备参考意义. 多个PVSS数据点属性读写的优化处理 本文档概述了测试三种读取和写入多个PVSS数据点 ...
- EF CodeFirst系列(4)--- 数据注释属性
EFCodeFirst模式使用的是约定大于配置的编程模式,这种模式利用默认约定根据我们的领域模型建立概念模型.然后我们也可以通过配置领域类来覆盖默认约定. 覆盖默认约定主要用两种手段: 1.数据注释属 ...
- 在Delphi中调用"数据链接属性"对话框设置ConnectionString
项目需要使用"数据链接属性"对话框来设置ConnectionString,查阅了一些资料,解决办法如下: 1.Delphi 在Delphi中比较简单,步骤如下: 方法1: use ...
- Page5:状态转移矩阵及性质、连续线性系统离散化及其性质[Linear System Theory]
内容包含脉冲响应矩阵和传递函数矩阵之间的关系,状态转移矩阵及性质,以及线性连续系统离散化及其性质
- Angular4.x 创建组件|绑定数据|绑定属性|数据循环|条件判断|事件|表单处理|双向数据绑定
Angular4.x 创建组件|绑定数据|绑定属性|数据循环|条件判断|事件|表单处理|双向数据绑定 创建 angular 组件 https://github.com/angular/angular- ...
- R_Studio(学生成绩)对数据进行属性构造处理
对“Gary.csv”中数据进行进行属性构造处理,增加“总成绩”属性 Gary.csv setwd('D:\\data') list.files() #数据读取 dat=read.csv(file=& ...
随机推荐
- Magento2入门之修改logo
本文用于学习记录用 1.主题创建是在路径 /app/design/frontend/公司名/主题名称/ 我自己创建的路径为 app/design/frontend/Bman/castle,以下操作都在 ...
- JAVA文件类工具
FileUtil package cn.jiangzeyin.util.file; import org.springframework.util.Assert; import java.io.*; ...
- Springboot实现上传文件接口,使用python的requests进行组装报文上传文件的方法
记录瞬间 近段时间使用Springboot实现了文件的上传服务,但是在使用python的requests进行post上传时,总是报错. 比如: 1.Current request is not a m ...
- idea自定义注释
类配置位置: 方法配置位置 配置内容 * * @Author *** * @Date $date$ $time$ $param$ * @return $return$ * @Description * ...
- 异常-throw的概述以及和throws的区别
package cn.itcast_06; /* * throw:如果出现了异常情况,我们可以把该异常抛出,这个时候的抛出的应该是异常的对象. * * throws和throw的区别(面试题) thr ...
- k8s自签TLS证书
自签TLS证书 TLS证书用于进行通信使用,k8s组件需要的证书有: 第一步:安装证书生成工具cfssl 在这之前需要先建立一个目录来存放安装的工具mkdir ssl,后面将安装的工具移动到各自的目录 ...
- VMware虚拟化集群的配置(一)
一.VMware介绍 VMware vSphere 是业界领先且最可靠的虚拟化平台.vSphere将应用程序和操作系统从底层硬件分离出来,从而简化了 IT操作. VMware集群最主要的两个部分ESX ...
- laravel swoole Call to undefined method Illuminate\Events\Dispatcher::fire()
报错: Call to undefined method Illuminate\Events\Dispatcher::fire() Whoops\Run::handleError("Unca ...
- 模拟赛小结:2018-2019 ACM-ICPC Nordic Collegiate Programming Contest (NCPC 2018)
比赛链接:传送门 两个半小时的时候横扫了铜.银区的所有题,签到成功混进金区.奈何后面没能开出新的题. 最后一个小时的时候xk灵机一动想出了D题的做法,讨论了一波感觉可行,赶紧去敲.结束前2分钟终于过了 ...
- 牛客练习赛44 B 小y的线段 (思维)
链接:https://ac.nowcoder.com/acm/contest/634/B 来源:牛客网 题目描述 给出n条线段,第i条线段的长度为a_ia i ,每次可以从第i条线段的j位置跳到第 ...