一.R语言的mlr packages install.packages("mlr")之后就可以看到R里面有哪些机器学习算法.在哪个包里面. a<-listLearners() 这个包是听CDA网络课程<R语言与机器学习实战>余文华老师所述,感觉很棒,有待以后深入探讨.以下表格是R语言里面,52个机器学习算法的来源以及一些数据要求. class name short.name package note type installed numerics factors or…
转自http://blog.csdn.net/han_xiaoyang/article/details/51191386 – 谷歌的无人车和机器人得到了很多关注,但我们真正的未来却在于能够使电脑变得更聪明,更人性化的技术,机器学习. – 埃里克 施密特(谷歌首席执行官) 当计算从大型计算机转移至个人电脑再转移到云的今天,我们可能正处于人类历史上最关键的时期.之所以关键,并不是因为已经取得的成就,而是未来几年里我们即将要获得的进步和成就. 对我来说,如今最令我激动的就是计算技术和工具的普及,从而带…
建议:如果只是处理(小)数据的,用R.结果更可靠,速度可以接受,上手方便,多有现成的命令.程序可以用.要自己搞个算法.处理大数据.计算量大的,用python.开发效率高,一切尽在掌握. 概述 在真实的数据科学世界里,我们会有两个极端,一个是业务,一个是工程.偏向业务的数据科学被称为数据分析(Data Analysis),也就是A型数据科学.偏向工程的数据科学被称为数据构建(Data Building),也就是B型数据科学. 从工具上来看,按由业务到工程的顺序,这个两条是:EXCEL >> R…
原文:Simple Tutorial on SVM and Parameter Tuning in Python and R 介绍 数据在机器学习中是重要的一种任务,支持向量机(SVM)在模式分类和非线性回归问题中有着广泛的应用. SVM最开始是由N. Vapnik and Alexey Ya. Chervonenkis 在1963年提出.从那时候开始,各种支持向量机被成功用于解决各种现实问题,比如文本聚类,图像分类,生物信息学(蛋白质分类,爱长分类),手写字符识别等等. 内容 1. 什么是支持…
在当下,人工智能的浪潮席卷而来.从AlphaGo.无人驾驶技术.人脸识别.语音对话,到商城推荐系统,金融业的风控,量化运营.用户洞察.企业征信.智能投顾等,人工智能的应用广泛渗透到各行各业,也让数据科学家们供不应求.Python和R作为机器学习的主流语言,受到了越来越多的关注.数据学习领域的新兵们经常不清楚如何在二者之间做出抉择,本文就语言特性与使用场景为大家对比剖析. 一.Python和R的概念与特性 Python是一种面向对象.解释型免费开源高级语言.它功能强大,有活跃的社区支持和各式各样的…
一.简介 KNN(k-nearst neighbors,KNN)作为机器学习算法中的一种非常基本的算法,也正是因为其原理简单,被广泛应用于电影/音乐推荐等方面,即有些时候我们很难去建立确切的模型来描述几种类别的具体表征特点,就可以利用天然的临近关系来进行分类: 二.原理 KNN算法主要用于分类任务中,用于基于新样本与已有样本的距离来为其赋以所属的类别,即使用一个新样本k个近邻的信息来对该无标记的样本进行分类,k是KNN中最基本的参数,表示任意数目的近邻,在k确定后,KNN算法还依赖于一个带标注的…
上一篇中我们详细介绍推导了主成分分析法的原理,并基于Python通过自编函数实现了挑选主成分的过程,而在Python与R中都有比较成熟的主成分分析函数,本篇我们就对这些方法进行介绍: R 在R的基础函数中就有主成分分析法的实现函数princomp(),其主要参数如下: data:要进行主成分分析的目标数据集,数据框形式,行代表样本,列代表变量 cor:逻辑型变量,控制是否使用相关系数进行主成分分析 scores:逻辑型变量,控制是否计算每个主成分的得分 我们使用了R中自带的数据集USJudgeR…
作为机器学习中可解释性非常好的一种算法,决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法.由于这种决策分支画成图形很像一棵树的枝干,故称决策树.在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系. 一.初识决策树 决策树是一种树形结构,一般的,一棵决策树包含一个根结点,若干个内部结点和若干个叶结点: 叶结点:树的一个方向的…
转载生信技能树 https://mp.weixin.qq.com/s/JB_329LCWqo5dY6MLawfEA TCGA数据源 - R包RTCGA的简单介绍 - 首先安装及加载包 - 指定任意基因从任意癌症里面获取芯片表达数据 - 绘制指定基因在不同癌症的表达量区别boxplot - 更多boxplot参数 - 指定任意基因从任意癌症里面获取测序表达数据 - 用全部的rnaseq的表达数据来做主成分分析 - 用5个基因在3个癌症的表达量做主成分分析 - 用突变数据做生存分析 - 多个基因在多…
数据重塑通常使用reshape2包,reshape2包用于实现对宽数据及长数据之间的相互转换,由于reshape2包不在R的默认安装包列表中,在第一次使用之前,需要安装和引用: install.packages("reshape2") library(reshape2) 重塑数据,首先把数据融合(melt),以使每一行都有唯一的标识-变量组合,然后把数据重塑(cast)为想要的任何形状.在重塑过程中,可以使用任何函数对数据进行整合,也可以把长格式转换为宽格式,这种操作类似于Excel的…