最近在读<R语言与网站分析>,书中对分类.聚类算法的讲解通俗易懂,和数据挖掘理论一起看的话,有很好的参照效果. 然而,这么好的讲解,作者居然没提供对应的数据集.手痒之余,我自己动手整理了一个可用于分类算法的数据集(下载链接:csdn下载频道搜索“R语言与网站分析:数据集样例及分类算法实现”),并用R语言实现了朴素贝叶斯.SVM和人工神经网络分类. 数据集记录的是泰坦尼克号乘客的存活情况.数据集包括乘客的等级(class).年龄(age).性别(sex)和存活情况(survive),最终希望通过…
1.读取数据 > bank=read.table("bank-full.csv",header=TRUE,sep=";") > 2.查看数据结构 > bank=read.table("bank-full.csv",header=TRUE,sep=",") > str(bank) obs. variables: $ age : ... $ job : Factor w levels "admin…
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 一.贝叶斯网络与朴素贝叶斯的区别 朴素贝叶斯的假设前提有两个第一个为:各特征彼此独立:第二个为且对被解释变量的影响一致,不能进行变量筛选.但是很多情况这一假设是无法做到的,比如解决文本分类时,相邻词的关系.近义词的关系等等.彼此不独立的特征之间的关系没法通过朴素贝叶斯分类器训练得到,同时这种不独立性也给问题的解决方案引入了更多的复杂性[1].…
编程教材 <R语言实战·第2版>Robert I. Kabacoff 课程教材<商务与经济统计·原书第13版> (安德森) P48.案例2-1 Pelican 商店 PS C:\Users\小能喵喵喵\Desktop\R\homework\1_Pelican> tree /f C:. │ pelican.r │ ├───.vscode │ launch.json │ └───data PelicanStores.csv 加载数据 编程教材p32 2.3.2 已知数据集为csv…
XGBoost不仅仅可以用来做分类还可以做时间序列方面的预测,而且已经有人做的很好,可以见最后的案例. 应用一:XGBoost用来做预测 -------------------------------------------------- 一.XGBoost来历 xgboost的全称是eXtreme Gradient Boosting.正如其名,它是Gradient Boosting Machine的一个c++实现,作者为正在华盛顿大学研究机器学习的大牛陈天奇.他在研究中深感自己受制于现有库的计…
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 线性混合模型与普通的线性模型不同的地方是除了有固定效应外还有随机效应. 笔者认为一般统计模型中的横截面回归模型中大致可以分为两个方向:一个是交互效应方向(调节.中介效应).一个是随机性方向(固定效应.随机效应). 两个方向的选择需要根据业务需求: 交互效应较多探究的是变量之间的网络关系,可能会有很多变量,多变量之间的关系: 而随机性探究的是变量…
R语言:recommenderlab包的总结与应用案例   1. 推荐系统:recommenderlab包整体思路 recommenderlab包提供了一个可以用评分数据和0-1数据来发展和测试推荐算法的框架.它提供了几种基础算法,并可利用注册机制允许用户使用自己的算法recommender包的数据类型采用S4类构造. (1)评分矩阵数据接口:使用抽象的raringMatrix为评分数据提供接口.raringMatrix采用了很多类似矩阵对象的操作,如 dim(),dimnames() ,row…
矩阵(matrix)是一种特殊的向量,包含两个附加的属性:行数和列数.所以矩阵也是和向量一样,有模式(数据类型)的概念.(但反过来,向量却不能看作是只有一列或一行的矩阵. 数组(array)是R里更一般的对象,矩阵是数组的一个特殊情形.数组可以是多维的.例如:一个三维数组可以包含行.列和层(layer),而一个矩阵只有行和列两个维度 1.创建矩阵 矩阵的行和列的下标都是从1开始,如:矩阵a左上角的元素记作a[1,1].矩阵在R中是按列存储的,也就是说先存储第一列,再存储第二列,以此类推. > y…
简介 统计学一直在研究如何从数据中得到可解释的东西,而机器学习则关注如何将数据变成一些实用的东西.对两者做出如下对比更有助于理解“机器学习”这个术语:机器学习研究的内容是教给计算机一些知识,再让计算机利用这些知识完成其他的任务.相比之下,统计学则更倾向于开发一些工具来帮助人类认识世界,以便人类可以更加清晰地思考,从而做出更佳的决策. 在机器学习中,学习指的是采用一些算法来分析数据的基本结构,并且辨别其中的信号和噪声,从而提取出尽可能多的(或者尽可能合理的)信息的过程.在算法发现信号或者说模式之后…
转载:http://blog.fens.me/r-multi-linear-regression/ 前言 本文接上一篇R语言解读一元线性回归模型.在许多生活和工作的实际问题中,影响因变量的因素可能不止一个,比如对于知识水平越高的人,收入水平也越高,这样的一个结论.这其中可能包括了因为更好的家庭条件,所以有了更好的教育:因为在一线城市发展,所以有了更好的工作机会:所处的行业赶上了大的经济上行周期等.要想解读这些规律,是复杂的.多维度的,多元回归分析方法更适合解读生活的规律. 由于本文为非统计的专业…