全文链接:http://tecdat.cn/?p=30990

最近我们被客户要求撰写关于回归、anova方差分析、相关性分析的研究报告,包括一些图形和统计输出。

在分析时,我们向客户演示了用R语言回归、anova方差分析、相关性分析可以提供的内容

第一节 研究背景与目的

《精品购物指南》是中国本土经营规模最大、最具影响力的时尚媒体品牌,1999年《精品购物指南》即进入全国报业广告十强,2005~2007连续三年获得国家新闻出版总署颁布的“全国生活服务类报纸竞争力10强”,并蝉联第一。2013年,《精品购物指南》被国家新闻出版广电总局评为“全国百强报纸”。

本研究使用对《精品购物指南》所做的一次调查结果作为本次案例分析的数据。试图分析目前阅读《精品购物指南》的群体特征,以及影响阅读《精品购物指南》的时间的因素,从而更好地对受众群体和市场做出分析。

第二节描述性统计

1. 数据预处理



##变量赋值
colnames(data)=c(
"编号",
"性别",
"年龄",
"婚姻状况",
"受教育程度",
"职业或身份",
"个人月平均收入",
"报摊购买",
"个人订阅",
"单位订阅",
"赠阅",
"借阅他人",
"其他",
"上班途中",
"下班途中",
"午休时间",
"逛衔购物时",
"不定时",
"对《精品购物指南》的零购情况",
"家人是否会提醒购买《精品》",
"是第几选择",
"家人是否阅读《精品》",
"",
"",
"一直购买(或订阅)本报(习惯)",
"豪华版内容吸引人",
"普通版文章吸引人",
"查找广告信息",
"参加读者乐园版的活动",
"逛商场购物需要",
"价格便宜",
"没有什么原因想起来就买",
"其他",
"住所",
"工作场所",
"车站或乘车路途",
"娱乐场所",
"其他场所",
"多少人阅读同一份报纸",
"阅读《精品》的时间",
"每天读报时间",
"对我消费有指导",
"提高我的生活品位和档次",
"信息实用性强",
"关注社会新闻",
"信息量大",
"信息质量高",
"报道领域全面",
"内容贴近市场",
"寻找有用的信息和广告",
"放松自我",
"通俗易懂",
"广告信息丰富",
"版面编排合理",
"售价合理",
"订阅或零购方便",
"其他",
"平均每月阅读几期《精品》",
"首先欣赏豪华版",
"先看标题,再拣有意思的看",
"我只看自己喜欢的固定栏目",
"看完喜欢的文章,再浏览其他内容",
"只查找对自己有用的信息",
"无目的地翻阅报纸",
"如果未能看到某一期《精品》",
"能够阅读完《精品》内容",
"封面要闻",
"百姓生活新闻",
"北京都市新闻",
"消费新闻",
"读者乐园",
"体坛新闻",
"关注足球",
"篮球时空",
"绿茵评说",
"精品回顾",
"文化资讯",
"影视介绍",
"读书生活",
"音乐欣赏",
"外企专递",
"留学必备",
"充电课堂",
"人才聚焦",
"处世情感",
"健康",
"美食",
"休闲旅游",
"保险",
"律师",
"百货新品",
"休闲宠物",
"户外休闲",
"美食",
"家庭保健",
"超市SHOPPER"
,"新品试验"
,"样品透视"
,"汽车时代"
,"电脑"
,"市场行情"
,"通讯网络"
,"楼市了望"
,"房产金融"
,"政策扫描"
,"家具世界"
,"家装热点"
,"选材指南"
,"饰品快递"
,"非常男人"
,"特别女人"
,"新新人类"
,"网络家庭"
,"扮美家居"
,"今日妈咪"
,"选题大众化"
,"信息实用性强"
,"可读性强"
,"帮助我消费选择"
,"趣味性强"
,"报道领域全面"
,"帮助我了解市场行情"
,"放松自我"
,"文字优美"
,"观点新颖"
,"版式活泼"
,"品位高雅"
,"风格突出"
,"广告内容丰富"
,"其他"
,"招商展览"
,"电脑"
,"通讯"
,"汽车"
,"房地产"
,"家电"
,"食品酒类"
,"旅游娱乐"
,"商场饭店"
,"服装服饰"
,"美容用品"
,"保健品"
,"医疗器械"
,"家居用品"
,"航空订票"
,"招生"
,"人才招聘"
,"公益广告"
,"文化用品"
,"房屋祖赁"
,"金融证券"
,"发行广告"
,"其他"
,"广告对于消费是否有帮助"
,"广告数量适中"
,"广告信息丰富"
,"广告信息及时"
,"广告设计新颖"
,

删除缺失

data=complete.cases(data)

2.绘制不同变量之间的关系

  geom_point() +
geom_smooth(method=method, ...)

从每个变量的直方图可以看到变量的大概分布情况。绘制各个变量的饼图可以看到基本人口信息的各个取值的所占的百分比。


点击标题查阅往期内容

PYTHON链家租房数据分析:岭回归、LASSO、随机森林、XGBOOST、KERAS神经网络、KMEANS聚类、地理可视化

左右滑动查看更多

01

02

03

04

第三节 回归,方差分析与模型比较

1.相关性分析

for(i in 1:ncol(data))datacor[,i]=as.numeric(data[,i])

#数据归一化

data=scale(datacor)

查看性别和阅读《精品》的时间之间是否有相关关系

cor.test(datacor$"性别",
         datacor$"阅读《精品》的时间")
##
##  Pearson's product-moment correlation
##
## data:  datacor$性别 and datacor$"阅读《精品》的时间"
## t = 0.63616, df = 1995, p-value = 0.5247
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.02964101  0.05806894
## sample estimates:
##        cor
## 0.01424136

检验的结果是,由于P =0.5247> 0.05,因此在0.05的显署性水平下,接受原假设,认为两者之间不具有相关关系。

查看婚姻状况和阅读《精品》的时间之间是否具有相关关系



cor.test(datacor$"婚姻状况",
         datacor$"阅读《精品》的时间")
##
##  Pearson's product-moment correlation
##
## data:  datacor$婚姻状况 and datacor$"阅读《精品》的时间"
## t = -1.7215, df = 1995, p-value = 0.08531
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.082238962  0.005358859
## sample estimates:
##         cor
## -0.03851404

检验的结果是,由于P =0.08531> 0.05,因此在0.05的显署性水平下,所以接受原假设,认为两者之间不具有相关关系

查看受教育程度和阅读《精品》的时间之间是否具有相关关系


cor.test(datacor$"受教育程度",
         datacor$"阅读《精品》的时间") ##
##  Pearson's product-moment correlation
##
## data:  datacor$受教育程度 and datacor$"阅读《精品》的时间"
## t = -0.71111, df = 1995, p-value = 0.4771
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.05974084  0.02796468
## sample estimates:
##        cor
## -0.0159187

检验的结果是,由于P =0.4771>0.05,因此在0.05的显著性水平下,接受原假设,认为两者之间不具有相关关系。

2.回归分析

查看共线性关系

which(abs(cormatrix)>0.6,arr.ind = T)

##                              row col
## 编号                           1   1
## 性别                           2   2
## 年龄                           3   3

从结果看,没有相关系数大于0.6的不同变量。因此,变量间不存在共线性问题。

回归分析

summary(model)

从回归模型的结果来看,可以看被调查者的职业或身份,家人是否阅读《精品》`,以及豪华版内容是否吸引人等因素对被调查对象否阅读《精品》的时间有比较大的影响,p值小于0.05,因此该变量对被调查者选择去看报纸有显著的影响 。

3.模型筛选与比较

无常数项模型拟合

回归模型校正

利用qqPlot()函数提供的正态假设检验方法,它画出了在n-p-1个自由度的t分布下的学生化残差图形,再配合Shapiro检验得出检测结果,而Shapiro样本量的大小范围 配合下图可以发现除了Providence,所有的点都离直线很近,都落在置信区间内,这表明与正态性假相符。

library(car)
qqPlot(model2,labels = row.names(datacor))

方差齐性

利用残差绘制曲线图并配合Durbin-Watson检验,此检验方法能够检测误差的序列相关性,再配合下表检验结果显著性为0.7604表示接受原假设,因此误差项独立性检验通过。

dwtest(model2)

##
##  Durbin-Watson test
##
## data:  model2
## DW = 2.0242, p-value = 0.7604
## alternative hypothesis: true autocorrelation is greater than 0

方差分析

所有变量的p值都小于0.05,说明在0.05的显著水平上,不同特征的被调查对象的阅读精品时间之间有明显差别。



点击文末 “阅读原文”

获取全文完整代码数据资料。

本文选自《R语言回归、anova方差分析、相关性分析 《精品购物指南》调研数据可视化》。

点击标题查阅往期内容

PYTHON链家租房数据分析:岭回归、LASSO、随机森林、XGBOOST、KERAS神经网络、KMEANS聚类、地理可视化
R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据
R语言用Rshiny探索lme4广义线性混合模型(GLMM)和线性混合模型(LMM)
R语言用潜类别混合效应模型(Latent Class Mixed Model ,LCMM)分析老年痴呆年龄数据
R语言贝叶斯广义线性混合(多层次/水平/嵌套)模型GLMM、逻辑回归分析教育留级影响因素数据R语言估计多元标记的潜过程混合效应模型(lcmm)分析心理测试的认知过程
R语言因子实验设计nlme拟合非线性混合模型分析有机农业施氮水平
R语言非线性混合效应 NLME模型(固定效应&随机效应)对抗哮喘药物茶碱动力学研究
R语言用线性混合效应(多水平/层次/嵌套)模型分析声调高低与礼貌态度的关系
R语言LME4混合效应模型研究教师的受欢迎程度R语言nlme、nlmer、lme4用(非)线性混合模型non-linear mixed model分析藻类数据实例
R语言混合线性模型、多层次模型、回归模型分析学生平均成绩GPA和可视化
R语言线性混合效应模型(固定效应&随机效应)和交互可视化3案例
R语言用lme4多层次(混合效应)广义线性模型(GLM),逻辑回归分析教育留级调查数据R语言 线性混合效应模型实战案例
R语言混合效应逻辑回归(mixed effects logistic)模型分析肺癌数据
R语言如何用潜类别混合效应模型(LCMM)分析抑郁症状
R语言基于copula的贝叶斯分层混合模型的诊断准确性研究
R语言建立和可视化混合效应模型mixed effect model
R语言LME4混合效应模型研究教师的受欢迎程度
R语言 线性混合效应模型实战案例
R语言用Rshiny探索lme4广义线性混合模型(GLMM)和线性混合模型(LMM)
R语言基于copula的贝叶斯分层混合模型的诊断准确性研究
R语言如何解决线性混合模型中畸形拟合(Singular fit)的问题
基于R语言的lmer混合线性回归模型
R语言用WinBUGS 软件对学术能力测验建立层次(分层)贝叶斯模型
R语言分层线性模型案例
R语言用WinBUGS 软件对学术能力测验(SAT)建立分层模型
使用SAS,Stata,HLM,R,SPSS和Mplus的分层线性模型HLM
R语言用WinBUGS 软件对学术能力测验建立层次(分层)贝叶斯模型
SPSS中的多层(等级)线性模型Multilevel linear models研究整容手术数据
用SPSS估计HLM多层(层次)线性模型模型

R语言回归、anova方差分析、相关性分析 《精品购物指南》调研数据可视化|附代码数据的更多相关文章

  1. R语言学习笔记-Corrplot相关性分析

    示例图像 首先安装需要的包 install.packages("Corrplot") #安装Corrplot install.packages("RColorBrewer ...

  2. R语言实现SOM(自组织映射)模型(三个函数包+代码)

    每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- SOM自组织映射神经网络模型 的R语言实现 笔 ...

  3. R语言-回归

    定义: 回归是统计学的核心,它其实是一个广义的概念,通常指那些用一个或多个预测变量来预测响应变量.既:从一堆数据中获取最优模型参数 1.线性回归 1.1简单线性回归 案例:女性预测身高和体重的关系 结 ...

  4. R语言做文本挖掘 Part5情感分析

    Part5情感分析 这是本系列的最后一篇文章,该.事实上这种单一文本挖掘的每一个部分进行全部值获取水落石出细致的研究,0基础研究阶段.用R里面现成的算法,来实现自己的需求,当然还參考了众多网友的智慧结 ...

  5. 吴裕雄--天生自然 R语言开发学习:功效分析(续一)

    #----------------------------------------# # R in Action (2nd ed): Chapter 10 # # Power analysis # # ...

  6. 吴裕雄--天生自然 R语言开发学习:功效分析

    #----------------------------------------# # R in Action (2nd ed): Chapter 10 # # Power analysis # # ...

  7. R语言画全基因组关联分析中的曼哈顿图(manhattan plot)

    1.在linux中安装好R 2.准备好画曼哈顿图的R脚本即manhattan.r,manhattan.r内容如下: #!/usr/bin/Rscript #example : Rscript plot ...

  8. R语言实战(五)方差分析与功效分析

    本文对应<R语言实战>第9章:方差分析:第10章:功效分析 ================================================================ ...

  9. 实验的方差分析(R语言)

    实验设计与数据处理(大数据分析B中也用到F分布,故总结一下,加深印象)第3课小结--实验的方差分析(one-way analysis of variance) 概述 实验结果\(S\)受多个因素\(A ...

  10. R语言重要数据集分析研究——需要整理分析阐明理念

    1.R语言重要数据集分析研究需要整理分析阐明理念? 上一节讲了R语言作图,本节来讲讲当你拿到一个数据集的时候如何下手分析,数据分析的第一步,探索性数据分析. 统计量,即统计学里面关注的数据集的几个指标 ...

随机推荐

  1. 带你认识3个J.U.C组件扩展

    摘要:本文主要为大家讲解3种J.U.C组件扩展. 本文分享自华为云社区<[高并发]J.U.C组件扩展>,作者: 冰 河. 1.FutureTask FutureTask是J.U.C(jav ...

  2. 【2】java之object类

    一.Object 类的基本定义 ​ Object 类是所有类的父类,最大的一个好处就是:利用 Object 类可以接收所有类的对象(向上自动转型).如果不确定参数类型,使用 Object 类型是最好的 ...

  3. kali-国内源-更新系统

    1.更换国内源 vim /etc/apt/sources.list deb https://mirrors.aliyun.com/kali kali-rolling main non-free con ...

  4. No.1.9

    项目样式补充 精灵图(场景:项目中将多张小图片,合并成一张大图片,这张大图片称之为精灵图) (优点:减少服务器发送次数,减轻服务器的压力,提高页面加载速度) 精灵图的使用步骤:1.创建一个盒子,设置盒 ...

  5. [网鼎杯2020]you_raise_me_up

    [网鼎杯2020]you_raise_me_up 目录 [网鼎杯2020]you_raise_me_up 题目 分析 解法一:sage discrete_log()使用示例 补充 解法二:python ...

  6. ASP.NET Core 部署在Docker容器当中(1)

    一.前言 在公司新项目中,果断选择使用asp.net core,通过实践学习一系列技术栈:docker.docker-nginx.docker-compose.Jenkins,本文主要是介绍如何将项目 ...

  7. C# 报表接口样例,简单实用

    //连接视图名称,视图在数据库写好<%@ WebHandler Language="C#" Class="GetwmsReport" %> usin ...

  8. vue真实项目结构

    我明白你的需求.如果你想看一个真实企业项目使用的复杂目录结构,你可以参考以下几个例子: 根据1的介绍,一个vue项目的目录结构可以细分为以下几个部分: |- src | |- api 存放所有请求接口 ...

  9. poi 5.2 导出

    如果能给你带来帮助,不胜荣幸,如果有错误也请批评指正. 1:maven 依赖,现在好多都是用的poi 3.6 和 poi3.9 的jar,项目升级了,现在得用5.x的了,所以就用5.x的给大家简单的演 ...

  10. 错误:/etc/sudoers: syntax error near line

    错误 yang@ubuntu:/etc$ sudo cat sudoers >>> /etc/sudoers: syntax error near line 26 <<& ...