方法1


    统计逻辑:统计一个loginname的所有去重的通讯录数C,统计这个Loginname对应的每个设备对应的通讯录c1,c2,c3…cn;

X=(c1/c+c2/c+c3/c+….cn/c)/n=(c1+c2+…cn)/(c*n)

数据表现如下:

将3个以上设备计算出来的结果关联上黑名单库,在8092个loginname中,有3915个,

占48.4%。将是否黑名单当作Y值,X值为自变量进行回归:

Y与X之间的相关性为0.1229,显著性正相关。

回归统计

 

 

 

 

 

 

 

Multiple R

0.12294864

 

 

 

 

 

 

 

R Square

0.01511637

 

 

 

 

 

 

 

Adjusted R Square

0.01499461

 

 

 

 

 

 

 

标准误差

0.49600959

 

 

 

 

 

 

 

观测值

8091

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

方差分析

 

 

 

 

 

 

 

 

 

df

SS

MS

F

Significance F

 

 

 

回归分析

1

30.54481

30.54481

124.153

1.26E-28

 

 

 

残差

8089

1990.1

0.246026

 

 

 

 

 

总计

8090

2020.645

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Coefficients

标准误差

t Stat

P-value

Lower 95%

Upper 95%

下限 95.0%

上限 95.0%

Intercept

0.65722473

0.016506

39.81648

0

0.624868

0.689581

0.624868

0.689581

X Variable 1

-0.2788014

0.025022

-11.1424

1.26E-28

-0.32785

-0.22975

-0.32785

-0.22975

方法2

统计逻辑:计算出每2个设备之间通讯录的相同率,如Xab,Xac,Xad,Xcd…XnXn-1,关联上黑名单库,在当时7383的大于等于3个设备的loginname中,按照设备个数的不同分组,然后进行回归,

3个设备的loginname有6512个,其中黑名单3294个,占比50.6%,X与Y的关系程正弱相关,前2个之间的相同率(自变量)对Y的影响最大。

Multiple R

0.119978

 

 

 

 

 

 

 

R Square

0.014395

 

 

 

 

 

 

 

Adjusted R Square

0.01394

 

 

 

 

 

 

 

标准误差

0.496507

 

 

 

 

 

 

 

观测值

6512

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

方差分析

 

 

 

 

 

 

 

 

 

df

SS

MS

F

Significance F

 

 

 

回归分析

3

23.43156

7.810518

31.68321

2.52E-20

 

 

 

残差

6508

1604.347

0.246519

 

 

 

 

 

总计

6511

1627.778

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Coefficients

标准误差

t Stat

P-value

Lower 95%

Upper 95%

下限 95.0%

上限 95.0%

Intercept

0.40805

0.011882

34.34126

1.1E-237

0.384757

0.431344

0.384757

0.431344

X Variable 1

0.115797

0.039147

2.958019

0.003107

0.039056

0.192537

0.039056

0.192537

X Variable 2

0.163985

0.039448

4.156987

3.27E-05

0.086654

0.241316

0.086654

0.241316

X Variable 3

0.087144

0.038996

2.234676

0.025472

0.010699

0.16359

0.010699

0.16359

4个设备的组,统计回归相对高0.05个百分点的相关性,但是相关性依然较弱,第一个和第6个变量起到决定性影响,5个以上的设备存在高度正相关,但是因为数据量太少,

不认为具有统计学代表意义。

回归统计

 

 

 

 

 

 

 

Multiple R

0.171505

 

 

 

 

 

 

 

R Square

0.029414

 

 

 

 

 

 

 

Adjusted R Square

0.020577

 

 

 

 

 

 

 

标准误差

0.493803

 

 

 

 

 

 

 

观测值

666

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

方差分析

 

 

 

 

 

 

 

 

 

df

SS

MS

F

Significance F

 

 

 

回归分析

6

4.869808

0.811635

3.32853

0.003088

 

 

 

残差

659

160.6918

0.243842

 

 

 

 

 

总计

665

165.5616

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Coefficients

标准误差

t Stat

P-value

Lower 95%

Upper 95%

下限 95.0%

上限 95.0%

Intercept

0.355842

0.071268

4.993029

7.62E-07

0.215903

0.495781

0.215903

0.495781

X Variable 1

0.209455

0.131209

1.596339

0.110893

-0.04818

0.467094

-0.04818

0.467094

X Variable 2

0.089427

0.136561

0.654849

0.512793

-0.17872

0.357575

-0.17872

0.357575

X Variable 3

0.09917

0.127629

0.777021

0.437425

-0.15144

0.349778

-0.15144

0.349778

X Variable 4

-0.10775

0.144002

-0.74823

0.454591

-0.3905

0.175012

-0.3905

0.175012

X Variable 5

-0.14237

0.121381

-1.17293

0.241249

-0.38071

0.095969

-0.38071

0.095969

方法3

没能获取用户更换设备的时间,分析业务逻辑,可以通过手机号登陆APP时候对应的版本号来间接代表更换设备的时间。成为自变量的X有:设备数,更换设备的次数,每2个设备更换的最大时间差,最小时间差,平均更换时间,更换设备时间差的标准差,累计更换时间,进行回归得到如下结果:设备累计更换时间和更换时间差的标准差成显著反比。

回归统计

             

Multiple R

0.154438366

             

R Square

0.023851209

             

Adjusted R Square

0.023259245

             

标准误差

0.492116372

             

观测值

9901

             
                 

方差分析

               

 

df

SS

MS

F

Significance F

     

回归分析

6

58.54663

9.757771812

40.29164794

9.68003E-49

     

残差

9894

2396.114

0.242178524

         

总计

9900

2454.661

 

 

 

     
                 

 

Coefficients

标准误差

t Stat

P-value

Lower 95%

Upper 95%

下限 95.0%

上限 95.0%

Intercept

0.448879765

0.032716

13.72029481

1.87579E-42

0.384748795

0.513010734

0.384749

0.513011

X Variable 1

0.054091353

0.010083

5.364858051

8.28418E-08

0.034327536

0.073855171

0.034328

0.073855

X Variable 2

-0.014132904

0.001316

-10.74041732

9.23172E-27

-0.016712261

-0.011553547

-0.01671

-0.01155

X Variable 3

0.000177389

3.03E-05

5.85593915

4.8943E-09

0.00011801

0.000236767

0.000118

0.000237

X Variable 4

1.01037E-08

1.25E-09

8.067239472

8.02511E-16

7.64868E-09

1.25587E-08

7.65E-09

1.26E-08

X Variable 5

-7.0701E-09

1.23E-09

-5.741173492

9.67925E-09

-9.48403E-09

-4.65616E-09

-9.5E-09

-4.7E-09

X Variable 6

-3.40952E-08

3.46E-09

-9.855884854

8.23224E-23

-4.08763E-08

-2.73141E-08

-4.1E-08

-2.7E-08

方法4

回归统计

 

 

 

 

 

 

 

Multiple R

0.211204

 

 

 

 

 

 

 

R Square

0.044607

 

 

 

 

 

 

 

Adjusted R Square

0.043425

 

 

 

 

 

 

 

标准误差

0.488799

 

 

 

 

 

 

 

观测值

8091

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

方差分析

 

 

 

 

 

 

 

 

 

df

SS

MS

F

Significance F

 

 

 

回归分析

10

90.13552

9.013552

37.72553

3.87E-73

 

 

 

残差

8080

1930.51

0.238924

 

 

 

 

 

总计

8090

2020.645

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Coefficients

标准误差

t Stat

P-value

Lower 95%

Upper 95%

下限 95.0%

上限 95.0%

Intercept

0.824792

0.042672

19.32859

2.08E-81

0.741144

0.90844

0.741144

0.90844039

X Variable 1

0.000604

0.01188

0.050819

0.959471

-0.02269

0.023893

-0.02269

0.02389257

X Variable 2

-0.01201

0.001585

-7.57658

3.94E-14

-0.01512

-0.0089

-0.01512

-0.0089046

X Variable 3

0.000106

3.51E-05

3.01029

0.002618

3.68E-05

0.000174

3.68E-05

0.0001743

X Variable 4

1.11E-08

2.04E-09

5.45342

5.09E-08

7.12E-09

1.51E-08

7.12E-09

1.5115E-08

X Variable 5

-7.5E-09

1.78E-09

-4.239

2.27E-05

-1.1E-08

-4E-09

-1.1E-08

-4.05E-09

X Variable 6

4.7E-10

2.6E-09

0.181014

0.856361

-4.6E-09

5.56E-09

-4.6E-09

5.5622E-09

X Variable 7

-2.2E-08

4.59E-09

-4.85498

1.23E-06

-3.1E-08

-1.3E-08

-3.1E-08

-1.329E-08

X Variable 8

2.45E-11

1.14E-11

2.149089

0.031657

2.15E-12

4.68E-11

2.15E-12

4.68E-11

X Variable 9

-0.00266

0.000444

-5.99087

2.18E-09

-0.00353

-0.00179

-0.00353

-0.0017881

X Variable 10

-0.24645

0.02494

-9.88193

6.72E-23

-0.29534

-0.19757

-0.29534

-0.1975655

单个X对Y都有一定影响,现在将设备更换时间的频率、更换频率标准偏差、每个设备的平均更换周期、设备相同率几个维度组合成Xn变量回归,结果显示X对Y的总体复相关性已经有较大幅度增加,达到0.211204。

虽然这些变量对判定是否黑名单的决定性怡然较小,需要挖掘更多的用户特征进行丰富。

dc

dcs

abrankcount

maxtime

mintime

avgtime

stddevt

totaltime

interval

pc

3

3

3

3237421

-4064

2155571.333

1527094

6466714

13

0.457187

3

3

3

20561466

9930757

13707644

4854801

41122932

80

0.57037

3

3

3

18509989

-19642609

-755080

15578021

2265240

76

0.343496

3

3

3

-14023

-1893173

-1262115.333

882553.1

3786346

8

0.335878

方法5

回归统计

 

 

 

 

 

 

 

Multiple R

0.506696

 

 

 

 

 

 

 

R Square

0.256741

 

 

 

 

 

 

 

Adjusted R Square

0.256666

 

 

 

 

 

 

 

标准误差

0.429309

 

 

 

 

 

 

 

观测值

9901

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

方差分析

 

 

 

 

 

 

 

 

 

df

SS

MS

F

Significance F

 

 

 

回归分析

1

630.2114

630.2114

3419.367

0

 

 

 

残差

9899

1824.45

0.184306

 

 

 

 

 

总计

9900

2454.661

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Coefficients

标准误差

t Stat

P-value

Lower 95%

Upper 95%

下限 95.0%

上限 95.0%

Intercept

0.760723

0.006787

112.093

0

0.74742

0.774026

0.74742

0.774026

X Variable 1

-0.19139

0.003273

-58.4754

0

-0.1978

-0.18497

-0.1978

-0.18497

求出每个手机更换的设备中是IOS的数量,回归出来的结果显示X单变量对Y的影响是显著正相关,达到0.506696

方法6

将以上所有变量加入,形成的特征如下:

ifblack

dc

dcs

abrankcount

maxtime

mintime

avgtime

stddevt

totaltime

interval

pc

deiosnum

1

3

3

3

3237421

-4064

2155571.333

1527094

6466714

13

0.457

2

0

3

3

3

20561466

9930757

13707644

4854801

41122932

80

0.57

2

1

3

3

3

18509989

-19642609

-755080

15578021

2265240

76

0.343

0

0

3

3

3

-14023

-1893173

-1262115.333

882553.1

3786346

8

0.336

1

1

3

3

3

-91956

-724724

-483149.3333

279151.3

1449448

3

0.944

1

1

3

3

3

412948

-845102

-288102.6667

523600.1

864308

4

0.344

0

0

3

3

3

5092634

1290609

3395089.333

1578617

10185268

20

0.335

1

回归分析相关复系数达到0.547115,较高的因果关系

回归统计

 

 

 

 

 

 

 

Multiple R

0.547115

 

 

 

 

 

 

 

R Square

0.299335

 

 

 

 

 

 

 

Adjusted R Square

0.298556

 

 

 

 

 

 

 

标准误差

0.417037

 

 

 

 

 

 

 

观测值

9901

 

 

 

 

 

 

 

方差分析

 

 

 

 

 

 

 

 

 

df

SS

MS

F

Significance F

 

 

 

回归分析

11

734.7663

66.79693

384.067

0

 

 

 

残差

9889

1719.895

0.17392

 

 

 

 

 

总计

9900

2454.661

 

C

 

 

 

 

 

Coefficients

标准误差

t Stat

P-value

Lower 95%

Upper 95%

下限 95.0%

上限 95.0%

Intercept

0.173297

0.033632

5.152794

2.62E-07

0.107372

0.239222

0.107372

0.239222

X Variable 1

0.190591

0.010059

18.94818

1.12E-78

0.170874

0.210307

0.170874

0.210307

X Variable 2

-0.00304

0.001233

-2.46576

0.013689

-0.00546

-0.00062

-0.00546

-0.00062

X Variable 3

1.19E-05

2.81E-05

0.423152

0.672194

-4.3E-05

6.7E-05

-4.3E-05

6.7E-05

X Variable 4

5.53E-09

1.51E-09

3.651315

0.000262

2.56E-09

8.49E-09

2.56E-09

8.49E-09

X Variable 5

-6.4E-09

1.32E-09

-4.80573

1.56E-06

-8.9E-09

-3.8E-09

-8.9E-09

-3.8E-09

X Variable 6

1.14E-09

1.92E-09

0.592423

0.553581

-2.6E-09

4.91E-09

-2.6E-09

4.91E-09

X Variable 7

-2.4E-08

3.39E-09

-7.09928

1.34E-12

-3.1E-08

-1.7E-08

-3.1E-08

-1.7E-08

X Variable 8

6.86E-12

8.73E-12

0.786271

0.431727

-1E-11

2.4E-11

-1E-11

2.4E-11

X Variable 9

0.000974

0.000332

2.938598

0.003305

0.000324

0.001624

0.000324

0.001624

X Variable 10

0.070007

0.013677

5.118475

3.14E-07

0.043197

0.096818

0.043197

0.096818

X Variable 11

-0.21499

0.003476

-61.8428

0

-0.22181

-0.20818

-0.22181

-0.20818

excel做回归分析的应用【风控数据分析】的更多相关文章

  1. 别人都在用数据分析软件,你还在用excel做数据分析?

    之前听朋友吐槽过,他们是上千人的企业,但做数据分析居然还是靠手动上传数据,而且还是用的excel做的.但其实excel并不是企业做数据分析的好工具. 数据分析是指用适当的统计分析方法对收集来的大量数据 ...

  2. 还在用Excel做数据分析?别人都在用数据分析工具啦!

    "Excel在过去.现在和未来都是一个无比优秀和天才的工具,无数虔诚的信徒将其奉为唯一的法门,而我却并不在其中了." 作为一个数据分析师,Excel是我入门必备的数据分析工具,虽然 ...

  3. 用R语言 做回归分析

    使用R做回归分析整体上是比较常规的一类数据分析内容,下面我们具体的了解用R语言做回归分析的过程. 首先,我们先构造一个分析的数据集 x<-data.frame(y=c(102,115,124,1 ...

  4. 机器学习实战笔记(一)- 使用SciKit-Learn做回归分析

    一.简介 这次学习的书籍主要是Hands-on Machine Learning with Scikit-Learn and TensorFlow(豆瓣:https://book.douban.com ...

  5. 你别告诉我你还在用Excel做数据透视分析吧,太low了!

    来到大数据分析的时代,大量的大数据分析软件涌现,尽管如此,如果今天有人问起最常用的数据透视分析工具是什么的时候,我猜想Excel应该是大家的不二之选. 但是其实我想说,用现在的手机来打比方,Excel ...

  6. 还在用excel做分析?你已经out了!

    Excel 是个很有趣的工具,不管你是不是数据分析领域的打工人,都一定听过它的名字,甚至在全球拥有大量虔诚的粉丝.Excel这个名字其实源自英语中的" Excellence "一词 ...

  7. java结合testng,利用excel做数据源的数据驱动实例

    数据驱动部分,是自动化测试常用部分,也是参数化设计的重要环节,前面分享了,mysql.yaml做数据源,那么再来分享下excel做数据驱动 思路: 先用POI读取excel.解析读取数据,返回list ...

  8. 用EXCEL做快速傅立葉轉換_FFT in Excel

    转载来自:http://yufan-fansbook.blogspot.tw/2013/09/excel-fft-fast-fourier-transform02.html [Excel]-用EXCE ...

  9. numpy.loadtxt() 出现codecError_____ Excel 做矩阵乘法

    1) 用 numpy读入csv文件是报错 UnicodeDecodeError: 'gbk' codec can't decode byte 0xbf in position 2: illegal m ...

随机推荐

  1. source activate my_env 失败,source not found

    今天连接到服务器后,安装anaconda.虽然在安装过程中选择将anaconda加入到系统变量中去.而且在 ~/.bashrc 中确实有 export PATH="/home/xnh/ana ...

  2. sqlserver 目录名称无效解决办法

    问题描述: 1.sqlserver 打开表提示:目录名称无效 2.在执行sql语句时提示:在执行批处理时出现错误.错误消息为: 目录名无效 3.所有的数据库都存在1跟2的问题 问题分析: 1.操作系统 ...

  3. 【转】oracle中的游标的原理和使用详解

    游标 游标的简介: 逐行处理查询结果,以编程的方式访问数据 游标的类型: 1,隐式游标:在 PL/SQL 程序中执行DML SQL 语句时自动创建隐式游标,名字固定叫sql. 2,显式游标:显式游标用 ...

  4. python 入门练习

    1.猜拳游戏 import randomimport sys #from random import randintdef guess(): ubuntu = random.randint(0,2)# ...

  5. plot sin示意图(隐藏刻度,自定义刻度)

    plot sin示意图(隐藏刻度,自定义刻度) 隐藏坐标轴刻度 自定义坐标轴刻度 Code #!/usr/bin/env python # -*- coding: utf-8 -*- import n ...

  6. C语言 · 乘法运算

    算法提高 乘法运算   时间限制:1.0s   内存限制:512.0MB      问题描述 编制一个乘法运算的程序. 从键盘读入2个100以内的正整数,进行乘法运算并以竖式输出. 输入格式 输入只有 ...

  7. java获取上周任意一天的日期

    /** * 获取上周周几的日期,默认一周从周一开始 * @param dayOfWeek * @param weekOffset * @return */ public static Date get ...

  8. 【随记】Q号解除限制一波三折

    平日里养了一批QQ号码,前段时间部分号码出问题了,在一个不可能是我登录的时间登录了,而且还异常操作了.结果,被QQ安全中心关进了小黑屋,让我发送手机短信去领回来.这是事情的背景,不细述了. 这个事情的 ...

  9. TF-IDF词项权重计算

    一.TF-IDF 词项频率: df:term frequency. term在文档中出现的频率.tf越大,词项越重要. 文档频率: tf:document frequecy.有多少文档包括此term, ...

  10. 百度地图Api进阶教程-地图鼠标左右键操作实例和鼠标样式6.html

    <!DOCTYPE html> <html> <head> <meta name="viewport" content="ini ...