炼数成金数据分析课程---14.Logistic回归 一.总结 一句话总结: 大纲+实例快速学习法 主要讲Logistic回归的原理及编程实现 1.事件的优势比(odds)是什么? 记y取1的概率是p=P(y=1|X),取0的概率 是1-p,取1和取0的概率之比为p/(1-p),称为事件的优势比(odds) 假设在p个独立自变量…
炼数成金数据分析课程---10.python中如何画图 一.总结 一句话总结: 主要matplotlib库,pandas中也可以画一些基础图 大纲+实例快速学习法 1.matplotlib的最简单画图操作是什么? 1.import matplotlib.pyplot as plt 2.plt.plot([1,2,3,2,3,2,2,6]) #这是y数据,自动生成x轴数据 3.plt.show() import matplotlib.pyplot as plt #####matplotlib创建图…
点击了解更多Python课程>>> Python数据分析[炼数成金15周完整课程] 课程简介: Python是一种面向对象.直译式计算机程序设计语言.也是一种功能强大而完善的通用型语言,已经具有十多年的发展历史,成熟且稳定.Python 具有脚本语言中最丰富和强大的类库,足以支持绝大多数日常应用. Python语法简捷而清晰,具有丰富和强大的类库.它常被昵称为胶水语言,它能够很轻松的把用其他语言制作的各种模块(尤其是C/C++)轻松地联结在一起. 课程大纲: 第一部分. Python基础…
dataguru访问地址:http://f.dataguru.cn/?fromuid=99611 课程优惠码:C4B6  这段时间一直在dataguru(炼数成金)上学习<hadoop数据分析平台(第十四期)>,说说我对炼数成金的印象. 最开始听说dataguru是通过它的广告邮件中的链接,发送的对象是itpub会员,如果你也是itpub会员,应该也会收到这么一封邮件. 后来才知道dataguru的前身是是ITPUB培训,ITPUB的创始人正是dataguru的主讲师-黄志洪(同时也是分布式系…
2016我定的目标就是要走出舒适区,进入学习区!为了少走弯路,节约学习的成本和时间,我选择了dataguru.看到心仪的课程毫不犹豫的就报了名. 分享了炼数成金邀请码,使用邀请码报名课程可以减免50%固定学费哦!http://www.dataguru.cn/invite.php?invitecode=AA62 课程优惠码:AA62 推荐理由有三: 1. 最近我在Dataguru学了<***>网络课程,挺不错的,你可以来看看!要是想报名,可以用我的优惠码 AA62 ,立减你50%的固定学费! 2…
创建图.启动图 Shift+Tab Tab 变量介绍: F etch Feed 简单的模型构造 :线性回归 MNIST数据集 Softmax函数 非线性回归神经网络   MINIST数据集分类器简单版本 二次代价函数 sigmoid函数 交叉熵代价函数 对数释然代价函数 拟合 防止过拟合 Dropout 优化器 优化器的使用 如何提升准确率? 1.改每批训练多少个 2.改神经网络中间层(神经元层数,每层的个数,每层用的激活函数,权重的初值用随机正态.要不要防止过拟合) 3.改计算loss的函数:…
MapReduce工作原理图文详解 1.Map-Reduce 工作机制剖析图: 1.首先,第一步,我们先编写好我们的map-reduce程序,然后在一个client 节点里面进行提交.(一般来说可以在Hadoop集群里里面的任意一个节点进行,只要该节点装了Hadoop并且连入了Hadoop集群) 2.job client 在收到这个请求以后呢,会找到JobTracker并且请求一个作业ID(Job ID).(根据我们的核心配置文件,可以很轻易的找到JobTracker) 3.通过HDFS 系统把…
支持向量机SVM 原创性(非组合)的具有明显直观几何意义的分类算法,具有较高的准确率源于Vapnik和Chervonenkis关于统计学习的早期工作(1971年),第一篇有关论文由Boser.Guyon.Vapnik发表在1992年(参考文档见韩家炜书9.10节)思想直观,但细节异常复杂,内容涉及凸分析算法,核函数,神经网络等高深的领域,几乎可以写成单独的大部头与著.大部分非与业人士会觉得难以理解.某名人评论:SVM是让应用数学家真正得到应用的一种算法 思路 简单情况,线性可分,把问题转化为一个…
1.海量日志数据,提取出某日访问百度次数最多的那个IP. 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中.注意到IP是32位的,最多有个2^32个IP.同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统计,然后再找出频率最大的几个)及相应的频率.然后再在这1000个最大的IP中,找出那个频率最大的IP,即为所求. 或者如下阐述(雪域之鹰): 算法思想:分而治之+Hash 1.…
重点归纳 回归分析就是利用样本(已知数据),产生拟合方程,从而(对未知数据)迚行预测用途:预测,判别合理性例子:利用身高预测体重:利用广告费用预测商品销售额:等等.线性回归分析:一元线性:多元线性:广义线性非线性回归分析困难:选定变量(多元),避免多重共线性,观察拟合方程,避免过度拟合,检验模型是否合理 相关系数…
视频地址:http://pan.baidu.com/s/1dDEgKwD 最开始还是讲hadoop的起源,但是和其他垃圾视频不同,不是照本宣科,听了还是受益.作者给人一种感觉就是他是确实把他的经验和体会告诉别人,而不是像其他讲师把网上别人的思想讲一遍 视频给了课程目标,不知道我听完了视频能达到多少 Google是两个大学生创业建立起来的,值得我去反思,我的年轻在哪里? Google是hadoop的细想之源: 通讯运营商要向Google付费(Google已经垄断到这种地步了) Google的数据是…
chapter1 #变量 import tensorflow as tf x = tf.Variable([1,2]) a = tf.constant([3,3]) #增加一个减法op sub = tf.subtract(x,a) #增加一个假发op add = tf.add(x,sub) #初始化所有变量 init = tf.global_variables_initializer() with tf.Session() as sess: #变量初始化操作 sess.run(init) pri…
决策树decision tree 什么是决策树输入:学习集输出:分类觃则(决策树) 决策树算法概述 70年代后期至80年代初期,Quinlan开发了ID3算法(迭代的二分器)Quinlan改迚了ID3算法,称为C4.5算法1984年,多位统计学家在著名的<Classification and regression tree>书里提出了CART算法ID3和CART几乎同期出现,引起了研究决策树算法的旋风,至今已经有多种算法被提出…
1.大数据金字塔结构 Data Source-->Data Warehouses/Data Marts-->data exploration-->Data Mining-->Data Presentations-->Making Decisions 2.从业职位   业务人员.ETL工程师.数据仓库工程师(及时需求).数据分析师.数据展现设计师.   IT支持人员:运维.程序员.生产线数据管理员 3.数据分析:统计方法,有目的 地对收集到的数据进行处理.   数据挖掘:查找隐…
视频地址:http://pan.baidu.com/s/1dDEgKwD 着重介绍了HDFS 运行了示例程序wordcount,自己也试了一遍(用的伪分布式) 1.建立数据(和讲师的操作有些不一样,不过我相信自己) 2.运行wordcount程序 3.查看结果 (可以看出来,只要没空格,它都看作是一个单词) 接下来介绍了50030和50070查看任务和HDFS状态 ...... 其中如果想看日志的话除了命令行也可以直接输入 http://localhost:50070/logs/ http://…
一.Tensorflow基本概念 1.使用图(graphs)来表示计算任务,用于搭建神经网络的计算过程,但其只搭建网络,不计算 2.在被称之为会话(Session)的上下文(context)中执行图 3.使用张量(tensor)表示数据,用“阶”表示张量的维度.关于这一点需要展开一下 0阶张量称为标量,表示单独的一个数 1阶张量称为向量, 表示一个一维数组 2阶张量称为矩阵,表示一个二维数组 …… 张量是几阶的可以通过张量右边的方括号数来判断.例如 t = [ [ [    ] ] ],显然这个…
视频地址:http://pan.baidu.com/s/1dDEgKwD 第六课统讲了hadoop几个子项目和HBase,第七课还是讲的HBase 第八课讲了PIG 第九课讲了Hive和Zookeeper 第十课讲了sqoop 这一课还是比较受用,之前就一直疑问HDFS怎么和关系型数据库联系起来 原来有这样的组件 这几节讲的很笼统,也不实践,都是快进看的. Linux whereis命令 http://www.jb51.net/os/RedHat/1103.html MR的输出目录必须是不存在的…
视频地址:http://pan.baidu.com/s/1dDEgKwD 这一节是讲师助教带着动手操作写简单的开发环境的部署和两个实例 开发环境的部署:http://www.cnblogs.com/admln/p/test-deployDevelopment.html 第一个实例就是wordcount 第二个实例 package testHadoop; import java.io.IOException; import org.apache.hadoop.conf.Configuration;…
视频地址:http://pan.baidu.com/s/1dDEgKwD 这一节讲的全是理论 任务执行优化 : 1.推测式执行: 2.重用JVM: 3.忽略模式. 除了手动修改Log4J.properties也可以在web界面修改logLevle…
视频地址:http://pan.baidu.com/s/1dDEgKwD 这个视频理论性太强,不过倒是给了自己唯一的选项就是自己实践,不用像以前那样视频中敲一个字符,我也敲一个字符 讲到的内容: 介绍了三本书 讲师说第一本适合入门者,重实验,但是里面错误不少:第二本重理论,讲的深:第三本是高级人员才能看的,属于源码级别的书,深入解析了HDFS源码,并教你怎么修改以让你的HDFS最大限度的优化到完美对接自己的项目. 无疑,这才是我想搞定的. 接下来讲了怎么安装hadoop 伪分布式 完全分布式 以…
原文:http://www.oschina.net/news/43389/the-plight-of-programmer 在大型公司中不能腐蚀自己的学习能力和时间能力. 最近我为一个内核程序员的职位面试了十几个候选人.这些候选人都来自一些不错的大公司,这些公司在芯片或嵌入式操作系统领域十分有名.这些候选人大多声称自己在内核方面有着十年的在职工作经验.他们的简历看起来非常耀眼--各种相关的项目.术语和奖项--但他们几乎无人能够回答一个非常基础的问题:当我们调用标准的malloc函数时,内核中会发…
前面我们说过二分类Logistic回归模型,但分类变量并不只是二分类一种,还有多分类,本次我们介绍当因变量为多分类时的Logistic回归模型. 多分类Logistic回归模型又分为有序多分类Logistic回归模型和无序多分类Logistic回归模型 一.有序多分类Logistic回归模型 有序多分类Logistic回归模型拟合的基本方法是拟合因变量水平数-1个Logistic回归模型,也称为累积多分类Logit模型,实际上就是将因变量依次分割成两个等级,对这两个等级建立二分类Logistic…
对于分类变量,我们知道通常使用卡方检验,但卡方检验仅能分析因素的作用,无法继续分析其作用大小和方向,并且当因素水平过多时,单元格被划分的越来越细,频数有可能为0,导致结果不准确,最重要的是卡方检验不能对连续变量进行分析. 使用线性回归模型可以解决上述的部分问题,但是传统的线性模型默认因变量为连续变量,当因变量为分类变量时,传统线性回归模型的拟合方法会出现问题,因此人们继续发展出了专门针对分类变量的回归模型.此类模型采用的基本方法是采用变量变换,使其符合传统回归模型的要求.根据变换的方法不同也就衍…
在日常学习或工作中经常会使用线性回归模型对某一事物进行预测,例如预测房价.身高.GDP.学生成绩等,发现这些被预测的变量都属于连续型变量.然而有些情况下,被预测变量可能是二元变量,即成功或失败.流失或不流失.涨或跌等,对于这类问题,线性回归将束手无策.这个时候就需要另一种回归方法进行预测,即Logistic回归. 在实际应用中,Logistic模型主要有三大用途: 1)寻找危险因素,找到某些影响因变量的"坏因素",一般可以通过优势比发现危险因素: 2)用于预测,可以预测某种情况发生的概…
Linux课程---14.linux下lamp环境如何安装 一.总结 一句话总结: 要按顺序安装,比如apache需要在php之前安装, 一.安装 gcc 编译器 二.卸载 rpm 安装的 http 和 mysql 软件 三.编译安装 php 依赖包 四.安装 apache 软件 五.安装 mysql 软件 六.安装 php 软件 七.让 Apache 支持 PHP 扩展库 八.安装 pdo-mysql 模块软件 1.linux服务进程常用命令? pstree netstat -tunpl to…
mysql数据库优化课程---14.常用的sql技巧 一.总结 一句话总结:其实就是sql中那些函数的使用 1.mysql中函数如何使用? 选择字段 其实就是作用域select的选择字段 3.转大写:ucase();例子: select id,ucase(username),age from user; 2.sql中的时间戳函数有必要学么? 没必要 其实没必要,因为我们时间都是存的时间戳 所以要是要时间戳对应的日期的话,可以去php中操作 3.重排auto_increment方法? delete…
[徐培成系列实战课程]docker篇 如何利用docker快速构建Spark独立模式的集群 1.介绍 利用docker容器技术快速构建跨节点的独立模型的Spark大数据集群.Spark是时下非常热门的大数据计算引擎,现在apche官方网站已经更新至2.3.1的版本,而且热度居高不下.很多企业越来越多的倾向于使用spark进行海量数据处理,主要是源于其高效快速的架构设计. docker也是非常热门的虚拟化技术,而且发展趋势也是越来越强大,源于其超轻量级的部署和低资源消耗著称,对于大数据从业人群,两…
laravel基础课程---14.表单验证(lavarel如何进行表单验证) 一.总结 一句话总结: lavarel的验证的功能比tp要[简单]且[强大]很多 直接控制器中:添加[规则数组]和[修改提示信息数组],然后调用[验证类]进行验证即可:$validator = \Validator::make($input,$rules,$message); 表单验证 1.控制器 // 规则 $rules=[ 'name'=>'required|unique:user|between:6,12', &qu…
js课程  1-4   js变量的作用域是怎样的 一.总结 一句话总结:只有在函数内部前面带var的变量为局部变量,局部变量只能在函数体内使用. 1.什么情况下会出现NaN类型的错误,举一例? Number转数字失败产生一个NaN类型 14 str='10abc'; 15 16 tot=Number(str)+5; 2.js中局部变量怎么定义? 只有在函数内部前面带var的变量为局部变量,变量定义时前面如果没有var则全部都是全局变量 14 function say(){ 15 var str=…
Andrew Ng机器学习课程14(补) 声明:引用请注明出处http://blog.csdn.net/lg1259156776/ 利用EM对factor analysis进行的推导还是要参看我的上一篇博文<Andrew Ng机器学习课程13>中关于EM的运算推导过程,才能对factor analysis中的相关转换有所理解. 一个具体的应用例子: 例如,在企业形象或品牌形象的研究中,消费者可以通过一个有 24 个指标构成的评价体系,评价百货商场的 24 个方面的优劣.但消费者主要关心的是三个…