基于Spark的一个生态产品--MLlib,实现了经典的机器学算法,源码分8个文件夹,classification文件夹下面包含NB.LR.SVM的实现,clustering文件夹下面包含K均值的实现,linalg文件夹下面包含SVD的实现(稀疏矩阵的表示),recommendation文件夹下面包含als,矩阵分解实现,regression文件夹下面实现了线性回归,L2的线性回归,L1的线性回归,Util文件夹下面包含了可以为各个算法生成toy-data的文件,另外还有一个Dat…
本章主要讲述MLlib包里面的分类算法实现,目前实现的有LogisticRegression.SVM.NaiveBayes ,前两种算法针对各自的目标优化函数跟正则项,调用了Optimization模块下的随机梯度的优化,并行实现的策略主要在随机梯度的计算,而贝叶斯的的并行策略主要是计算类别的先验概率跟特征的条件概率上面,详细情况如下 LogisticRegression.scala文件 第一部分 LogisticRegressionModel 类 /** * Classification mo…
阅读前提:有一定的机器学习基础, 本文重点面向的是应用,至于机器学习的相关复杂理论和优化理论,还是多多看论文,初学者推荐Ng的公开课 /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with * this work for additional information r…
利用周末的时间安装学习了下最近很火的Spark0.9.0(江湖传言,要革hadoop命,O(∩_∩)O),并体验了该框架下的机器学习包MLlib(spark解决的一个重点就是高效的运行迭代算法),下面是整个安装过程(图文并茂) 说明:安装环境,centos64位12G的服务器 安装方式,单机伪分布式版 一,安装JDK 由于机器之前已经安装了jdk1.7.0,此步骤略去,网上可以搜到很多安装教程. 二,安装Hadoop 我这里安装的是hadoop2.2.0 第1步,添加hadoop用户(可选) 第…
概述 分类决策树模型是一种描述对实例进行分类的树形结构. 决策树可以看为一个if-then规则集合,具有“互斥完备”性质 .决策树基本上都是 采用的是贪心(即非回溯)的算法,自顶向下递归分治构造. 生成决策树一般包含三个步骤:  特征选择 决策树生成 剪枝 决策树算法种类 决策树主要有 ID3, C4.5, C5.0 and CART几种, ID3, C4.5, 和CART实际都采用的是贪心(即非回溯)的算法,自顶向下递归分治构造.对于每一个决策要求分成的组之间的“差异”最大.各种决策树算法之间…
1.安装pip $ mkdir ~/.pip $ vi ~/.pip/pip.conf [global] trusted-host=mirrors.aliyun.com index-url=http://mirrors.aliyun.com/pypi/simple/ $ wget https://bootstrap.pypa.io/get-pip.py $ sudo python get-pip.py $ pip --version pip from /usr/local/lib/python2…
解决Socket粘包问题——C#代码 前天晚上,曾经的一个同事问我socket发送消息如果太频繁接收方就会有消息重叠,因为当时在外面,没有多加思考 第一反应还以为是多线程导致的数据不同步导致的,让他加个线程锁搞定.后来回到家慢慢思考感觉这个和加锁没啥关系,如果是多线程导致的,消息只会被覆盖呀.后来就上网搜索socket 消息重叠,后来了解到这属于socket粘包. 简单以自己的理解介绍下Socket粘包. Socket粘包简单说就是:Socket发送方 发送消息很频繁导致接收方接收到的消息是之前…
spark0.8.0安装与学习       原文地址:http://www.yanjiuyanjiu.com/blog/20131017/ 环境:CentOS 6.4, Hadoop 1.1.2, JDK 1.7, Spark 0.8.0, Scala 2.9.3 Spark 0.7.2 的安装请看之前的一篇博客,安装Spark集群(在CentOS上) . Spark的安装很简单,总结起来一句话:下载,解压,然后拷贝到所有机器,完毕,无需任何配置. 1. 安装 JDK 1.7 yum searc…
R语言中的机器学习包   Machine Learning & Statistical Learning (机器学习 & 统计学习)  网址:http://cran.r-project.org/web/views/MachineLearning.html维护人员:Torsten Hothorn  版本:2008-02-18 18:19:21  翻译:R-fox, 2008-03-18 机器学习是计算机科学和统计学的边缘交叉领域,R关于机器学习的包主要包括以下几个方面:   1)神经网络(N…
小姐姐带你一起学:如何用Python实现7种机器学习算法(附代码) Python 被称为是最接近 AI 的语言.最近一位名叫Anna-Lena Popkes的小姐姐在GitHub上分享了自己如何使用Python(3.6及以上版本)实现7种机器学习算法的笔记,并附有完整代码.所有这些算法的实现都没有使用其他机器学习库.这份笔记可以帮大家对算法以及其底层结构有个基本的了解,但并不是提供最有效的实现. 小姐姐她是德国波恩大学计算机科学专业的研究生,主要关注机器学习和神经网络. 七种算法包括: 线性回归…