一.奇异值分解简介 奇异值分解简称SVD(singular value decomposition),可以理解为:将一个比较复杂的矩阵用更小更简单的三个子矩阵的相乘来表示,这三个小矩阵描述了大矩阵重要的特性.SVD的用处有很多,比如:LSA(隐性语义分析).推荐系统.数据降维.信号处理与统计等.        任何矩阵都可以使用SVD进行分解,对于一个MxN(M>=N)的矩阵M,存在以下的SVD分解: ∑是一个对角矩阵,其中的元素值就是奇异值,并且按照从大到小的顺序排列.        在很多情…
一.潜在因子(Latent Factor)推荐算法 本算法整理自知乎上的回答@nick lee.应用领域:"网易云音乐歌单个性化推荐"."豆瓣电台音乐推荐"等.        这种算法是在NetFlix(没错,就是用大数据捧火<纸牌屋>的那家公司)的推荐算法竞赛中获奖的算法,最早被应用于电影推荐中,在实际应用中比现在排名第一的 @邰原朗所介绍的算法误差(RMSE)会小不少,效率更高.下面仅利用基础的矩阵知识来介绍下这种算法.        该算法的思想是…
一.MADlib简介 MADlib是Pivotal公司与伯克利大学合作的一个开源机器学习库,提供了精确的数据并行实现.统计和机器学习方法对结构化和非结构化数据进行分析,主要目的是扩展数据库的分析能力,可以非常方便的加载到数据库中, 扩展数据库的分析功能,2015年7月MADlib成为Apache软件基金会的孵化项目,其最新版本为MADlib1.11,可以用在Greenplum.PostgreSQL和HAWQ等数据库系统中.官网地址:http://madlib.incubator.apache.o…
一.关联规则简介 关联规则挖掘的目标是发现数据项集之间的关联关系,是数据挖据中一个重要的课题.关联规则最初是针对购物篮分析(Market Basket Analysis)问题提出的.假设超市经理想更多地了解顾客的购物习惯,特别是想知道,哪些商品顾客可能会在一次购物时同时购买?为回答该问题,可以对商店的顾客购买记录进行购物篮分析.该过程通过发现顾客放入"购物篮"中的不同商品之间的关联,分析顾客的购物习惯.这种关联的发现可以帮助零售商了解哪些商品频繁地被顾客同时购买,从而帮助他们开发更好的…
一.主成分分析(Principal Component Analysis,PCA)简介 在数据挖掘中经常会遇到多个变量的问题,而且在多数情况下,多个变量之间常常存在一定的相关性.例如,网站的"浏览量"和"访客数"往往具有较强的相关关系,而电商应用中的"下单数"和"成交数"也具有较强的相关关系.这里的相关关系可以直观理解为当浏览量较高(或较低)时,应该很大程度上认为访客数也较高(或较低).这个简单的例子中只有两个变量,当变量个数…
一.定义 这里不讨论向量严格的数学定义.在Madlib中,可以把向量简单理解为矩阵.矩阵是Madlib中数据的基本格式,当矩阵只有一维时,就是向量,1行n列的矩阵称为行向量,m行1列的矩阵称为列向量,1行1列的矩阵称为标量. 二.线性代数函数 Madlib的线性代数模块(linalg module)包括基本的线性代数操作的实用函数.利用线性代数函数可以很方便地实现新算法.这些函数操作向量(1维FLOAT8数组)和矩阵(2维FLOAT8数组).注意,这类函数只接受FLOAT8数组参数,因此在调用函…
矩阵是Madlib中数据的基本格式,通常是二维的.在Madlib中,数组的概念与向量类似,数组通常是一维的,是矩阵的一种特殊形式. 一.矩阵表示 MADlib为矩阵提供了两种表示形式:稠密和稀疏. 1. 稠密 矩阵被表示为一维数组的分布式集合,例如3x10的矩阵如下表: row_id | row_vec --------+------------------------- 1 | {9,6,5,8,5,6,6,3,10,8} 2 | {8,2,2,6,6,10,2,1,9,9} 3 | {3,9…
接上一章,Windows玩转Kubernetes系列1-VirtualBox安装Centos,我们开始学习如何在Centos中安装Docker 准备 关闭防火墙 防火墙一定要提前关闭,否则在后续安装K8S集群的时候,会有一些问题,执行下面语句: systemctl stop firewalld & systemctl disable firewalld 关闭Swap vi /etc/fstab 注掉swap 关闭SeLinux setenforce 0 配置yum源 cd /etc/yum.re…
以往文章参考: Windows玩转Kubernetes系列1-VirtualBox安装Centos Windows玩转Kubernetes系列2-Centos安装Docker 安装K8S yum install -y kubeadm 相应的依赖包也会kubelet.kubeadm.kubectl.kubernetes-cni也会安装上 kubeadm:k8集群的一键部署工具,通过把k8的各类核心组件和插件以pod的方式部署来简化安装过程 kubelet:运行在每个节点上的node agent,k…
一.MADlib简介 MADlib是Pivotal公司与伯克利大学合作的一个开源机器学习库,提供了精确的数据并行实现.统计和机器学习方法对结构化和非结构化数据进行分析,主要目的是扩展数据库的分析能力,可以非常方便的加载到数据库中, 扩展数据库的分析功能,2015年7月MADlib成为Apache软件基金会的孵化项目,其最新版本为MADlib1.11,可以用在Greenplum.PostgreSQL和HAWQ等数据库系统中. 1. 设计思想 驱动MADlib架构的主要思想与Hadoop是一致的,主…