import numpy as np from sklearn.datasets import make_blobs from sklearn.cluster import KMeans from sklearn.metrics import pairwise_distances import matplotlib.pyplot as plt import matplotlib as mpl from cycler import cycler from .tools import discret…
版权声明:<—— 本文为作者呕心沥血打造,若要转载,请注明出处@http://blog.csdn.net/gamer_gyt <—— 目录(?)[+] ====================================================================== 本系列博客主要参考 Scikit-Learn 官方网站上的每一个算法进行,并进行部分翻译,如有错误,请大家指正 转载请注明出处 ======================================…
一.聚类的概念 聚类分析是在数据中发现数据对象之间的关系,将数据进行分组,组内的相似性越大,组间的差别越大,则聚类效果越好.我们事先并不知道数据的正确结果(类标),通过聚类算法来发现和挖掘数据本身的结构信息,对数据进行分簇(分类).聚类算法的目标是,簇内相似度高,簇间相似度低 二.基本的聚类分析算法 1. K均值(K-Means): 基于原型的.划分的距离技术,它试图发现用户指定个数(K)的簇. 2. 凝聚的层次距离: 思想是开始时,每个点都作为一个单点簇,然后,重复的合并两个最靠近的簇,直到尝…
R会把所有的对象读存入虚拟内存中.对我们大多数用户来说,这种设计可以提高与R相互的速度,但是当分析大数据集时,这种设计会降低程序运行速度有时还会产生跟内存相关的错误. 内存限制主要取决于R的build版(32位还是64位),而在32位的windows下,取决于操作系统的版本.以cannot allocate vectoe of size开头的出错信息表示无法分配充足的连续内存,而以cannot allocate vector of length开头的出错信息表示超越了地址限制(address l…
前言 本文是讲如何在centos7(64位) 安装ambari+hdp,如果在装有原生hadoop等集群的机器上安装,需要先将集群服务停掉,然后将不需要的环境变量注释掉即可,如果不注释掉,后面虽然可以安装成功,但是在启动某些服务的时候可能会有异常,比如最后提到的hive启动异常.本文适合系统: RedHat7.CentOS7.Oracle Linux7(都是64位)注意:centos7中文系统有bug(python脚本中文识别问题),需要使用英文系统.本文仅作参考(基本每个配置博客都有局限性和坑…
不多说,直接上干货! 我的集群机器情况是 bigdatamaster(192.168.80.10).bigdataslave1(192.168.80.11)和bigdataslave2(192.168.80.12) 然后,安装目录是在/home/hadoop/app下. 官方建议在master机器上安装Hue,我这里也不例外.安装在bigdatamaster机器上. Hue版本:hue-3.9.0-cdh5.5.4 需要编译才能使用(联网) 说给大家的话:大家电脑的配置好的话,一定要安装clou…
大数据集群Linux CentOS 7.6 系统调优篇 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.设置主机hosts文件 1>.修改主机名 [root@node100.yinzhengjie.org.cn ~]# cat /etc/hostname node100.yinzhengjie.org.cn [root@node100.yinzhengjie.org.cn ~]# 2>. 添加集群各节点主机名称映射关系 [root@node100.yinzhengjie.…
使用ansible离线部署CDH 5.15.1大数据集群 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 在此之前,我之前分享过使用shell自定义脚本部署大数据集群,不管是部署CDH集群还是部署HDP集群基本上套路都一样,调优的方式也都大同小异.只是操作界面上可能存在一定的差异.最近赶上公司搞自动化运维项目,我们用到了ansible的一些功能,本篇博客主要记录ansible部署CDH服务. 一.安装ansible 1>.操作环境介绍 注意,请检查你的虚拟机是否可以正常联网,如…
本文以填报报表为例,通过分页的方式,来解决大数据集展示的问题. 实现的思想就是通过在SQL里筛选部分数据库数据,以达到浏览器可以合理的展示报表页面.(数据分段,语句我这采用的是MYSQL,如果要用其他数据库,请查看FineReport帮助文档) 步骤一:打开fenye.cpt文件. 模板界面如下 两个ds,和一部分数据,及隐藏的一行. 隐藏一行内容如下 这里数据的功能会在下面说起. ds1 里的内容如下 ​ 语句内容 SELECT * from aaa limit ${f},${p} 目的是从第…
对于广大的站长来说网站被K或者是被降权是经常有的事情,不过我基本上还没有看见过Google的K站情况,也就是给网站降个权什么的处罚.如果你是用了很严重的作弊手段的话,那指定会是被Google给K掉的.对于一般的站GOOGLE只会是做降权处理. 那么网站被K或者是降权了怎么办?首先运到这种情况不要急,应该先分析一下网站被K的原因,查看被K是因为什么被K或者处罚的.百度或者是Google对你是如何处罚的?1.首页在搜索引擎中消失了:2.首页排名在搜索引擎中消失了,但是在搜索栏中还是可以找到的:3.整…