11-赵志勇机器学习-DBSCAN聚类

(草稿) 两点关系的三种定义: 1. 直接密度可达:A在B的邻域内: 2. 密度可达:AB之间存在,直接密度可达的点串: 3. 密度连接:AB之间存在点k,使得Ak和Bk都密度可达: 过程: 1. 对每个点 2. 分别求满足连接性和最大性的簇 . 3. 所有点都归类,结束. 参考: https://blog.csdn.net/column/details/jqxx.html…

密度聚类(Density-based Clustering)假设聚类结构能够通过样本分布的紧密程度来确定.DBSCAN是常用的密度聚类算法,它通过一组邻域参数(ϵϵ,MinPtsMinPts)来描述样本分布的紧密程度.给定数据集DD={x⃗ 1,x⃗ 2,x⃗ 3,...,x⃗ Nx→1,x→2,x→3,...,x→N},数据集属性定义如下. ϵϵ-邻域:Nϵ(x⃗ i)Nϵ(x→i)={x⃗ j∈D|distance(x⃗ i,x⃗ j)x→j∈D|distance(x→i,x→j)≤ϵ≤ϵ}…

5.机器学习——DBSCAN聚类算法

1.优缺点优点: (1)聚类速度快且能够有效处理噪声点和发现任意形状的空间聚类: (2)与K-MEANS比较起来,不需要输入要划分的聚类个数: (3)聚类簇的形状没有偏倚: (4)可以在需要时输入过滤噪声的参数. 缺点: (1)当数据量增大时,要求较大的内存支持I/O消耗也很大: (2)当空间聚类的密度不均匀.聚类间距差相差很大时,聚类质量较差,因为这种情况下参数MinPts和Eps选取困难. (3)算法聚类效果依赖与距离公式选取,实际应用中常用欧式距离,对于高维数据,存在“维数灾难”. 参考…

10-赵志勇机器学习-meanshift

(草稿) meanshift 也是一种聚类方法. 优点在于:不需要提前指定类型数. 缺点就是计算量大过程:(最一般的做法,没有使用核函数) 1. 逐点迭代,设置为位置中心 2. 计算所有点到位置中心的距离 3. 计算位置的质心(平均) 4. 位置中心的质心的距离够小就停止,该位置中心点就属于(质心)类.(使用质心来标记所属类别) 5. 位置中心的质心的距离不够小,位置中心移动到质心,继续 6. 每个点都被标记了(标记为某个质心),统计一下,有几种标记.聚类完成. 过程:(使用核函数) 1. 逐…

12-赵志勇机器学习-Label_Propagation

(草稿) 过程: 1. 初始化所有节点的 labels 成唯一的值: 2. 对每个节点,将 label 更新为和其相连的所有节点中,标签最多的节点的label: 2. 初始化情况下,假如所有相连的节点的label没有重复,则随机选取一个. 3. 直到不再更新,停止.…

09-赵志勇机器学习-k-means

(草稿) k-means: 1. 随机选取n个中心 2. 计算每个点到各个中心的距离 3. 距离小于阈值的归成一类. 4. 计算新类的质心,作为下一次循环的n个中心 5. 直到新类的质心和对应本次循环的n个中心的偏移不大,停止. k-means++: 1. 随机选取n个中心(越远的被选取的概率越大,n个中心尽量远离) 2. 计算每个点到各个中心的距离 3. 距离小于阈值的归成一类. 4. 计算新类的质心,作为下一次循环的n个中心 5. 直到新类的质心和对应本次循环的n个中心的偏移不大,停止.…

02-赵志勇机器学习-Logistics_Regression-test（转载）

# coding:UTF-8 ''' Date:20160901 @author: zhaozhiyong ''' import numpy as np from lr_train import sig def load_weight(w): '''导入LR模型 input: w(string)权重所在的文件位置 output: np.mat(w)(mat)权重的矩阵 ''' f = open(w) w = [] for line in f.readlines(): lines = line.s…

00-赵志勇机器学习-Logistics_Regression-data.txt（转载）

4.45925637575900 8.22541838354701 0 0.0432761720122110 6.30740040001402 0 6.99716180262699 9.31339338579386 0 4.75483224215432 9.26037784240288 0 8.66190392439652 9.76797698918454 0 7.17376551727269 8.69456339325210 0 0.134053879775005 1.968780529438…

01-赵志勇机器学习-Logistics_Regression-train

Logistics Regression 二分类问题. 模型线性模型响应 sigmoid 损失函数(显示) 最小均方优化方法 BGD 例子: #coding utf-8 import numpy as np def load_data(file_name): feature_data = [] label_data = [] f = open(file_name) # 打开文件 for line in f.readlines(): # @ strip() 去除字符串首尾的空格 # @ sp…

机器学习入门-DBSCAN聚类算法

DBSCAN 聚类算法又称为密度聚类,是一种不断发张下线而不断扩张的算法,主要的参数是半径r和k值 DBSCAN的几个概念: 核心对象:某个点的密度达到算法设定的阈值则其为核心点,核心点的意思就是一个点在半径r的范围内,如果存在k个值,那么这个点就成为核心对象直接密度可达:若点p在q的邻域内,且q是核心,则p-q称为直接密度可达密度可达:若有q1, q2...qk,对任意qi与qi-1是直接密度可达,从q1和qk则是密度可达边界点: 属于一个类的非核心点,不能再发展下线噪声点: 不属于任…