基于python的数学建模---Fuzzy C-Means（模糊C均值聚类）

簇数的确定：

要用到k-means里面的轮廓系数

基于python的数学建模---轮廓系数的确定 - 坤丶 - 博客园 (cnblogs.com)

模糊c的代码

import copy

import math

import random

import time

global MAX  # 用于初始化隶属度矩阵U

MAX = 10000.0

global Epsilon  # 结束条件

Epsilon = 0.0000001

def import_data_format_iris(file):

    """

    file这里是输入文件的路径，如iris.txt.

    格式化数据，前四列为data，最后一列为类标号（有0，1，2三类）

    如果是你自己的data，就不需要执行此段函数了。

    """

    data = []

    cluster_location = []

    with open(str(file), 'r') as f:

        for line in f:

            current = line.strip().split(",")  # 对每一行以逗号为分割，返回一个list

            current_dummy = []

            for j in range(0, len(current) - 1):

                current_dummy.append(float(current[j]))  # current_dummy存放data

            j += 1

            # 下面注这段话提供了一个范例：若类标号不是0，1，2之类数字时该怎么给数据集

            # 归类

            if current[j] == "Iris-setosa\n":

                cluster_location.append(0)

            elif current[j] == "Iris-versicolor\n":

                cluster_location.append(1)

            else:

                cluster_location.append(2)

            data.append(current_dummy)

    print("加载数据完毕")

    return data

#    return data , cluster_location

def randomize_data(data):

    """

    该功能将数据随机化，并保持随机化顺序的记录

    """

    order = list(range(0, len(data)))

    random.shuffle(order)

    new_data = [[] for i in range(0, len(data))]

    for index in range(0, len(order)):

        new_data[index] = data[order[index]]

    return new_data, order

def de_randomise_data(data, order):

    """

    此函数将返回数据的原始顺序，将randomise_data()返回的order列表作为参数

    """

    new_data = [[] for i in range(0, len(data))]

    for index in range(len(order)):

        new_data[order[index]] = data[index]

    return new_data

def print_matrix(list):

    """

    以可重复的方式打印矩阵

    """

    for i in range(0, len(list)):

        print(list[i])

def initialize_U(data, cluster_number):

    """

    这个函数是隶属度矩阵U的每行加起来都为1. 此处需要一个全局变量MAX.

    """

    global MAX

    U = []

    for i in range(0, len(data)):

        current = []

        rand_sum = 0.0

        for j in range(0, cluster_number):

            dummy = random.randint(1, int(MAX))

            current.append(dummy)

            rand_sum += dummy

        for j in range(0, cluster_number):

            current[j] = current[j] / rand_sum

        U.append(current)

    return U

def distance(point, center):

    """

    该函数计算2点之间的距离（作为列表）。我们指欧几里德距离。闵可夫斯基距离

    """

    if len(point) != len(center):

        return -1

    dummy = 0.0

    for i in range(0, len(point)):

        dummy += abs(point[i] - center[i]) ** 2

    return math.sqrt(dummy)

def end_conditon(U, U_old):

    """

    结束条件。当U矩阵随着连续迭代停止变化时，触发结束

    """

    global Epsilon

    for i in range(0, len(U)):

        for j in range(0, len(U[0])):

            if abs(U[i][j] - U_old[i][j]) < Epsilon:

                return False

    return True

def normalise_U(U):

    """

    在聚类结束时使U模糊化。每个样本的隶属度最大的为1，其余为0

    """

    for i in range(0, len(U)):

        maximum = max(U[i])

        for j in range(0, len(U[0])):

            if U[i][j] != maximum:

                U[i][j] = 0

            else:

                U[i][j] = 1

    return U

# m的最佳取值范围为[1.5，2.5]

def fuzzy(data, cluster_number, m):

    """

    这是主函数，它将计算所需的聚类中心，并返回最终的归一化隶属矩阵U.

    参数是：簇数(cluster_number)和隶属度的因子(m)

    """

    # 初始化隶属度矩阵U

    U = initialize_U(data, cluster_number)

    # print_matrix(U)

    # 循环更新U

    while (True):

        # 创建它的副本，以检查结束条件

        U_old = copy.deepcopy(U)

        # 计算聚类中心

        C = []

        for j in range(0, cluster_number):

            current_cluster_center = []

            for i in range(0, len(data[0])):

                dummy_sum_num = 0.0

                dummy_sum_dum = 0.0

                for k in range(0, len(data)):

                    # 分子

                    dummy_sum_num += (U[k][j] ** m) * data[k][i]

                    # 分母

                    dummy_sum_dum += (U[k][j] ** m)

                # 第i列的聚类中心

                current_cluster_center.append(dummy_sum_num / dummy_sum_dum)

            # 第j簇的所有聚类中心

            C.append(current_cluster_center)

        # 创建一个距离向量, 用于计算U矩阵。

        distance_matrix = []

        for i in range(0, len(data)):

            current = []

            for j in range(0, cluster_number):

                current.append(distance(data[i], C[j]))

            distance_matrix.append(current)

        # 更新U

        for j in range(0, cluster_number):

            for i in range(0, len(data)):

                dummy = 0.0

                for k in range(0, cluster_number):

                    # 分母

                    dummy += (distance_matrix[i][j] / distance_matrix[i][k]) ** (2 / (m - 1))

                U[i][j] = 1 / dummy

        if end_conditon(U, U_old):

            print("结束聚类")

            break

    print("标准化 U")

    U = normalise_U(U)

    return U

def checker_iris(final_location):

    """

    和真实的聚类结果进行校验比对

    """

    right = 0.0

    for k in range(0, 3):

        checker = [0, 0, 0]

        for i in range(0, 50):

            for j in range(0, len(final_location[0])):

                if final_location[i + (50 * k)][j] == 1:  # i+(50*k)表示 j表示第j类

                    checker[j] += 1  # checker分别统计每一类分类正确的个数

        right += max(checker)  # 累加分类正确的个数

    print('分类正确的个数是:', right)

    answer = right / 150 * 100

    return "准确率：" + str(answer) + "%"

if __name__ == '__main__':

    # 加载数据

    data = import_data_format_iris("tae.csv")

    # print_matrix(data)

    # 随机化数据

    data, order = randomize_data(data)

    # print_matrix(data)

    start = time.time()

    # 现在我们有一个名为data的列表，它只是数字

    # 我们还有另一个名为cluster_location的列表，它给出了正确的聚类结果位置

    # 调用模糊C均值函数

    final_location = fuzzy(data, 3, 2)

    # 还原数据

    final_location = de_randomise_data(final_location, order)

    #    print_matrix(final_location)

    # 准确度分析

    print(checker_iris(final_location))

    print("用时：{0}".format(time.time() - start))

加载数据完毕

结束聚类

标准化 U

分类正确的个数是: 71.0

准确率：47.333333333333336%

用时：0.003954410552978516

　　当然这个数据集是随意找的，准确率太低了

基于python的数学建模---Fuzzy C-Means（模糊C均值聚类）的更多相关文章

基于核方法的模糊C均值聚类
摘要: 本文主要针对于FCM算法在很大程度上局限于处理球星星团数据的不足,引入了核方法对算法进行优化. 与许多聚类算法一样,FCM选择欧氏距离作为样本点与相应聚类中心之间的非相似性指标,致使算法趋向 ...
使用Python scipy linprog 线性规划求最大值或最小值(使用Python学习数学建模笔记)
函数格式 scipy.optimize.linprog(c, A_ub=None, b_ub=None, A_eq=None, b_eq=None, bounds=None, method='simp ...
Python数学建模-01.新手必读
Python 完全可以满足数学建模的需要. Python 是数学建模的最佳选择之一,而且在其它工作中也无所不能. 『Python 数学建模 @ Youcans』带你从数模小白成为国赛达人. 1. 数学 ...
机器学习笔记----Fuzzy c-means(FCM)模糊聚类详解及matlab实现
前言:这几天一直都在研究模糊聚类.感觉网上的文档都没有一个详细而具体的讲解,正好今天有时间,就来聊一聊模糊聚类. 一:模糊数学我们大家都知道计算机其实只认识两个数字0,1.我们平时写程序其实也是这样 ...
Python数学建模-02.数据导入
数据导入是所有数模编程的第一步,比你想象的更重要. 先要学会一种未必最佳,但是通用.安全.简单.好学的方法. 『Python 数学建模 @ Youcans』带你从数模小白成为国赛达人. 1. 数据导入 ...
Python小白的数学建模课-A1.国赛赛题类型分析
分析赛题类型,才能有的放矢. 评论区留下邮箱地址,送你国奖论文分析『Python小白的数学建模课 @ Youcans』带你从数模小白成为国赛达人. 1. 数模竞赛国赛 A题类型分析年份题目要 ...
Python小白的数学建模课-A3.12 个新冠疫情数模竞赛赛题与点评
新冠疫情深刻和全面地影响着社会和生活,已经成为数学建模竞赛的背景帝. 本文收集了与新冠疫情相关的的数学建模竞赛赛题,供大家参考,欢迎收藏关注. 『Python小白的数学建模课 @ Youcans』带你 ...
Python小白的数学建模课-07 选址问题
选址问题是要选择设施位置使目标达到最优,是数模竞赛中的常见题型. 小白不一定要掌握所有的选址问题,但要能判断是哪一类问题,用哪个模型. 进一步学习 PuLP工具包中处理复杂问题的字典格式快捷建模方法. ...
Python小白的数学建模课-09 微分方程模型
小白往往听到微分方程就觉得害怕,其实数学建模中的微分方程模型不仅没那么复杂,而且很容易写出高水平的数模论文. 本文介绍微分方程模型的建模与求解,通过常微分方程.常微分方程组.高阶常微分方程 3个案例手 ...
Python小白的数学建模课-B5. 新冠疫情 SEIR模型
传染病的数学模型是数学建模中的典型问题,常见的传染病模型有 SI.SIR.SIRS.SEIR 模型. 考虑存在易感者.暴露者.患病者和康复者四类人群,适用于具有潜伏期.治愈后获得终身免疫的传染病. 本 ...

随机推荐

如何使用memstat 插件分析内存泄漏问题
对于内存泄漏问题,如何分析并找到内存泄漏的原因是个难点.KingbaseES 提供了memstat 扩展插件用于分析内存泄漏的原因. 一.使用 memstat 插件 1.修改shared_preloa ...
自定义异常、Java网络编程
day04 throw关键字 throw用来对外主动抛出一个异常,通常下面两种情况我们主动对外抛出异常: 1:当程序遇到一个满足语法,但是不满足业务要求时,可以抛出一个异常告知调用者. 2:程序执行遇 ...
跟羽夏学 Ghidra ——导航
写在前面此系列是本人一个字一个字码出来的,包括示例和实验截图.本人非计算机专业,可能对本教程涉及的事物没有了解的足够深入,如有错误,欢迎批评指正. 如有好的建议,欢迎反馈.码字不易,如果本篇文章 ...
【java8新特性】01：函数式编程及Lambda入门
我们首先需要先了解什么是函数式编程.函数式编程是一种结构化编程范式.类似于数学函数.它关注的重点在于数据操作.或者说它所提倡的思想是做什么,而不是如何去做. 自Jdk8中开始.它也支持函数式编程.函数 ...
CentOS7部署FastDFS+nginx模块
软件下载 # 已经事先把所需软件下载好并上传到/usr/local/src目录了 https://github.com/happyfish100/libfastcommon/archive/V1.0. ...
使用 Auditbeat 模块监控 shell 命令
使用 Auditbeat 模块监控 shell 命令 Auditbeat Audited 模块可以用来监控所有用户在系统上执行的 shell 命令.在终端用户偶尔才会登录的服务器上,通常需要进行监控. ...
Solutions：Elastic SIEM - 适用于家庭和企业的安全防护（二）
常见Content-Type（MIME）列表
Content-Type(MIME)用于标识发送或接收数据的类型,浏览器根据该参数来决定数据的打开方式.多用于指定一些客户端自定义的文件,以及一些媒体文件的打开方式. 文件扩展名 Content-Ty ...
Mapping
dynamic针对的是新增的字段,不是对mapping中已有的字段 (原有mapping中的字段不受影响,只影响新增的字段) 当dynamic被设置成false的时候,存在新增字段可以被写入到索引文件 ...
MySql的InnoDB的三层B+树可以存储两千万左右条数据的计算逻辑
总结/朱季谦 B+树是一种在非叶子节点存放排序好的索引而在叶子节点存放数据的数据结构,值得注意的是,在叶子节点中,存储的并非只是一行表数据,而是以页为单位存储,一个页可以包含多行表记录.非叶子节点存放 ...

基于python的数学建模---Fuzzy C-Means（模糊C均值聚类）

基于python的数学建模---Fuzzy C-Means（模糊C均值聚类）的更多相关文章

随机推荐

热门专题