tsne pca 自编码器绘图（CC2）——一定记得做无量纲化处理使用standardscaler，数据聚类更明显

tsne

数据不做预处理：

# coding: utf-8

import collections

import numpy as np

import os

import pickle

from sklearn.neighbors import NearestNeighbors

import numpy as np

from sklearn.manifold import TSNE

    # .......

    X = X+black_verify+white_verify+unknown_verify+bd_verify

    print black_verify_labels+white_verify_labels+unknown_verify_labels+bd_verify_labels

    y = y+black_verify_labels+white_verify_labels+unknown_verify_labels+bd_verify_labels

    print("ALL data check:")

    print("len of X:", len(X))

    print("len of y:", len(y))

    # print(unknown_verify)

    X_embedded = TSNE(n_components=2).fit_transform(X)

    with open("tsne_data_X.pkl", "wb") as f:

        pickle.dump([X_embedded, y], f)

import pickle

from collections import Counter

import numpy as np

import matplotlib.pyplot as Plot

def main():

    with open("tsne_data_X.pkl", "rb") as f:

        [X_embedded, y] = pickle.load(f, encoding='iso-8859-1')

    print(len(X_embedded))

    print(len(y))

    print(X_embedded[:3])

    print(y[:3])

    i = 0

    for l in y:

        if type(l) == type([]):

            raise Exception(str([i,y]))

        i+=1

    print(Counter(y))

    Y, labels = np.array(X_embedded), np.array(y)

    titles = ("white","black","black_verify_labels","white_verify_labels","unknown_verify_labels","bd_verify_labels")

    colors=['b', 'c', 'y', 'm', 'r', 'g', 'peru']

    for i in range(0, 6):

       idx_1 = [i1 for i1 in range(len(labels)) if labels[i1]==i]

       flg1=Plot.scatter(Y[idx_1,0], Y[idx_1,1], 20,color=colors[i],label=titles[i]);

    Plot.legend()

    Plot.savefig('tsne.pdf')

    Plot.show()

main()

数据做standard标准化处理

使用pca，不进行预处理：

使用standard scaler预处理，再做pca：

    from sklearn import preprocessing

    scaler = preprocessing.StandardScaler().fit(X)

    #scaler = preprocessing.MinMaxScaler().fit(X)

    X = scaler.transform(X)

    print("standard X sample:", X[:3])

    black_verify = scaler.transform(black_verify)

    print(black_verify)

    white_verify = scaler.transform(white_verify)

    print(white_verify)

    unknown_verify = scaler.transform(unknown_verify)

    print(unknown_verify)

    bd_verify = scaler.transform(bd_verify)

    print(bd_verify)

    #print black_verify_labels+white_verify_labels+unknown_verify_labels+bd_verify_labels

    X = np.concatenate((X,black_verify,white_verify,unknown_verify,bd_verify))

    #X = X+black_verify+white_verify+unknown_verify+bd_verify

    y = y+black_verify_labels+white_verify_labels+unknown_verify_labels+bd_verify_labels

    print("ALL data check:")

    print("len of X:", len(X))

    print("len of y:", len(y))

    # print(unknown_verify)

    X_embedded = PCA(n_components=2).fit_transform(X)

    with open("pca_data_X_scaled.pkl", "wb") as f:

        pickle.dump([X_embedded, y], f)

最后效果：

最后使用自编码器来来降维：

代码：

    X = np.concatenate((X,black_verify,white_verify,unknown_verify,bd_verify))

    y = y+black_verify_labels+white_verify_labels+unknown_verify_labels+bd_verify_labels

    print("ALL data check:")

    print("len of X:", len(X))

    print("len of y:", len(y))

    # print(unknown_verify)

    ratio_of_train = 0.8

    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=(1 - ratio_of_train))

    # Building the encoder

    encoder = tflearn.input_data(shape=[None, 75])

    encoder = tflearn.fully_connected(encoder, 64)

    encoder = tflearn.fully_connected(encoder, 2)

    # Building the decoder

    decoder = tflearn.fully_connected(encoder, 64)

    decoder = tflearn.fully_connected(decoder, 75, activation='sigmoid')

    # Regression, with mean square error

    net = tflearn.regression(decoder, optimizer='adam', learning_rate=0.0001,

                             loss='mean_square', metric=None)

    # Training the auto encoder

    model = tflearn.DNN(net, tensorboard_verbose=0)

    model.fit(X_train, X_train, n_epoch=200, validation_set=(X_test, X_test),

              run_id="auto_encoder", batch_size=1024)

    # Encoding X[0] for test

    print("\nTest encoding of X[0]:")

    # New model, re-using the same session, for weights sharing

    encoding_model = tflearn.DNN(encoder, session=model.session)

    print(encoding_model.predict([X[0]]))

    X_embedded = encoding_model.predict(X) #TSNE(n_components=2).fit_transform(X)

    with open("tflearn_auto_enc_data_X_scaled.pkl", "wb") as f:

        pickle.dump([X_embedded, y], f)

如果是迭代次数不一样，则可能有一些差别，见下图，和上面的可能有些差别：

修改64为128:

tsne pca 自编码器绘图（CC2）——一定记得做无量纲化处理使用standardscaler，数据聚类更明显的更多相关文章

CAD在网页中绘图，并为新绘的对象写扩展数据和读取扩展数据
在网页中绘图,并为新绘的对象写扩展数据和读取扩展数据.下面帮助的完整例子,在控件安装目录的 Sample\Ie\iedemo.htm 中. 主要用到函数说明: _DMxDrawX::InsertBlo ...
[Scikit-learn] 4.3 Preprocessing data
数据分析的重难点,就这么来了,欢迎欢迎,热烈欢迎. 4. Dataset transformations 4.3. Preprocessing data 4.3.1. Standardization, ...
Machine Learning系列--归一化方法总结
一.数据的标准化(normalization)和归一化数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间.在某些比较和评价的指标处理中经常会用到,去除数据的单位限 ...
多元统计之因子分析模型及Python分析示例
1. 简介因子分析是一种研究观测变量变动的共同原因和特殊原因, 从而达到简化变量结构目的的多元统计方法. 因子分析模型是主成分分析的推广, 也是利用降维的思想, 将复杂的原始变量归结为少数几个综合因 ...
深度学习之自编码器AutoEncoder
原文地址:https://blog.csdn.net/marsjhao/article/details/73480859 一.什么是自编码器(Autoencoder) 自动编码器是一种数据的压缩算法, ...
群体结构图形三剑客——PCA图
重测序便宜了,群体的测序和分析也多了起来.群体结构分析,是重测序最常见的分析内容.群体结构分析应用十分广泛,首先其本身是群体进化关系分析里面最基础的分析内容,其次在进行GWAS分析的时候,本身也需要使 ...
PRML读书会第十二章 Continuous Latent Variables（PCA，Principal Component Analysis，PPCA，核PCA，Autoencoder，非线性流形）
主讲人戴玮 (新浪微博: @戴玮_CASIA) Wilbur_中博(1954123) 20:00:49 我今天讲PRML的第十二章,连续隐变量.既然有连续隐变量,一定也有离散隐变量,那么离散隐变量是 ...
iOS开发--绘图教程
本文是<Programming iOS5>中Drawing一章的翻译,考虑到主题完整性,翻译版本中加入了一些书中未涉及到的内容.希望本文能够对你有所帮助. 本文由海水的味道翻译整理,转载请 ...
iOS绘图教程 (转，拷贝以记录)
本文是<Programming iOS5>中Drawing一章的翻译,考虑到主题完整性,在翻译过程中我加入了一些书中没有涉及到的内容.希望本文能够对你有所帮助. 转自:http://www ...

随机推荐

Python3.6全栈开发实例[009]
9.字典dic,dic = {'k1': "v1", "k2": "v2", "k3": [11,22,33]}a.请循 ...
TLS and SSL
SSL:(Secure Socket Layer,安全套接字层),位于可靠的面向连接的网络层协议和应用层协议之间的一种协议层.SSL通过互相认证.使用数字签名确保完整性.使用加密确保私密性,以实现客户 ...
C#中的foreach和yield
1. foreach C#编译器会把foreach语句转换为IEnumerable接口的方法和属性. foreach (Person p in persons) { Console.WriteLine ...
一步步讲解如何开源自己的项目到GitHub上，Mac机示例
如果你有自己的优秀项目,想要分享给大家,那GitHub会是你正确的选择.如何才能将自己的项目上传到GitHub上呢?接下来请一步一步跟着走. 需要准备的资源: 1.一台Mac机 2.安装git客户端( ...
SpringBoot整合集成redis
Redis安装:https://www.cnblogs.com/zwcry/p/9505949.html 1.pom.xml <project xmlns="http://maven. ...
jsonp跨域总结
同源限制: 浏览器不允许一个域的脚本请求另一个域的文档,通俗来说,不允许访问不同协议.不同域名或不同端口的文档跨域处理方法: 1.jsonp 前提: 浏览器虽然对ajax请求做出了限制,但scrip ...
unity json解析IPA后续
以前说到的,有很大的限制,只能解析简单的类,如果复杂的就会有问题,从老外哪里看到一片博客,是将类中的list 等复杂对象序列化, using UnityEngine; using System.C ...
自动生成Mapper代码
public class BeanMapperTest { @Test public void build() throws Exception { Class clazz = RiskAccess. ...
POI实现数据的导入
1.POI技术的概述? POI技术:apache POI是可以对微软office文档进行读和写的工具. l HSSF:操作97格式的excel,扩展名:.xls 纯二进制,最大行数65535. l X ...
margin和text-align以及align
margin和text-align是css样式,align是html的 <style> .test { width: 400px; height: 200px; background: g ...

tsne pca 自编码器 绘图（CC2）——一定记得做无量纲化处理使用standardscaler，数据聚类更明显

tsne pca 自编码器 绘图（CC2）——一定记得做无量纲化处理使用standardscaler，数据聚类更明显的更多相关文章

随机推荐

热门专题

tsne pca 自编码器绘图（CC2）——一定记得做无量纲化处理使用standardscaler，数据聚类更明显

tsne pca 自编码器绘图（CC2）——一定记得做无量纲化处理使用standardscaler，数据聚类更明显的更多相关文章