KNN cosine 余弦相似度计算

# coding: utf-8

import collections

import numpy as np

import os

from sklearn.neighbors import NearestNeighbors

def cos(vector1,vector2):

    dot_product = 0.0;

    normA = 0.0;

    normB = 0.0;

    for a,b in zip(vector1,vector2):

        dot_product += a*b

        normA += a**2

        normB += b**2

    if normA == 0.0 or normB==0.0:

        return None

    else:

        return dot_product / ((normA*normB)**0.5)

def iterbrowse(path):

    for home, dirs, files in os.walk(path):

        for filename in files:

            yield os.path.join(home, filename)

def get_data(filename):

    white_verify = []

    with open(filename) as f:

        lines = f.readlines()

        for line in lines:

            a = line.split("\t")

            if len(a) != 78:

                print(line)

                raise Exception("fuck")

            white_verify.append([float(n) for n in a[3:]])

    return white_verify

unwanted_features = {6, 7, 8, 41,42,43,67,68,69,70,71,72,73,74,75}

def get_wanted_data(x):

    return x

    """

    ans = []

    for item in x:

        #row = [data for i, data in enumerate(item) if i+6 in wanted_feature]

        row = [data for i, data in enumerate(item) if i+6 not in unwanted_features]

        ans.append(row)

        #assert len(row) == len(wanted_feature)

        assert len(row) == len(x[0])-len(unwanted_features)

    return ans

    """

if __name__ == "__main__":

    neg_file = "cc_data/black/black_all.txt"

    pos_file = "cc_data/white/white_all.txt"

    X = []

    y = []

    # if os.path.isfile(pos_file):

    #     if pos_file.endswith('.txt'):

    #         pos_set = np.genfromtxt(pos_file)

    #     elif pos_file.endswith('.npy'):

    #         pos_set = np.load(pos_file)

    #     X.extend(pos_set)

    #     y += [0] * len(pos_set)

    # print("len of X(white):", len(X))

    if os.path.isfile(neg_file):

        if neg_file.endswith('.txt'):

            neg_set = np.genfromtxt(neg_file)

        elif neg_file.endswith('.npy'):

            neg_set = np.load(neg_file)

        X.extend(list(neg_set) * 1)

        y += [1] * (1 * len(neg_set))

    print("len of X:", len(X))

    # print("X sample:", X[:3])

    # print("len of y:", len(y))

    # print("y sample:", y[:3])

    X = [x[3:] for x in X]

    X = get_wanted_data(X)

    # print("filtered X sample:", X[:3])

    black_verify = []

    for f in iterbrowse("todo/top"):

        print(f)

        black_verify += get_data(f)

    # print(black_verify)

    black_verify = get_wanted_data(black_verify)

    black_verify_labels = [1] * len(black_verify)

    white_verify = get_data("todo/white_verify.txt")

    # print(white_verify)

    white_verify = get_wanted_data(white_verify)

    white_verify_labels = [0] * len(white_verify)

    unknown_verify = get_data("todo/pek_feature74.txt")

    unknown_verify = get_wanted_data(unknown_verify)

    bd_verify = get_data("guzhaoshen_pek_out.txt")

    # print(unknown_verify)

    # samples = [[0., 0., 0.], [0., .5, 0.], [1., 1., .5]]

    #neigh = NearestNeighbors(n_neighbors=3)

    neigh = NearestNeighbors(n_neighbors=1, metric='cosine')

    neigh.fit(X)

    print("neigh.kneighbors(black_verify)")

    nearest_points = (neigh.kneighbors(black_verify))

    print(nearest_points)

    for i, x in enumerate(black_verify):

        print(i, nearest_points[1][i], "cosine:", cos(x, nearest_points[1][i]))

    #print(neigh.predict(black_verify))

    print("neigh.kneighbors(white_verify)")

    nearest_points = (neigh.kneighbors(white_verify))

    print(nearest_points)

    for i, x in enumerate(white_verify):

        print(i, nearest_points[1][i], "cosine:", cos(x, nearest_points[1][i]))

    #print(neigh.predict(white_verify))

    print("neigh.kneighbors(unknown_verify)")

    nearest_points = (neigh.kneighbors(unknown_verify))

    print(nearest_points)

    for i, x in enumerate(unknown_verify):

        print(i, nearest_points[1][i], "cosine:", cos(x, nearest_points[1][i]))

    #print(neigh.predict(unknown_verify))

    print("neigh.kneighbors(self)")

    print(neigh.kneighbors(X[:3]))

    #print(neigh.predict(X[:3]))

    print("neigh.kneighbors(bd pek)")

    print(neigh.kneighbors(bd_verify))

    nearest_points = (neigh.kneighbors(bd_verify))

    print(nearest_points)

    for i, x in enumerate(bd_verify):

        print(i, nearest_points[1][i], "cosine:", cos(x, nearest_points[1][i]))

输出示例：

neigh.kneighbors(white_verify)
(array([[ 0.01140831],
       [ 0.0067373 ],
       [ 0.00198682],
       [ 0.00686728],
       [ 0.00210445],
       [ 0.00061413],
       [ 0.00453888]]), array([[11032],
       [ 967],
       [11091],
       [13149],
       [11091],
       [19041],
       [13068]]))
(0, array([11032]), 'cosine:', 1.0)
(1, array([967]), 'cosine:', 1.0)
(2, array([11091]), 'cosine:', 1.0)
(3, array([13149]), 'cosine:', 1.0)
(4, array([11091]), 'cosine:', 1.0)
(5, array([19041]), 'cosine:', 1.0)
(6, array([13068]), 'cosine:', 1.0)

样本质量堪忧啊！！！

注意：如果是常规knn，计算距离时候记得标准化。如果各个维度的数据属性衡量单位不一样：

    from sklearn import preprocessing

    scaler = preprocessing.StandardScaler().fit(X)

    X = scaler.transform(X)

    print("standard X sample:", X[:3])

    black_verify = scaler.transform(black_verify)

    print(black_verify)

    white_verify = scaler.transform(white_verify)

    print(white_verify)

    unknown_verify = scaler.transform(unknown_verify)

    print(unknown_verify)

KNN cosine 余弦相似度计算的更多相关文章

两矩阵各向量余弦相似度计算操作向量化.md
余弦相似度计算: \cos(\bf{v_1}, \bf{v_2}) = \frac{\left( v_1 \times v_2 \right)}{||v_1|| * ||v_2|| } \cos(\b ...
java算法（1）---余弦相似度计算字符串相似率
余弦相似度计算字符串相似率功能需求:最近在做通过爬虫技术去爬取各大相关网站的新闻,储存到公司数据中.这里面就有一个技术点,就是如何保证你已爬取的新闻,再有相似的新闻或者一样的新闻,那就不存储到数据 ...
Python简单实现基于VSM的余弦相似度计算
在知识图谱构建阶段的实体对齐和属性值决策.判断一篇文章是否是你喜欢的文章.比较两篇文章的相似性等实例中,都涉及到了向量空间模型(Vector Space Model,简称VSM)和余弦相似度计算相关知 ...
Spark Mllib里相似度度量（基于余弦相似度计算不同用户之间相似性）（图文详解）
不多说,直接上干货! 常见的推荐算法 1.基于关系规则的推荐 2.基于内容的推荐 3.人口统计式的推荐 4.协调过滤式的推荐协调过滤算法,是一种基于群体用户或者物品的典型推荐算法,也是目前常用的推荐 ...
<tf-idf + 余弦相似度> 计算文章的相似度
背景知识: (1)tf-idf 按照词TF-IDF值来衡量该词在该文档中的重要性的指导思想:如果某个词比较少见,但是它在这篇文章中多次出现,那么它很可能就反映了这篇文章的特性,正是我们所需要的关键词. ...
余弦相似度-Cosine Similar（转载）
余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小.相比距离度量,余弦相似度更加注重两个向量在方向上的差异,而非距离或长度上. 与欧几里德距离类似,基于余弦相似度的计算方法也是把用 ...
word2vec词向量训练及中文文本类似度计算
本文是讲述怎样使用word2vec的基础教程.文章比較基础,希望对你有所帮助! 官网C语言下载地址:http://word2vec.googlecode.com/svn/trunk/ 官网Python ...
3. 文本相似度计算-DSSM算法
1. 文本相似度计算-文本向量化 2. 文本相似度计算-距离的度量 3. 文本相似度计算-DSSM算法 4. 文本相似度计算-CNN-DSSM算法 1. 前言最近在学习文本相似度的计算,前面两篇文章 ...
余弦相似度及基于python的三种代码实现、与欧氏距离的区别
1.余弦相似度可用来计算两个向量的相似程度对于如何计算两个向量的相似程度问题,可以把这它们想象成空间中的两条线段,都是从原点([0, 0, ...])出发,指向不同的方向.两条线段之间形成一个夹角, ...

随机推荐

洗牌算法Fisher-Yates以及C语言随机数的产生
前些天在蘑菇街的面试中碰到一道洗牌的算法题,拿出来和大家分享一下! 原题是:54张有序的牌,如何无序的发给3个人? 这个题是运用经典的洗牌算法完成.首先介绍一种经典的洗牌算法--Fisher-Yate ...
Hard模式学编程
靖难: 我一直推崇一种学习编程的方法,就是learn programming the hard way,我把它翻译为Hard模式学编程 . 我觉得他有以下几个要领: 1. 一开始学习的时候,要尽量去化 ...
Linux用户相关文件之组文件
组信息文件: 1.文件地址: /etc/group -rw-r--r--. 1 root root 492 10月 6 21:56 /etc/group 2.文件内容: xiaol:x:500: 3. ...
通过Python操作hbase api
# coding=utf-8 # Author: ruin """ discrible: """ from thrift.transport ...
c# 获取网页源代码(支持cookie),最简单代码
/// /// 获取网页源码 public static string GetHtmls(string url, string referer = "", string cooki ...
OpenAI gym的建模思想
一.强化学习问题需要描述那些内容强化学习中最主要的两类对象是“个体”和“环境”,其次还有一些像“即时奖励”.“收获”.“状态”.“行为”.“价值”.“策略”.“学习”.“控制”等概念.这些概念把个体 ...
WCF 远程服务器返回了意外响应: (400) Bad Request。
WCF 端 <system.web> <httpRuntime maxRequestLength="2147483647" /> </system. ...
方阵行列式并行化计算（OpenMP，MPI），并计算加速比
00][100].在创建方阵时,方阵的阶数N(N<100)由外部输入.然后用两层"for循环"来给方阵 p左上角 N×N个位置赋值.具体实现如下: /* * 定义矩阵阶数N ...
Yii2 注册表单验证规则手机注册时候使用短信验证码
public function rules() { return [ ['username', 'filter', 'filter' => 'trim'], ['username', 'requ ...
023_数量类型练习——Hadoop MapReduce手机流量统计
1) 分析业务需求:用户使用手机上网,存在流量的消耗.流量包括两部分:其一是上行流量(发送消息流量),其二是下行流量(接收消息的流量).每种流量在网络传输过程中,有两种形式说明:包的大小,流量的大小. ...

KNN cosine 余弦相似度计算

KNN cosine 余弦相似度计算的更多相关文章

随机推荐

热门专题