索引时利用K-邻近算法过滤重复歌曲

最近一直在做公司搜索的优化与维护，做完索引和搜索的分离之后，又有一个新需求，因为做的是歌曲方面的搜索，所以在数据库中有多个同歌名，同演唱者的的数据，这样在用户搜索的时候，会出来一大堆不同版本的歌曲，影响搜索质量，所以需要在建立索引库时做一个初步的过滤，因为只是一个简单的过滤，所以并不需要太精确。

首先呢是要确定哪些歌曲需要过滤，我调研后觉得对于同一歌名，同一演唱者的歌曲数量大于10时，就进行过滤，也即阀值为10，当然这个后期可以随时调整。

然后是需要确定过滤的维度，也即怎样确定一个歌曲就比另一个歌曲质量好？维度如下：

播放次数

播放完成度（总播放时长/总播放次数）

歌曲质量（超清、高清、普通….）

…..

确定完维度之后，还需要确定权重，因为不同的维度对歌曲质量的影响是不同的。

最后需要一个算法，这要是最核心的，正好以前稍微看了下机器学习这本书，就想到了里面的K邻近算法，据我粗浅的理解，也就是空间向量计算距离，距离预期近，就说明好。

那么我的步骤如下：

先确定预期，也即一个理论上完美的歌曲，每个维度的值应该为多少。

            //expectation point
 
            Integer[] origonPoint = {1,2,100000000};

我这边出于各种考虑，就只给出三个维度，其实维度增加，道理是一样的。

我用一个INT数组来表示预期完美的点，依次为：播放完成度、歌曲质量、播放次数。

那么对于一首歌曲（0.5,1,10000）距离预期的点的距离就为：

(1-0.5）^2 + (2-1)^2 + (100000000 - 10000)开根号，其实这样大家应该也能看出来，那么对于距离影响最大的肯定是播放次数，但是如果播放次数占比过大，会导致一个很致命的问题，那就是，过滤算法是不能弥补的，因为一旦开始把歌曲过滤后，那么用户在搜索时，过滤掉的歌曲就不会出现，那么播放次数肯定是一直为零的，那么一旦一个歌曲被干掉了，那么就永远的被干掉了。

所以就像前面说的，需要确定全权重

            int playCompletenessFactor = 10;
 
            double qualtityFactor = 2.5;
 
            int timesFactor = 1/10000000;

因为需要提高播放完成度和质量的权重，减少播放次数的权重，那么就初步定为以上的权重个，事实上，这种算法，最重要的就是权重的设定，需要不断试验调整。

那么现在距离就为：

(1-0.5）^2 * playCompletenessFactor + (2-1)^2 * qualtityFactor + (100000000 - 10000) * timesFactor开根号

在不断的试验和调整中，最终能找到一个合适的权重系数。

所以总结下，整个算法其实很简单，主要步骤如下：

在建索引时，先按照歌曲名称，歌手名称排字典序，所以可以用当前索引的歌曲同上一个歌曲比对，如果相同，数量加1，如果不同，就看数量如果大于阀值，就将所有歌曲进行过滤。
进入过滤算法，得到各歌曲与预期的距离，按照距离升序排列，取出前N首歌曲
将N首歌曲进行索引，其余歌曲丢弃。

索引时利用K-邻近算法过滤重复歌曲的更多相关文章

kaggle赛题Digit Recognizer：利用TensorFlow搭建神经网络（附上K邻近算法模型预测）
一.前言 kaggle上有传统的手写数字识别mnist的赛题,通过分类算法,将图片数据进行识别.mnist数据集里面,包含了42000张手写数字0到9的图片,每张图片为28*28=784的像素,所以整 ...
监督学习——K邻近算法及数字识别实践
1. KNN 算法 K-近邻(k-Nearest Neighbor,KNN)是分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一.该方法的思路是:如果一个样本在特征空间中的k个最相似( ...
机器学习算法及代码实现–K邻近算法
机器学习算法及代码实现–K邻近算法 1.K邻近算法将标注好类别的训练样本映射到X(选取的特征数)维的坐标系之中,同样将测试样本映射到X维的坐标系之中,选取距离该测试样本欧氏距离(两点间距离公式)最近 ...
《机器学习实战》学习笔记一K邻近算法
一. K邻近算法思想:存在一个样本数据集合,称为训练样本集,并且每个数据都存在标签,即我们知道样本集中每一数据(这里的数据是一组数据,可以是n维向量)与所属分类的对应关系.输入没有标签的新数据后,将 ...
Python实现kNN（k邻近算法）
Python实现kNN(k邻近算法) 运行环境 Pyhton3 numpy科学计算模块计算过程 st=>start: 开始 op1=>operation: 读入数据 op2=>op ...
k邻近算法(KNN)实例
一 k近邻算法原理 k近邻算法是一种基本分类和回归方法. 原理:K近邻算法,即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例,这K个实例的多数属于某个类,就把该输入实 ...
<机器学习实战>读书笔记--k邻近算法KNN
k邻近算法的伪代码: 对未知类别属性的数据集中的每个点一次执行以下操作: (1)计算已知类别数据集中的点与当前点之间的距离: (2)按照距离递增次序排列 (3)选取与当前点距离最小的k个点 (4)确定 ...
[机器学习实战] k邻近算法
1. k邻近算法原理: 存在一个样本数据集,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系.输入没有标签的新数据后,将新数据的每个特征与样本集中数据对 ...
k邻近算法理解及代码实现
github:代码实现本文算法均使用python3实现 1 KNN KNN(k-nearest neighbor, k近邻法),故名思议,是根据最近的 $ k $ 个邻居来判断未知点属于哪个类别 ...

随机推荐

Sql Xtype
SQL Server xtype的介绍在数据库内创建的每个对象(约束.默认值.日志.规则.存储过程等)在表中占一行.只有在 tempdb 内,每个临时对象才在该表中占一行. 列名数据类型描 ...
解决Eclipse中编辑xml文件的智能提示问题，最简单的是第二种方法。
Eclipse for Android xml 文件代码自动提示功能,介绍Eclipse 编辑器中实现xml 文件代码自动智能提示功能,解决eclipse 代码提示失效.eclipse 不能自动提示. ...
设计模式C++实现（1）——工厂模式
该文章转载自: http://blog.csdn.net/wuzhekai1985 软件领域中的设计模式为开发人员提供了一种使用专家设计经验的有效途径.设计模式中运用了面向对象编程语言的重要特性:封装 ...
Jquery中删除元素方法
empty用来删除指定元素的子元素,remove用来删除元素,或者设定细化条件执行删除语法: empty() remove(expr); empty用来删除指定元素的子元素,remove用来删除元素 ...
int string convert
C++ int与string的转化 int本身也要用一串字符表示,前后没有双引号,告诉编译器把它当作一个数解释.缺省情况下,是当成10进制(dec)来解释,如果想用8进制,16进制,怎么办?加上前缀 ...
UI基础 - UITabBarController
self.window = [[UIWindow alloc] init]; self.window.frame = [UIScreen mainScreen].bounds; oneViewCont ...
JS 输出与变量
1. JS的输出 innerHTML: <!DOCTYPE html> <html> <head> <meta charset="utf-8&quo ...
android 休眠唤醒机制分析(二) — early_suspend
本文转自:http://blog.csdn.net/g_salamander/article/details/7982170 early_suspend是Android休眠流程的第一阶段即浅度休眠,不 ...
linux和windows下，C/C++的sleep函数
简介: 函数名: sleep 功能: 执行挂起一段时间用法: unsigned sleep(unsigned seconds); 在VC中使用带上头文件 #include < ...
Qt经典—线程、事件与Qobject（耳目一新）
介绍 You’re doing it wrong. — Bradley T. Hughes 线程是qt channel里最流行的讨论话题之一.许多人加入了讨论并询问如何解决他们在运行跨线程编程时所遇到 ...

索引时利用K-邻近算法过滤重复歌曲

索引时利用K-邻近算法过滤重复歌曲的更多相关文章

随机推荐

热门专题