利用鸢尾花数据集完成一个简单的机器学习应用~万丈高楼平地起,虽然很基础,但是还是跟着书敲了一遍代码. 一.模型构建流程 1.获取数据 本次实验的Iris数据集来自skicit-learn的datasets模块 from sklearn.datasets import load_iris iris_dataset = load_iris() 查看一下数据: 可以发现iris_dataset类似一个字典,里面包含键和值,其中键值对包括数据的简介(DESC).标签值(target).数据样本(data…
1..导引 如何进行电影分类 众所周知,电影可以按照题材分类,然而题材本身是如何定义的?由谁来判定某部电影属于哪 个题材?也就是说同一题材的电影具有哪些公共特征?这些都是在进行电影分类时必须要考虑的问 题.没有哪个电影人会说自己制作的电影和以前的某部电影类似,但我们确实知道每部电影在风格 上的确有可能会和同题材的电影相近.那么动作片具有哪些共有特征,使得动作片之间非常类似, 而与爱情片存在着明显的差别呢?动作片中也会存在接吻镜头,爱情片中也会存在打斗场景,我们 不能单纯依靠是否存在打斗或者亲吻来…
应用kNN算法预测豆瓣电影用户的性别 摘要 本文认为不同性别的人偏好的电影类型会有所不同,因此进行了此实验.利用较为活跃的274位豆瓣用户最近观看的100部电影,对其类型进行统计,以得到的37种电影类型作为属性特征,以用户性别作为标签构建样本集.使用kNN算法构建豆瓣电影用户性别分类器,使用样本中的90%作为训练样本,10%作为测试样本,准确率可以达到81.48%. 实验数据 本次实验所用数据为豆瓣用户标记的看过的电影,选取了274位豆瓣用户最近看过的100部电影.对每个用户的电影类型进行统计.…
文本自动分类技术是文字管理的基础.通过快速.准确的文本自动分类,可以节省大量的人力财力:提高工作效率:让用户快速获得所需资源,改善用户体验.本文着重对KNN文本分类算法进行介绍并提出改进方法. 一.相关理论介绍 文本分类技术的研究由来已久,并且取得了很多可喜的成果,形成了一套完整的文本自动分类流程. (1)文本分类 文本分类是根据训练样本集中的样本来进行训练,找到一定的分类规则和规律,然后根据这些规则和规律对需要进行分类的文本进行判断,自动将其归类. (2)文本表示 要实现依据内容的自动分类,需…
k 近邻法(K-nearest neighbor)是一种基本的分类方法 基本思路: 给定一个训练数据集,对于新的输入实例,在训练数据集中找到与该实例最邻近的k个实例,这k个实例多数属于某个类别,就把输入实例分为这个类. 算法: 输入:训练数据集 \(T=\{(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{n},y_{n})\}\) 其中 \(x_{i}\) 是训练集实例的特征向量(features vectors),\(y_{i}\) 是训练集实例的类别,\(i=1,2,…
K临近分类是一种监督式的分类方法,首先根据已标记的数据对模型进行训练,然后根据模型对新的数据点进行预测,预测新数据点的标签(label),也就是该数据所属的分类. 一,kNN算法的逻辑 kNN算法的核心思想是:如果一个数据在特征空间中最相邻的k个数据中的大多数属于某一个类别,则该样本也属于这个类别(类似投票),并具有这个类别上样本的特性.通俗地说,对于给定的测试样本和基于某种度量距离的方式,通过最靠近的k个训练样本来预测当前样本的分类结果. 例如,借用百度的一张图来说明kNN算法过程,要预测图中…
KNN要用到欧氏距离 KNN下面的缺点很容易使分类出错(比如下面黑色的点) 下面是KNN算法的三个例子demo, 第一个例子是根据算法原理实现 import matplotlib.pyplot as plt import numpy as np import operator # 已知分类的数据 x1 = np.array([,,]) y1 = np.array([,,]) x2 = np.array([,,]) y2 = np.array([,,]) scatter1 = plt.scatte…
实验设备与软件环境 硬件环境:内存ddr3 4G及以上的x86架构主机一部 系统环境:windows 软件环境:Anaconda2(64位),python3.5,jupyter 内核版本:window10.0 实验内容和原理 (1)实验内容: 使用k近邻算法改进约会网站的配对效果.海伦使用约会网址寻找适合自己的约会对象,约会网站会推荐不同的人选.她将曾经交往过的的人总结为三种类型:不喜欢的人.魅力一般的人.极具魅力的人.尽管发现了这些规律,但依然无法将约会网站提供的人归入恰当的分类.使用KNN算…
概述 K最近邻(kNN,k-NearestNeighbor)分类算法 所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表. kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也 属于这个类别,并具有这个类别上样本的特性.该方法在确定分类决策上只依据最邻近的一个或者几个样本的 类别来决定待分样本所属的类别. kNN方法在类别决策时,只与极少量的相邻样本有关.由于kNN方法主要靠 周围有限的邻近的样本,而不是靠判别类…
本文申明:本系列的所有实验数据都是来自[美]Peter Harrington 写的<Machine Learning in Action>这本书,侵删. 一案例导入:玛利亚小姐最近寂寞了,然后她就准备在一个在线社交网站搞网恋,但是凡是都有一个选择,按照她以往的经验,她接触了三种人: 1:不喜欢的人 2:魅力一般的人 3:特别有魅力的人 但是啊,尽管发现了这三类人,但是她还是无法甄别她究竟喜欢哪种人.所以她就求助我们,如果给她当这个月老.---------那我们就把这个实践叫做月老实践吧. 二案…