code{white-space: pre;} pre:not([class]) { background-color: white; }if (window.hljs && document.readyState && document.readyState === "complete") { window.setTimeout(function() { hljs.initHighlighting(); }, 0);}.main-container {…
安装anaconda,下载assignment作业代码 作业代码数据集等2018版基于python3.6 下载提取码4put 本课程内容参考: cs231n官方笔记地址 贺完结!CS231n官方笔记授权翻译总集篇发布 CS231n课程笔记翻译:图像分类笔记(上) numpy参考:CS231n课程笔记翻译:Python Numpy教程 以下文字部分转载自: CS231n——图像分类(KNN实现) 课程作业基于python3.6.5对应的anaconda 修改了输入输出 图像分类   目标:已有固定…
KNN学习(K-Nearest Neighbor algorithm,K最邻近方法 )是一种统计分类器,对数据的特征变量的筛选尤其有效. 基本原理 KNN的基本思想是:输入没有标签(标注数据的类别),即没有经过分类的新数据,首先提取新数据的特征并与測试集中的每一个数据特征进行比較:然后从測试集中提取K个最邻近(最类似)的数据特征标签,统计这K个最邻近数据中出现次数最多的分类,将其作为新的数据类别. KNN的这样的基本思想有点类似于生活中的"物以类聚.人以群分". 在KNN学习中,首先计…
项目概况: 有一个PDF文件,里面的每页都是一张发票,把每页的发票单独存为一个PDF并用该发票的的发票号码进行文件的命名,发票号码需要OCR识别,即识别下图中红色方块的内容. 一:拆分PDF 现有一个PDF文件,里面有很多张发票图片,每张发票占一页 我们先把这整个PDF拆分为单独的PDF 使用PyPDF2这个包 代码如下,基本上每句都写了注释 from PyPDF2 import PdfFileWriter,PdfFileReader def test1(file_path,folder_pat…
数据读取 import pandas as pd features=['accommodates','bathrooms','bedrooms','beds','price','minimum_nights','maximum_nights','number_of_reviews'] dc_listings=pd.read_csv('listings.csv') dc_listings=dc_listings[features] print(dc_listings.shape) dc_listi…
还是同前一篇作为学习入门. 1. KNN算法描述: step1: 文本向量化表示,计算特征词的TF-IDF值 step2: 新文本到达后,根据特征词确定文本的向量 step3 : 在训练文本集中选出与新文本向量最相近的k个文本向量,相似度度量采用“余弦相似度”,根据实验测试的结果调整k值,此次选择20 step4: 在新文本的k个邻居中,依次计算每类的权重, step5: 比较类的权重,将新文本放到权重最大的那个类中 2. 文档TF-IDF计算和向量化表示 # -*- coding: utf-8…
code{white-space: pre;} pre:not([class]) { background-color: white; }if (window.hljs && document.readyState && document.readyState === "complete") { window.setTimeout(function() { hljs.initHighlighting(); }, 0);}.main-container {…
8-28决定参加一下这个千万条的数据处理任务,因为场景和自己做过的一个回归分析预测差不多,第一天开始在小规模的数据上做准备工作. 第二次大修改版本 date 20160829 星期一¶ 原始数据处理,得到用户粉丝关系,微博转发在每个时间段的量,微博转发的总体深度 下一阶段目标,建立模型,实现基于时间序列的预测   第三次大修改版本 date 20160830 星期二 将这些运算转移到Linux平台上,因为有的迭代完全让我的电脑的内存受不了 这次版本的主要的目的是计算出某个微博的深度的时间序列的变…
如果做网站的内容运营,相关内容推荐可以帮助用户更快地寻找和发现感兴趣的信息,从而提升网站内容浏览的流畅性,进而提升网站的价值转化.相关内容 推荐最常见的两块就是“关联推荐”和“相关内容推荐”,关联推荐就是我们常说的购物篮分析,即使用购买了某商品的用户同时购买了什么这个规则来发现商品间 的潜在联系,之前有相关的文章介绍——向上营销.交叉营销与关联推荐:关联推荐是基于用户行为分析的推荐,而相关内容推荐是基于内容固有特征的推荐,只与内容本身有关,与用户的行为完全无关,所以相关内容推荐的模型是一种“冷启…
1 算法概述 1.1 优劣 优点:进度高,对异常值不敏感,无数据输入假定 缺点:计算复杂度高,空间复杂度高 应用:主要用于文本分类,相似推荐 适用数据范围:数值型和标称型 1.2 算法伪代码 (1)计算已知类别数据集中的点与当前点的距离 (2)按照距离递增次序排序,选取与当前点距离最小的 k 个点 (3)确定前 k 个点所在类别的出现频率 (4)返回前 k 个点出现频率最高的类别作为当前点的预测分类 2 手写识别 2.1 概念 指在手写设备上书写时产生的轨迹信息转化为具体字码,本篇博客重点非搭建…