机器学习字典学习方法

2024-09-07

字典学习（Dictionary Learning）

0 - 背景 0.0 - 为什么需要字典学习? 这里引用这个博客的一段话,我觉得可以很好的解释这个问题. 回答这个问题实际上就是要回答“稀疏字典学习 ”中的字典是怎么来的.做一个比喻,句子是人类社会最神奇的东西,人类社会的一切知识无论是已经发现的还是没有发现的都必然要通过句子来表示出来(从某种意义上讲,公式也是句子).这样说来,人类懂得的知识可要算是极为浩繁的.有人统计过人类每天新产生的知识可以装满一个2T(2048G)大小的硬盘.但无论有多少句子需要被书写,对于一个句子来说它最本质的特征是什么

Dictionary Learning(字典学习、稀疏表示以及其他)

第一部分字典学习以及稀疏表示的概要字典学习(Dictionary Learning)和稀疏表示(Sparse Representation)在学术界的正式称谓应该是稀疏字典学习(Sparse Dictionary Learning).该算法理论包含两个阶段:字典构建阶段(Dictionary Generate)和利用字典(稀疏的)表示样本阶段(Sparse coding with a precomputed dictionary).这两个阶段(如下图)的每个阶段都有许多不同算法可供选择,每种

视觉机器学习------K-means算法

K-means(K均值)是基于数据划分的无监督聚类算法. 一.基本原理聚类算法可以理解为无监督的分类方法,即样本集预先不知所属类别或标签,需要根据样本之间的距离或相似程度自动进行分类.聚类算法可以分为基于划分的方法.基于联通性的方法.基于概率分布模型的方法等,K-means属于基于划分的聚类方法. 基于划分的方法是将样本集组成的矢量空间划分为多个区域{Si}i=1k,每个区域都存在一个区域相关的表示{ci}i=1k,通常称为区域中心.对于每个样本,可以建立一种样本到区域中心的映射q

关于”机器学习方法“，"深度学习方法"系列

"机器学习/深度学习方法"系列,我本着开放与共享(open and share)的精神撰写,目的是让很多其它的人了解机器学习的概念,理解其原理,学会应用.如今网上各种技术类文章非常多,不乏大牛的精辟见解,但也有非常多滥竽充数.误导读者的.这个系列对教课书籍和网络资源进行汇总.理解与整理,力求一击中的,通俗易懂.机器学习非常难,是由于她有非常扎实的理论基础,复杂的公式推导:机器学习也非常easy,是由于对她不甚了解的人也能够轻易使用.我希望好好地梳理一些基础方法模型,输出一些真正有长期參

深入理解拉格朗日乘子法（Lagrange Multiplier) 和KKT条件

[整理] 在求解最优化问题中,拉格朗日乘子法(Lagrange Multiplier)和KKT(Karush Kuhn Tucker)条件是两种最常用的方法.在有等式约束时使用拉格朗日乘子法,在有不等约束时使用KKT条件. 我们这里提到的最优化问题通常是指对于给定的某一函数,求其在指定作用域上的全局最小值(因为最小值与最大值可以很容易转化,即最大值问题可以转化成最小值问题).提到KKT条件一般会附带的提一下拉格朗日乘子.对学过高等数学的人来说比较拉格朗日乘子应该会有些印象.二者均是求解最优化

CVPR2018: Unsupervised Cross-dataset Person Re-identification by Transfer Learning of Spatio-temporal Patterns

论文可以在arxiv下载,老板一作,本人二作,也是我们实验室第一篇CCF A类论文,这个方法我们称为TFusion. 代码:https://github.com/ahangchen/TFusion 解决的目标是跨数据集的Person Reid 属于无监督学习方法是多模态数据融合 + 迁移学习实验效果上,超越了所有无监督Person reid方法,逼近有监督方法,在部分数据集上甚至超越有监督方法本文为你解读CVPR2018 TFusion 转载请注明作者梦里茶 Task 行人重识别(Pers

稀疏表示 Sparse Representation

稀疏表示_百度百科 https://baike.baidu.com/item/%E7%A8%80%E7%96%8F%E8%A1%A8%E7%A4%BA/16530498 信号稀疏表示是过去近20年来信号处理界一个非常引人关注的研究领域,众多研究论文和专题研讨会表明了该领域的蓬勃发展.信号稀疏表示的目的就是在给定的超完备字典中用尽可能少的原子来表示信号,可以获得信号更为简洁的表示方式,从而使我们更容易地获取信号中所蕴含的信息,更方便进一步对信号进行加工处理,如压缩.编码等 [1] . 中文名

自然语言处理（NLP）相关学习资料/资源

自然语言处理(NLP)相关学习资料/资源 1. 书籍推荐自然语言处理统计自然语言处理(第2版) 作者:宗成庆出版社:清华大学出版社:出版年:2013:页数:570 内容简介:系统地描述了神经网络之前的基于统计的NLP方法,能够对NLP各项任务以及经典的算法学习了解. 数学之美(第2版) 作者:吴军出版社:人民邮电出版社:出版年:2014:页数:312 内容简介:讲解了NLP里常用的数学模型,并把高深的数学原理讲得更加通俗易懂,让非专业读者也能领略数学的魅力. Speech and Lan

论文阅读笔记（九）【TIFS2020】：True-Color and Grayscale Video Person Re-Identiﬁcation

Introduction (1)Motivation:在现实场景中,摄像头会因为故障呈现灰白色,或者为了节省视频的存储空间而人工设置为灰白色.灰度图像(grayscale images)由8位存储,而彩色图像由24位存储.在节省存储空间的同时,也带来了信息丢失的问题,增加了行人重识别的难度. 通过对同一张照片的彩色版和灰度版进行余弦相似度(cosine similarity)计算,发现两者相似度在0.8左右,即灰度图像损失了约20%的有效信息. 定义本文彩色-灰度视频间行人重识别的问题:Colo

【DG】Oracle_Data_Guard官方直译

[DG]Oracle Data Guard官方直译 1 Oracle Data Guard 介绍 Oracle Data Guard概念和管理10g版本2 Oracle Data Guard 确保企业数据的高可用性.数据保护以及灾难恢复.Data Guard 提供了一套全面的服务来创建.维护.管理和监控一个或多个备数据库,使得生产 Oracle 数据库从灾难和数据损坏中得以幸存.Data Guard 维护这些备数据库作为生产数据库的事务一致性拷贝.然后,如果生产数据库因为计划的或计划外的

DVWA实验之Brute Force（暴力破解）- Low

DVWA实验之Brute Force-暴力破解- Low 这里开始DVWA的相关实验~ 有关DVWA环境搭建的教程请参考: https://www.cnblogs.com/0yst3r-2046/p/10928380.html Brute Force,即暴力(破解),是指黑客利用密码字典,使用穷举法猜解出用户口令,是现在最为广泛使用的攻击手法之一. 这里我们先将安全等级设为 low

Oracle错误览表

Oracle 错误总结及问题解决 ORA 本文转自:https://www.cnblogs.com/zhangwei595806165/p/4972016.html 作者@承影剑 ORA-00001: 违反唯一约束条件 (.)错误说明:当在唯一索引所对应的列上键入重复值时,会触发此异常.ORA-00017: 请求会话以设置跟踪事件ORA-00018: 超出最大会话数ORA-00019: 超出最大会话许可数ORA-00020: 超出最大进程数 ()ORA-00021: 会话附属于其它某些

Stanford机器学习---第六讲. 怎样选择机器学习方法、系统

原文:http://blog.csdn.net/abcjennifer/article/details/7797502 本栏目(Machine learning)包括单参数的线性回归.多参数的线性回归.Octave Tutorial.Logistic Regression.Regularization.神经网络.机器学习系统设计.SVM(Support Vector Machines 支持向量机).聚类.降维.异常检测.大规模机器学习等章节.所有内容均来自Standford公开课machine

R学习:《机器学习与数据科学基于R的统计学习方法》中文PDF+代码

当前,机器学习和数据科学都是很重要和热门的相关学科,需要深入地研究学习才能精通. <机器学习与数据科学基于R的统计学习方法>试图指导读者掌握如何完成涉及机器学习的数据科学项目.为数据科学家提供一些在统计学习领域会用到的工具和技巧,涉及数据连接.数据处理.探索性数据分析.监督机器学习.非监督机器学习和模型评估.选用的是R统计环境,所有代码示例都是用R语言编写的,涉及众多流行的R包和数据集. 适合数据科学家.数据分析师.软件开发者以及需要了解数据科学和机器学习方法的科研人员阅读参考. 学习参考:

什么是机器学习的特征工程？【数据集特征抽取（字典，文本TF-Idf）、特征预处理（标准化，归一化）、特征降维（低方差，相关系数，PCA）】

2.特征工程 2.1 数据集 2.1.1 可用数据集 Kaggle网址:https://www.kaggle.com/datasets UCI数据集网址: http://archive.ics.uci.edu/ml/ scikit-learn网址:http://scikit-learn.org/stable/datasets/index.html#datasets 2.1.2 安装scikit-learn工具 pip3 install Scikit-learn==0.19.1 安装好之后可以通过

机器学习与数据科学基于R的统计学习方法（基础部分）

1.1 机器学习的分类监督学习:线性回归或逻辑回归, 非监督学习:是K-均值聚类, 即在数据点集中找出“聚类”. 另一种常用技术叫做主成分分析(PCA) , 用于降维, 算法的评估方法也不尽相同. 最常用的方法是将均方根误差(RMSE) 的值降到最小, 这一数值用于评价测试集的预测结果是否准确. RMSE评价法会在第7章进行更深入的解释. 另一种常用的评估方法是AUC, 即ROC曲线下的面积. 1.8 使用R包有大量的通用包(当前大约是7000个) , 其中很多涉及有用的统计方法, 也有特定

机器学习进阶-疲劳检测(眨眼检测) 1.dist.eculidean(计算两个点的欧式距离) 2.dlib.get_frontal_face_detector(脸部位置检测器) 3.dlib.shape_predictor(脸部特征位置检测器) 4.Orderdict(构造有序的字典)

1.dist.eculidean(A, B) # 求出A和B点的欧式距离参数说明:A,B表示位置信息 2.dlib.get_frontal_face_detector()表示脸部位置检测器 3.dlib.shape_predictor(args['shape_predictor]) 表示脸部特征位置检测器参数说明:args['shape_predictor'] 表示位置信息 4.Orderdict([('mouth', (23, 30))]) # 构造有序的字典参数说明:'mouth'表示

机器学习入门-数值特征-数字映射和one-hot编码 1.LabelEncoder(进行数据自编码) 2.map(进行字典的数字编码映射) 3.OnehotEncoder(进行one-hot编码) 4.pd.get_dummies(直接对特征进行one-hot编码)

1.LabelEncoder() # 用于构建数字编码 2 .map(dict_map) 根据dict_map字典进行数字编码的映射 3.OnehotEncoder() # 进行one-hot编码,输入的参数必须是二维的,因此需要做reshape,同时使用toarray() 转换为列表形式 3 pd.get_dummies(feature,drop_first=False) 如果填单个特征的话,只对一个特征做one-hot编码映射, drop_first表示去除one-hot编码后的第一列

机器学习入门-贝叶斯构造LDA主题模型，构造word2vec 1.gensim.corpora.Dictionary(构造映射字典) 2.dictionary.doc2vec(做映射) 3.gensim.model.ldamodel.LdaModel(构建主题模型)4lda.print_topics(打印主题).

1.dictionary = gensim.corpora.Dictionary(clean_content) 对输入的列表做一个数字映射字典, 2. corpus = [dictionary,doc2vec(cl_content) for cl_content in clean_content] # 输出clean_content每一个元素根据dictionary做数字映射后的结果 3.lda = gensim.model.ldamodel.LdaModel(corpus=corpus,

机器学习之路：python 字典特征提取器 DictVectorizer

python3 学习使用api 将字典类型数据结构的样本,抽取特征,转化成向量形式源码git: https://github.com/linyi0604/MachineLearning 代码: from sklearn.feature_extraction import DictVectorizer ''' 字典特征提取器: 将字典数据结构抽和向量化类别类型特征借助原型特征名称采用0 1 二值方式进行向量化数值类型特征保持不变 ''' # 定义一个字典列表用来表示多个数据样本 measu

吴裕雄 python 机器学习——数据预处理字典学习模型

from sklearn.decomposition import DictionaryLearning #数据预处理字典学习DictionaryLearning模型 def test_DictionaryLearning(): X=[[1,2,3,4,5], [6,7,8,9,10], [10,9,8,7,6,], [5,4,3,2,1]] print("before transform:",X) dct=DictionaryLearning(n_components=3) dct.

机器学习字典学习方法

热门专题