I. 映射(Mapping) 1. 单射(Injective) 函数f 是单射当且仅当若f(x) = f(y) 则 x = y. 例子: f(x) = x+5 从实数集\(R\)到\(R\)是个单射函数. 这个函数很容易被还原:f(3) = 8,即 已知 8 可以返回 3 2. 满射(Surjective) 函数 f(从集 A 到集 B)是满射当且仅当在 B 中的每个 y 存在至少一个在 A 中的 x 满足 f(x) = y, 就是说, f 是满射当且仅当 f(A) = B. 值域里的每个元素都…
[Math for ML]矩阵分解(Matrix Decompositions) (上) I. 奇异值分解(Singular Value Decomposition) 1. 定义 Singular Value Decomposition (SVD)是线性代数中十分重要的矩阵分解方法,被称为"线性代数的基本理论",因为它不仅可以运用于所有矩阵(不像特征值分解只能用于方阵),而且奇异值总是存在的. SVD定理 设一个矩阵\(A^{m×n}\)的秩为\(r∈[0,min(m,n)]\),矩阵…
I. Groups 在介绍向量空间之前有必要介绍一下什么Group,其定义如下: 注意定义中的\(\bigotimes\)不是乘法,而是一种运算符号的统一标识,可以是乘法也可以是加法等. 此外,如果\(\forall{x,y}∈\mathcal{G}:x⊗y=y⊗x\),那么此时\(G=(\mathcal{G,⊗})\)是Abelian Group(阿尔贝群). 举个栗子: \((Z,+)\)是group \((N_0,+)\)不是group,因为他没有inverse elements,即不满足…
I. 向量梯度 假设有一个映射函数为\(f:R^n→R^m\)和一个向量\(x=[x_1,...,x_n]^T∈R^n\),那么对应的函数值的向量为\(f(x)=[f_1(x),...,f_m(x)]^T∈R^m\). 现在考虑\(f\)对\(x_i\)的梯度为:\(\frac{\partial{f}}{\partial{x_i}}=[\frac{\partial{f_1}}{\partial{x_i}},...,\frac{\partial{f_m}}{\partial{x_i}}]^T∈R^…
I. 行列式(Determinants)和迹(Trace) 1. 行列式(Determinants) 为避免和绝对值符号混淆,本文一般使用\(det(A)\)来表示矩阵\(A\)的行列式.另外这里的\(A∈R^{n×n}\)默认是方阵,因为只有方阵才能计算行列式. 行列式如何计算的就不在这里赘述了,下面简要给出行列式的各种性质和定理. 定理1:当且仅当一个方阵的行列式不为0,则该方阵可逆. 定理2:方阵\(A\)的行列式可沿着某一行或某一列的元素展开,形式如下: 沿着第\(i\)行展开:\[de…
I. 范数(Norm) 定义: 向量空间\(V\)上的范数(norm)是如下函数: \[ \begin{align} \|·\|:V→R, \notag \\ x→\|x\| \notag \end{align} \] 该函数会赋予每个向量\(x\)自身的长度\(\|x\|∈R\),并且对于\(\lambda∈R,\,\,x,y∈V\)满足如下性质: Absolutely homogeneous:\(\|\lambda x\|=|\lambda|\|x\|\) Triangle inequali…
离散数学 II(知识点汇总) 目录 离散数学 II(知识点汇总) 代数系统 代数系统定义 例子 二元运算定义 运算及其性质 二元运算的性质 封闭性 可交换性 可结合性 可分配性 吸收律 等幂性 消去律 特殊的元素性质 幺元 零元 逆元 证明逆元且唯一定理 二元运算表中性质的体现 半群 广群 成立条件 半群 定义 特性 子半群 独异点 成立条件 特性 证明是半群或独异点 群和子群 群 定义 阶数.有限群.无限群 1阶.2阶.3阶.4阶群 特性 幂特性 运算表特性 运算 子群 定义 判定条件 性质…
前言: 模式识别的定义,参考:模式识别两种方法:知识和数据 .百科定义:模式识别(英语:Pattern Recognition),就是通过计算机用数学技术方法来研究模式的自动处理和判读.我们把环境与客体统称为"模式",此处我们称环境与客体的关系为模式. 然而危机百科.wiki百科.模式识别怎么能归到机器学习里面呢?人也可以进行模式识别的,语法系统-专家系统也可以进行模式识别的. 一.函数映射:单射.双射与满射 参考书籍:<计算机科学中的离散结构> 188页 数学上,单射.满…
I. 复习word2vec的核心思路 1. Skip-gram 模型示意图: 2.word vectors的随机梯度 假设语料库中有这样一行句子: I love deep learning and NLP 中心词为deep,那么在计算梯度的时候则可以得到如下的梯度向量. 可以很明显地看到该向量非常稀疏.常见的解决办法有两种:一是使用稀疏矩阵更新运算来更新矩阵\(U,V\)的特定的列向量.二是使用哈希来更新,即key为word string,value是对应的列向量. II. 近似 1. 负采样…
https://www.quora.com/How-do-I-learn-machine-learning-1?redirected_qid=6578644   How Can I Learn X? Learning Machine Learning Learning About Computer Science Educational Resources Advice Artificial Intelligence How-to Question Learning New Things Lea…