Basis(基础):

  • SSE(Sum of Squared Error, 平方误差和)
  • SAE(Sum of Absolute Error, 绝对误差和)
  • SRE(Sum of Relative Error, 相对误差和)
  • MSE(Mean Squared Error, 均方误差)
  • RMSE(Root Mean Squared Error, 均方根误差)
  • RRSE(Root Relative Squared Error, 相对平方根误差)
  • MAE(Mean Absolute Error, 平均绝对误差)
  • RAE(Root Absolute Error, 平均绝对误差平方根)
  • MRSE(Mean Relative Square Error, 相对平均误差)
  • RRSE(Root Relative Squared Error, 相对平方根误差)
  • Expectation(期望)&Variance(方差)
  • Standard Deviation(标准差,也称Root Mean Squared Error, 均方根误差)
  • CP(Conditional Probability, 条件概率)
  • JP(Joint Probability, 联合概率)
  • MP(Marginal Probability, 边缘概率)
  • Bayesian Formula(贝叶斯公式)
  • CC(Correlation Coefficient, 相关系数)
  • Quantile (分位数)
  • Covariance(协方差矩阵)
  • GD(Gradient Descent, 梯度下降)
  • SGD(Stochastic Gradient Descent, 随机梯度下降)
  • LMS(Least Mean Squared, 最小均方)
  • LSM(Least Square Methods, 最小二乘法)
  • NE(Normal Equation, 正规方程)
  • MLE(Maximum Likelihood Estimation, 极大似然估计)
  • QP(Quadratic Programming, 二次规划)
  • L1 /L2 Regularization(L1/L2正则, 以及更多的, 现在比较火的L2.5正则等)
  • Eigenvalue(特征值)
  • Eigenvector(特征向量)

Common Distribution(常见分布):

Discrete Distribution(离散型分布):

  • Bernoulli Distribution/Binomial Distribution(贝努利分布/二项分布)
  • Negative Binomial Distribution(负二项分布)
  • Multinomial Distribution(多项分布)
  • Geometric Distribution(几何分布)
  • Hypergeometric Distribution(超几何分布)
  • Poisson Distribution (泊松分布)

Continuous Distribution (连续型分布):

  • Uniform Distribution(均匀分布)
  • Normal Distribution/Gaussian Distribution(正态分布/高斯分布)
  • Exponential Distribution(指数分布)
  • Lognormal Distribution(对数正态分布)
  • Gamma Distribution(Gamma分布)
  • Beta Distribution(Beta分布)
  • Dirichlet Distribution(狄利克雷分布)
  • Rayleigh Distribution(瑞利分布)
  • Cauchy Distribution(柯西分布)
  • Weibull Distribution (韦伯分布)

Three Sampling Distribution(三大抽样分布):

  • Chi-square Distribution(卡方分布)
  • t-distribution(t-分布)
  • F-distribution(F-分布)

Data Pre-processing(数据预处理):

  • Missing Value Imputation(缺失值填充)
  • Discretization(离散化)
  • Mapping(映射)
  • Normalization(归一化/标准化)

Sampling(采样):

  • Simple Random Sampling(简单随机采样)
  • Offline Sampling(离线等可能K采样)
  • Online Sampling(在线等可能K采样)
  • Ratio-based Sampling(等比例随机采样)
  • Acceptance-rejection Sampling(接受-拒绝采样)
  • Importance Sampling(重要性采样)
  • MCMC(Markov Chain MonteCarlo 马尔科夫蒙特卡罗采样算法:Metropolis-Hasting& Gibbs)

Clustering(聚类):

  • K-MeansK-Mediods
  • 二分K-Means
  • FK-Means
  • Canopy
  • Spectral-KMeans(谱聚类)
  • GMM-EM(混合高斯模型-期望最大化算法解决)
  • K-Pototypes
  • CLARANS(基于划分)
  • BIRCH(基于层次)
  • CURE(基于层次)
  • STING(基于网格)
  • CLIQUE(基于密度和基于网格)
  • 2014年Science上的密度聚类算法等

Clustering Effectiveness Evaluation(聚类效果评估):

  • Purity(纯度)
  • RI(Rand Index, 芮氏指标)
  • ARI(Adjusted Rand Index, 调整的芮氏指标)
  • NMI(Normalized Mutual Information, 规范化互信息)
  • F-meaure(F测量)

Classification&Regression(分类&回归):

  • LR(Linear Regression, 线性回归)
  • LR(Logistic Regression, 逻辑回归)
  • SR(Softmax Regression, 多分类逻辑回归)
  • GLM(Generalized Linear Model, 广义线性模型)
  • RR(Ridge Regression, 岭回归/L2正则最小二乘回归),LASSO(Least Absolute Shrinkage and Selectionator Operator , L1正则最小二乘回归)
  • DT(Decision Tree决策树)
  • RF(Random Forest, 随机森林)
  • GBDT(Gradient Boosting Decision Tree, 梯度下降决策树)
  • CART(Classification And Regression Tree 分类回归树)
  • KNN(K-Nearest Neighbor, K近邻)
  • SVM(Support Vector Machine, 支持向量机, 包括SVC(分类)&SVR(回归))
  • CBA(Classification based on Association Rule, 基于关联规则的分类)
  • KF(Kernel Function, 核函数)
    • Polynomial Kernel Function(多项式核函数)
    • Guassian Kernel
      Function(高斯核函数)
    • Radial Basis
      Function(RBF径向基函数)
    • String Kernel
      Function 字符串核函数
  • NB(Naive Bayesian,朴素贝叶斯)
  • BN(Bayesian
    Network/Bayesian Belief Network/Belief Network 贝叶斯网络/贝叶斯信度网络/信念网络)
  • LDA(Linear
    Discriminant Analysis/Fisher Linear Discriminant 线性判别分析/Fisher线性判别)
  • EL(Ensemble Learning, 集成学习)
    • Boosting
    • Bagging
    • Stacking
    • AdaBoost(Adaptive
      Boosting 自适应增强)
  • MEM(Maximum Entropy
    Model, 最大熵模型)

Classification EffectivenessEvaluation(分类效果评估):

  • Confusion Matrix(混淆矩阵)
  • Precision(精确度)
  • Recall(召回率)
  • Accuracy(准确率)
  • F-score(F得分)
  • ROC Curve(ROC曲线)
  • AUC(AUC面积)
  • Lift Curve(Lift曲线)
  • KS Curve(KS曲线)

PGM(Probabilistic Graphical Models, 概率图模型):

  • BN(BayesianNetwork/Bayesian
    Belief Network/ Belief Network , 贝叶斯网络/贝叶斯信度网络/信念网络)
  • MC(Markov Chain, 马尔科夫链)
  • MEM(Maximum Entropy
    Model, 最大熵模型)
  • HMM(Hidden Markov
    Model, 马尔科夫模型)
  • MEMM(Maximum Entropy
    Markov Model, 最大熵马尔科夫模型)
  • CRF(Conditional Random
    Field,条件随机场)
  • MRF(Markov Random
    Field, 马尔科夫随机场)
  • Viterbi(维特比算法)

NN(Neural Network, 神经网络)

  • ANN(Artificial Neural
    Network, 人工神经网络)
  • SNN(Static Neural
    Network, 静态神经网络)
  • BP(Error Back
    Propagation, 误差反向传播)
  • HN(Hopfield Network)
  • DNN(Dynamic Neural
    Network, 动态神经网络)
  • RNN(Recurrent Neural
    Network, 循环神经网络)
  • SRN(Simple Recurrent
    Network, 简单的循环神经网络)
  • ESN(Echo State
    Network, 回声状态网络)
  • LSTM(Long Short Term
    Memory, 长短记忆神经网络)
  • CW-RNN(Clockwork-Recurrent
    Neural Network, 时钟驱动循环神经网络, 2014ICML)等.

Deep Learning(深度学习):

  • Auto-encoder(自动编码器)
  • SAE(Stacked
    Auto-encoders堆叠自动编码器)
    • Sparse Auto-encoders(稀疏自动编码器)
    • Denoising
      Auto-encoders(去噪自动编码器)
    • Contractive
      Auto-encoders(收缩自动编码器)
  • RBM(Restricted
    Boltzmann Machine, 受限玻尔兹曼机)
  • DBN(Deep Belief
    Network, 深度信念网络)
  • CNN(Convolutional
    Neural Network, 卷积神经网络)
  • Word2Vec(词向量学习模型)

Dimensionality Reduction(降维):

  • LDA(Linear
    Discriminant Analysis/Fisher Linear Discriminant, 线性判别分析/Fish线性判别)
  • PCA(Principal
    Component Analysis, 主成分分析)
  • ICA(Independent
    Component Analysis, 独立成分分析)
  • SVD(Singular Value
    Decomposition 奇异值分解)
  • FA(Factor Analysis 因子分析法)

Text Mining(文本挖掘):

  • VSM(Vector Space
    Model, 向量空间模型)
  • Word2Vec(词向量学习模型)
  • TF(Term Frequency, 词频)
  • TF-IDF(TermFrequency-Inverse
    Document Frequency, 词频-逆向文档频率)
  • MI(Mutual Information,
    互信息)
  • ECE(Expected Cross
    Entropy, 期望交叉熵)
  • QEMI(二次信息熵)
  • IG(Information Gain, 信息增益)
  • IGR(Information Gain
    Ratio, 信息增益率)
  • Gini(基尼系数)
  • x2 Statistic(x2统计量)
  • TEW(Text Evidence
    Weight, 文本证据权)
  • OR(Odds Ratio, 优势率)
  • N-Gram Model
  • LSA(Latent Semantic
    Analysis, 潜在语义分析)
  • PLSA(Probabilistic
    Latent Semantic Analysis, 基于概率的潜在语义分析)
  • LDA(Latent Dirichlet
    Allocation, 潜在狄利克雷模型)
  • SLM(Statistical
    Language Model, 统计语言模型)
  • NPLM(Neural
    Probabilistic Language Model, 神经概率语言模型)
  • CBOW(Continuous Bag of
    Words Model, 连续词袋模型)
  • Skip-gram(Skip-gram
    Model)

Association Mining(关联挖掘):

  • Apriori算法
  • FP-growth(Frequency
    Pattern Tree Growth, 频繁模式树生长算法)
  • MSApriori(Multi
    Support-based Apriori, 基于多支持度的Apriori算法)
  • GSpan(Graph-based
    Substructure Pattern Mining, 频繁子图挖掘)

Sequential Patterns Analysis(序列模式分析)

  • AprioriAll
  • Spade
  • GSP(Generalized
    Sequential Patterns, 广义序列模式)
  • PrefixSpan

Forecast(预测)

  • LR(Linear Regression, 线性回归)
  • SVR(Support Vector
    Regression, 支持向量机回归)
  • ARIMA(Autoregressive
    Integrated Moving Average Model, 自回归积分滑动平均模型)
  • GM(Gray Model, 灰色模型)
  • BPNN(BP Neural
    Network, 反向传播神经网络)
  • SRN(Simple Recurrent
    Network, 简单循环神经网络)
  • LSTM(Long Short Term
    Memory, 长短记忆神经网络)
  • CW-RNN(Clockwork
    Recurrent Neural Network, 时钟驱动循环神经网络)
  • ……

Linked Analysis(链接分析)

  • HITS(Hyperlink-Induced
    Topic Search, 基于超链接的主题检索算法)
  • PageRank(网页排名)

Recommendation Engine(推荐引擎):

  • SVD
  • Slope One
  • DBR(Demographic-based
    Recommendation, 基于人口统计学的推荐)
  • CBR(Context-based
    Recommendation, 基于内容的推荐)
  • CF(Collaborative
    Filtering, 协同过滤)
  • UCF(User-based
    Collaborative Filtering Recommendation, 基于用户的协同过滤推荐)
  • ICF(Item-based
    Collaborative Filtering Recommendation, 基于项目的协同过滤推荐)

Similarity Measure&Distance
Measure(相似性与距离度量):

  • EuclideanDistance(欧式距离)
  • Chebyshev Distance(切比雪夫距离)
  • Minkowski Distance(闵可夫斯基距离)
  • Standardized
    EuclideanDistance(标准化欧氏距离)
  • Mahalanobis Distance(马氏距离)
  • Cos(Cosine, 余弦)
  • Hamming Distance/Edit
    Distance(汉明距离/编辑距离)
  • Jaccard Distance(杰卡德距离)
  • Correlation
    Coefficient Distance(相关系数距离)
  • Information Entropy(信息熵)
  • KL(Kullback-Leibler
    Divergence, KL散度/Relative Entropy, 相对熵)

Optimization(最优化):

Non-constrained Optimization(无约束优化):

  • Cyclic Variable
    Methods(变量轮换法)
  • Variable Simplex
    Methods(可变单纯形法)
  • Newton Methods(牛顿法)
  • Quasi-Newton Methods(拟牛顿法)
  • Conjugate Gradient
    Methods(共轭梯度法)。

Constrained Optimization(有约束优化):

  • Approximation
    Programming Methods(近似规划法)
  • Penalty Function
    Methods(罚函数法)
  • Multiplier Methods(乘子法)。
  • Heuristic Algorithm(启发式算法)
  • SA(Simulated
    Annealing, 模拟退火算法)
  • GA(Genetic Algorithm, 遗传算法)
  • ACO(Ant Colony
    Optimization, 蚁群算法)

Feature Selection(特征选择):

  • Mutual Information(互信息)
  • Document Frequence(文档频率)
  • Information Gain(信息增益)
  • Chi-squared Test(卡方检验)
  • Gini(基尼系数)

Outlier Detection(异常点检测):

  • Statistic-based(基于统计)
  • Density-based(基于密度)
  • Clustering-based(基于聚类)。

Learning to Rank(基于学习的排序):

  • Pointwise
    • McRank
  • Pairwise
    • RankingSVM
    • RankNet
    • Frank
    • RankBoost;
  • Listwise
    • AdaRank
    • SoftRank
    • LamdaMART

Tool(工具):

    • MPI
    • Hadoop生态圈
    • Spark
    • IGraph
    • BSP
    • Weka
    • Mahout
    • Scikit-learn
    • PyBrain
    • Theano

NLP&数据挖掘基础知识的更多相关文章

  1. Python数据挖掘——基础知识

    Python数据挖掘——基础知识 数据挖掘又称从数据中 挖掘知识.知识提取.数据/模式分析 即为:从数据中发现知识的过程 1.数据清理 (消除噪声,删除不一致数据) 2.数据集成 (多种数据源 组合在 ...

  2. 网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(1): 基础知识Beautiful Soup

    开始学习网络数据挖掘方面的知识,首先从Beautiful Soup入手(Beautiful Soup是一个Python库,功能是从HTML和XML中解析数据),打算以三篇博文纪录学习Beautiful ...

  3. WCF入门教程:WCF基础知识问与答(转)

    学习WCF已有近两年的时间,其间又翻译了Juval的大作<Programming WCF Services>,我仍然觉得WCF还有更多的内容值得探索与挖掘.学得越多,反而越发觉得自己所知太 ...

  4. 大数据基础知识问答----spark篇,大数据生态圈

    Spark相关知识点 1.Spark基础知识 1.Spark是什么? UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架 dfsSpark基于mapredu ...

  5. 最全的spark基础知识解答

    原文:http://www.36dsj.com/archives/61155 一. Spark基础知识 1.Spark是什么? UCBerkeley AMPlab所开源的类HadoopMapReduc ...

  6. 0.Python 爬虫之Scrapy入门实践指南(Scrapy基础知识)

    目录 0.0.Scrapy基础 0.1.Scrapy 框架图 0.2.Scrapy主要包括了以下组件: 0.3.Scrapy简单示例如下: 0.4.Scrapy运行流程如下: 0.5.还有什么? 0. ...

  7. DL一(ML基础知识)

    基础知识ML 在进行深度学习前,根据学习网站的建议,首先学习机器学习的基础课程,学习资料主要是Andrew讲的ShortVideo,网址:http://openclassroom.stanford.e ...

  8. Mysql学习总结(4)——MySql基础知识、存储引擎与常用数据类型

    1.基础知识 1.1.数据库概述 简单地说:数据库(Database或DB)是存储.管理数据的容器: 严格地说:数据库是"按照某种数据结构对数据进行组织.存储和管理的容器". 总结 ...

  9. Java基础知识了解

    第一章 开发前言 一.java语言概述 Java是当下最流行的一种编程语言,至今有20年历史了.Java语言之父是James Gosling. Java是Sun公司(Stanford Universi ...

随机推荐

  1. VB.NET设置控件和窗体的显示级别

    前言:在用VB.NET开发射频检测系统ADS时,当激活已存在的目标MDI子窗体时,被其他子窗体遮住了,导致目标MDI子窗体不能显示. 这个问题怎么解决呢?网上看到一篇帖子VB.NET设置控件和窗体的显 ...

  2. Java开发中的23种设计模式详解

    [放弃了原文访问者模式的Demo,自己写了一个新使用场景的Demo,加上了自己的理解] [源码地址:https://github.com/leon66666/DesignPattern] 一.设计模式 ...

  3. Extjs 让combobox写起来更简单

    也已经写了很久时间的extjs ,每次都用到很多的combobox,配置很多东西觉得实在是太麻烦,所以根据常用到的情况写了一个简便的combobox,再次记录下来,以免放在某个地方忘记了找不到了. 定 ...

  4. BPM生产安全管理解决方案分享

    一.方案概述生产安全管理是企业生产管理的重要组成部分,组织实施好企业安全管理规划.指导.检查和决策,保证生产处于最佳安全状态是安全管理的重要内容和职责.H3 BPM企业生产安全管理解决方案是一套专门为 ...

  5. Mysql - 游标/动态sql/事务

    游标这个在我目前的项目里面用的还不多, 但是其功能还是很强大的. 动态sql以前都没用过, 是跟着富士康(不是张全蛋的富土康哦)过来的同事学的. 还是挺好用的. 我的数据库方面, 跟他学了不少. 在此 ...

  6. Oracle 11g必须开启的服务及服务详细介绍

    转自:http://www.educity.cn/shujuku/404120.html 成功安装Oracle  11g数据库后,你会发现自己电脑运行速度会变慢,配置较低的电脑甚至出现非常卡的状况,通 ...

  7. Harmonic Number(调和级数+欧拉常数)

    题意:求f(n)=1/1+1/2+1/3+1/4-1/n   (1 ≤ n ≤ 108).,精确到10-8    (原题在文末) 知识点:      调和级数(即f(n))至今没有一个完全正确的公式, ...

  8. MyEclipse对Maven的安装

    好记性不如烂笔头,记录一下. 操作系统:windows 7 MyEclipse2015 JDK1.7 maven的下载链接,点这里下载apache-maven-3.0.4-bin.tar.gz. 下载 ...

  9. 我的MYSQL学习心得(六) 函数

    我的MYSQL学习心得(六) 函数 我的MYSQL学习心得(一) 简单语法 我的MYSQL学习心得(二) 数据类型宽度 我的MYSQL学习心得(三) 查看字段长度 我的MYSQL学习心得(四) 数据类 ...

  10. AngularJS实例实战

    学习了这么多天的AngularJS,今天想从实战的角度和大家分享一个简单的Demo--用户查询系统,以巩固之前所学知识.功能需求需要满足两点 1.查询所有用户信息,并在前端展示 2.根据id查询用户信 ...