NLP&数据挖掘基础知识

Basis(基础)：

SSE(Sum of Squared Error, 平方误差和)
SAE(Sum of Absolute Error, 绝对误差和)
SRE(Sum of Relative Error, 相对误差和)
MSE(Mean Squared Error, 均方误差)
RMSE(Root Mean Squared Error, 均方根误差)
RRSE(Root Relative Squared Error, 相对平方根误差)
MAE(Mean Absolute Error, 平均绝对误差)
RAE(Root Absolute Error, 平均绝对误差平方根)
MRSE(Mean Relative Square Error, 相对平均误差)
RRSE(Root Relative Squared Error, 相对平方根误差)
Expectation(期望)&Variance(方差)
Standard Deviation(标准差，也称Root Mean Squared Error, 均方根误差)
CP(Conditional Probability, 条件概率)
JP(Joint Probability, 联合概率)
MP(Marginal Probability, 边缘概率)
Bayesian Formula(贝叶斯公式)
CC(Correlation Coefficient, 相关系数)
Quantile (分位数)
Covariance(协方差矩阵)
GD(Gradient Descent, 梯度下降)
SGD(Stochastic Gradient Descent, 随机梯度下降)
LMS(Least Mean Squared, 最小均方)
LSM(Least Square Methods, 最小二乘法)
NE(Normal Equation, 正规方程)
MLE(Maximum Likelihood Estimation, 极大似然估计)
QP(Quadratic Programming, 二次规划)
L1 /L2 Regularization(L1/L2正则, 以及更多的, 现在比较火的L2.5正则等)
Eigenvalue(特征值)
Eigenvector(特征向量)

Common Distribution(常见分布)：

Discrete Distribution(离散型分布)：

Bernoulli Distribution/Binomial Distribution(贝努利分布/二项分布)
Negative Binomial Distribution(负二项分布)
Multinomial Distribution(多项分布)
Geometric Distribution(几何分布)
Hypergeometric Distribution(超几何分布)
Poisson Distribution (泊松分布)

Continuous Distribution (连续型分布)：

Uniform Distribution(均匀分布)
Normal Distribution/Gaussian Distribution(正态分布/高斯分布)
Exponential Distribution(指数分布)
Lognormal Distribution(对数正态分布)
Gamma Distribution(Gamma分布)
Beta Distribution(Beta分布)
Dirichlet Distribution(狄利克雷分布)
Rayleigh Distribution(瑞利分布)
Cauchy Distribution(柯西分布)
Weibull Distribution (韦伯分布)

Three Sampling Distribution(三大抽样分布)：

Chi-square Distribution(卡方分布)
t-distribution(t-分布)
F-distribution(F-分布)

Data Pre-processing(数据预处理)：

Missing Value Imputation(缺失值填充)
Discretization(离散化)
Mapping(映射)
Normalization(归一化/标准化)

Sampling(采样)：

Simple Random Sampling(简单随机采样)
Offline Sampling(离线等可能K采样)
Online Sampling(在线等可能K采样)
Ratio-based Sampling(等比例随机采样)
Acceptance-rejection Sampling(接受-拒绝采样)
Importance Sampling(重要性采样)
MCMC(Markov Chain MonteCarlo 马尔科夫蒙特卡罗采样算法：Metropolis-Hasting& Gibbs)

Clustering(聚类)：

K-MeansK-Mediods
二分K-Means
FK-Means
Canopy
Spectral-KMeans(谱聚类)
GMM-EM(混合高斯模型-期望最大化算法解决)
K-Pototypes
CLARANS(基于划分)
BIRCH(基于层次)
CURE(基于层次)
STING(基于网格)
CLIQUE(基于密度和基于网格)
2014年Science上的密度聚类算法等

Clustering Effectiveness Evaluation(聚类效果评估)：

Purity(纯度)
RI(Rand Index, 芮氏指标)
ARI(Adjusted Rand Index, 调整的芮氏指标)
NMI(Normalized Mutual Information, 规范化互信息)
F-meaure(F测量)

Classification&Regression(分类&回归)：

LR(Linear Regression, 线性回归)
LR(Logistic Regression, 逻辑回归)
SR(Softmax Regression, 多分类逻辑回归)
GLM(Generalized Linear Model, 广义线性模型)
RR(Ridge Regression, 岭回归/L2正则最小二乘回归)，LASSO(Least Absolute Shrinkage and Selectionator Operator , L1正则最小二乘回归)
DT(Decision Tree决策树)
RF(Random Forest, 随机森林)
GBDT(Gradient Boosting Decision Tree, 梯度下降决策树)
CART(Classification And Regression Tree 分类回归树)
KNN(K-Nearest Neighbor, K近邻)
SVM(Support Vector Machine, 支持向量机, 包括SVC(分类)&SVR(回归))
CBA(Classification based on Association Rule, 基于关联规则的分类)
KF(Kernel Function, 核函数)

Polynomial Kernel Function(多项式核函数)
Guassian Kernel
Function(高斯核函数)
Radial Basis
Function(RBF径向基函数)
String Kernel
Function 字符串核函数

NB(Naive Bayesian,朴素贝叶斯)
BN(Bayesian
Network/Bayesian Belief Network/Belief Network 贝叶斯网络/贝叶斯信度网络/信念网络)
LDA(Linear
Discriminant Analysis/Fisher Linear Discriminant 线性判别分析/Fisher线性判别)
EL(Ensemble Learning, 集成学习)

Boosting
Bagging
Stacking
AdaBoost(Adaptive
Boosting 自适应增强)

MEM(Maximum Entropy
Model, 最大熵模型)

Classification EffectivenessEvaluation(分类效果评估)：

Confusion Matrix(混淆矩阵)
Precision(精确度)
Recall(召回率)
Accuracy(准确率)
F-score(F得分)
ROC Curve(ROC曲线)
AUC(AUC面积)
Lift Curve(Lift曲线)
KS Curve(KS曲线)

PGM(Probabilistic Graphical Models, 概率图模型)：

BN(BayesianNetwork/Bayesian
Belief Network/ Belief Network , 贝叶斯网络/贝叶斯信度网络/信念网络)
MC(Markov Chain, 马尔科夫链)
MEM(Maximum Entropy
Model, 最大熵模型)
HMM(Hidden Markov
Model, 马尔科夫模型)
MEMM(Maximum Entropy
Markov Model, 最大熵马尔科夫模型)
CRF(Conditional Random
Field,条件随机场)
MRF(Markov Random
Field, 马尔科夫随机场)
Viterbi(维特比算法)

NN(Neural Network, 神经网络)

ANN(Artificial Neural
Network, 人工神经网络)
SNN(Static Neural
Network, 静态神经网络)
BP(Error Back
Propagation, 误差反向传播)
HN(Hopfield Network)
DNN(Dynamic Neural
Network, 动态神经网络)
RNN(Recurrent Neural
Network, 循环神经网络)
SRN(Simple Recurrent
Network, 简单的循环神经网络)
ESN(Echo State
Network, 回声状态网络)
LSTM(Long Short Term
Memory, 长短记忆神经网络)
CW-RNN(Clockwork-Recurrent
Neural Network, 时钟驱动循环神经网络, 2014ICML）等.

Deep Learning(深度学习)：

Auto-encoder(自动编码器)
SAE(Stacked
Auto-encoders堆叠自动编码器)

Sparse Auto-encoders(稀疏自动编码器)
Denoising
Auto-encoders(去噪自动编码器)
Contractive
Auto-encoders(收缩自动编码器)

RBM(Restricted
Boltzmann Machine, 受限玻尔兹曼机)
DBN(Deep Belief
Network, 深度信念网络)
CNN(Convolutional
Neural Network, 卷积神经网络)
Word2Vec(词向量学习模型)

Dimensionality Reduction(降维)：

LDA(Linear
Discriminant Analysis/Fisher Linear Discriminant, 线性判别分析/Fish线性判别)
PCA(Principal
Component Analysis, 主成分分析)
ICA(Independent
Component Analysis, 独立成分分析)
SVD(Singular Value
Decomposition 奇异值分解)
FA(Factor Analysis 因子分析法)

Text Mining(文本挖掘)：

VSM(Vector Space
Model, 向量空间模型)
Word2Vec(词向量学习模型)
TF(Term Frequency, 词频)
TF-IDF(TermFrequency-Inverse
Document Frequency, 词频-逆向文档频率)
MI(Mutual Information,
互信息)
ECE(Expected Cross
Entropy, 期望交叉熵)
QEMI(二次信息熵)
IG(Information Gain, 信息增益)
IGR(Information Gain
Ratio, 信息增益率)
Gini(基尼系数)
x2 Statistic(x2统计量)
TEW(Text Evidence
Weight, 文本证据权)
OR(Odds Ratio, 优势率)
N-Gram Model
LSA(Latent Semantic
Analysis, 潜在语义分析)
PLSA(Probabilistic
Latent Semantic Analysis, 基于概率的潜在语义分析)
LDA(Latent Dirichlet
Allocation, 潜在狄利克雷模型)
SLM(Statistical
Language Model, 统计语言模型)
NPLM(Neural
Probabilistic Language Model, 神经概率语言模型)
CBOW(Continuous Bag of
Words Model, 连续词袋模型)
Skip-gram(Skip-gram
Model)

Association Mining(关联挖掘)：

Apriori算法
FP-growth(Frequency
Pattern Tree Growth, 频繁模式树生长算法)
MSApriori(Multi
Support-based Apriori, 基于多支持度的Apriori算法)
GSpan(Graph-based
Substructure Pattern Mining, 频繁子图挖掘)

Sequential Patterns Analysis(序列模式分析)

AprioriAll
Spade
GSP(Generalized
Sequential Patterns, 广义序列模式)
PrefixSpan

Forecast(预测)

LR(Linear Regression, 线性回归)
SVR(Support Vector
Regression, 支持向量机回归)
ARIMA(Autoregressive
Integrated Moving Average Model, 自回归积分滑动平均模型)
GM(Gray Model, 灰色模型)
BPNN(BP Neural
Network, 反向传播神经网络)
SRN(Simple Recurrent
Network, 简单循环神经网络)
LSTM(Long Short Term
Memory, 长短记忆神经网络)
CW-RNN(Clockwork
Recurrent Neural Network, 时钟驱动循环神经网络)
……

Linked Analysis(链接分析)

HITS(Hyperlink-Induced
Topic Search, 基于超链接的主题检索算法)
PageRank(网页排名)

Recommendation Engine(推荐引擎)：

SVD
Slope One
DBR(Demographic-based
Recommendation, 基于人口统计学的推荐)
CBR(Context-based
Recommendation, 基于内容的推荐)
CF(Collaborative
Filtering, 协同过滤)
UCF(User-based
Collaborative Filtering Recommendation, 基于用户的协同过滤推荐)
ICF(Item-based
Collaborative Filtering Recommendation, 基于项目的协同过滤推荐)

Similarity Measure&Distance
Measure(相似性与距离度量)：

EuclideanDistance(欧式距离)
Chebyshev Distance(切比雪夫距离)
Minkowski Distance(闵可夫斯基距离)
Standardized
EuclideanDistance(标准化欧氏距离)
Mahalanobis Distance(马氏距离)
Cos(Cosine, 余弦)
Hamming Distance/Edit
Distance(汉明距离/编辑距离)
Jaccard Distance(杰卡德距离)
Correlation
Coefficient Distance(相关系数距离)
Information Entropy(信息熵)
KL(Kullback-Leibler
Divergence, KL散度/Relative Entropy, 相对熵)

Optimization(最优化)：

Non-constrained Optimization(无约束优化)：

Cyclic Variable
Methods(变量轮换法)
Variable Simplex
Methods(可变单纯形法)
Newton Methods(牛顿法)
Quasi-Newton Methods(拟牛顿法)
Conjugate Gradient
Methods(共轭梯度法)。

Constrained Optimization(有约束优化)：

Approximation
Programming Methods(近似规划法)
Penalty Function
Methods(罚函数法)
Multiplier Methods(乘子法)。
Heuristic Algorithm(启发式算法)
SA(Simulated
Annealing, 模拟退火算法)
GA(Genetic Algorithm, 遗传算法)
ACO(Ant Colony
Optimization, 蚁群算法)

Feature Selection(特征选择)：

Mutual Information(互信息)
Document Frequence(文档频率)
Information Gain(信息增益)
Chi-squared Test(卡方检验)
Gini(基尼系数)

Outlier Detection(异常点检测)：

Statistic-based(基于统计)
Density-based(基于密度)
Clustering-based(基于聚类)。

Learning to Rank(基于学习的排序)：

Pointwise

McRank

Pairwise

RankingSVM
RankNet
Frank
RankBoost；

Listwise

AdaRank
SoftRank
LamdaMART

Tool(工具)：

MPI
Hadoop生态圈
Spark
IGraph
BSP
Weka
Mahout
Scikit-learn
PyBrain
Theano

NLP&数据挖掘基础知识的更多相关文章

Python数据挖掘——基础知识
Python数据挖掘——基础知识数据挖掘又称从数据中挖掘知识.知识提取.数据/模式分析即为:从数据中发现知识的过程 1.数据清理 (消除噪声,删除不一致数据) 2.数据集成 (多种数据源组合在 ...
网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(1): 基础知识Beautiful Soup
开始学习网络数据挖掘方面的知识,首先从Beautiful Soup入手(Beautiful Soup是一个Python库,功能是从HTML和XML中解析数据),打算以三篇博文纪录学习Beautiful ...
WCF入门教程：WCF基础知识问与答(转)
学习WCF已有近两年的时间,其间又翻译了Juval的大作<Programming WCF Services>,我仍然觉得WCF还有更多的内容值得探索与挖掘.学得越多,反而越发觉得自己所知太 ...
大数据基础知识问答----spark篇，大数据生态圈
Spark相关知识点 1.Spark基础知识 1.Spark是什么? UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架 dfsSpark基于mapredu ...
最全的spark基础知识解答
原文:http://www.36dsj.com/archives/61155 一. Spark基础知识 1.Spark是什么? UCBerkeley AMPlab所开源的类HadoopMapReduc ...
0.Python 爬虫之Scrapy入门实践指南（Scrapy基础知识）
目录 0.0.Scrapy基础 0.1.Scrapy 框架图 0.2.Scrapy主要包括了以下组件: 0.3.Scrapy简单示例如下: 0.4.Scrapy运行流程如下: 0.5.还有什么? 0. ...
DL一（ML基础知识）
基础知识ML 在进行深度学习前,根据学习网站的建议,首先学习机器学习的基础课程,学习资料主要是Andrew讲的ShortVideo,网址:http://openclassroom.stanford.e ...
Mysql学习总结（4）——MySql基础知识、存储引擎与常用数据类型
1.基础知识 1.1.数据库概述简单地说:数据库(Database或DB)是存储.管理数据的容器: 严格地说:数据库是"按照某种数据结构对数据进行组织.存储和管理的容器". 总结 ...
Java基础知识了解
第一章开发前言一.java语言概述 Java是当下最流行的一种编程语言,至今有20年历史了.Java语言之父是James Gosling. Java是Sun公司(Stanford Universi ...

随机推荐

VB.NET设置控件和窗体的显示级别
前言:在用VB.NET开发射频检测系统ADS时,当激活已存在的目标MDI子窗体时,被其他子窗体遮住了,导致目标MDI子窗体不能显示. 这个问题怎么解决呢?网上看到一篇帖子VB.NET设置控件和窗体的显 ...
Java开发中的23种设计模式详解
[放弃了原文访问者模式的Demo,自己写了一个新使用场景的Demo,加上了自己的理解] [源码地址:https://github.com/leon66666/DesignPattern] 一.设计模式 ...
Extjs 让combobox写起来更简单
也已经写了很久时间的extjs ,每次都用到很多的combobox,配置很多东西觉得实在是太麻烦,所以根据常用到的情况写了一个简便的combobox,再次记录下来,以免放在某个地方忘记了找不到了. 定 ...
BPM生产安全管理解决方案分享
一.方案概述生产安全管理是企业生产管理的重要组成部分,组织实施好企业安全管理规划.指导.检查和决策,保证生产处于最佳安全状态是安全管理的重要内容和职责.H3 BPM企业生产安全管理解决方案是一套专门为 ...
Mysql - 游标/动态sql/事务
游标这个在我目前的项目里面用的还不多, 但是其功能还是很强大的. 动态sql以前都没用过, 是跟着富士康(不是张全蛋的富土康哦)过来的同事学的. 还是挺好用的. 我的数据库方面, 跟他学了不少. 在此 ...
Oracle 11g必须开启的服务及服务详细介绍
转自:http://www.educity.cn/shujuku/404120.html 成功安装Oracle 11g数据库后,你会发现自己电脑运行速度会变慢,配置较低的电脑甚至出现非常卡的状况,通 ...
Harmonic Number(调和级数+欧拉常数)
题意:求f(n)=1/1+1/2+1/3+1/4-1/n (1 ≤ n ≤ 108).,精确到10-8 (原题在文末) 知识点: 调和级数(即f(n))至今没有一个完全正确的公式, ...
MyEclipse对Maven的安装
好记性不如烂笔头,记录一下. 操作系统:windows 7 MyEclipse2015 JDK1.7 maven的下载链接,点这里下载apache-maven-3.0.4-bin.tar.gz. 下载 ...
我的MYSQL学习心得（六）函数
我的MYSQL学习心得(六) 函数我的MYSQL学习心得(一) 简单语法我的MYSQL学习心得(二) 数据类型宽度我的MYSQL学习心得(三) 查看字段长度我的MYSQL学习心得(四) 数据类 ...
AngularJS实例实战
学习了这么多天的AngularJS,今天想从实战的角度和大家分享一个简单的Demo--用户查询系统,以巩固之前所学知识.功能需求需要满足两点 1.查询所有用户信息,并在前端展示 2.根据id查询用户信 ...

NLP&数据挖掘基础知识

NLP&数据挖掘基础知识的更多相关文章

随机推荐

热门专题