转自:

【基础】常用的机器学习&数据挖掘知识点

Basis(基础):

MSE(Mean Square Error 均方误差),LMS(LeastMean Square 最小均方),LSM(Least Square Methods 最小二乘法),MLE(MaximumLikelihood Estimation最大似然估计),QP(Quadratic Programming 二次规划), CP(Conditional Probability条件概率),JP(Joint Probability 联合概率),MP(Marginal Probability边缘概率),Bayesian Formula(贝叶斯公式),L1 /L2Regularization(L1/L2正则,以及更多的,现在比较火的L2.5正则等),GD(GradientDescent 梯度下降),SGD(Stochastic Gradient Descent 随机梯度下降),Eigenvalue(特征值),Eigenvector(特征向量),QR-decomposition(QR分解),Quantile (分位数),Covariance(协方差矩阵)。

Common Distribution(常见分布):

Discrete Distribution(离散型分布):BernoulliDistribution/Binomial(贝努利分布/二项分布),Negative BinomialDistribution(负二项分布),MultinomialDistribution(多项式分布),Geometric Distribution(几何分布),HypergeometricDistribution(超几何分布),Poisson Distribution (泊松分布)

Continuous Distribution (连续型分布):UniformDistribution(均匀分布),Normal Distribution /Guassian Distribution(正态分布/高斯分布),ExponentialDistribution(指数分布),Lognormal Distribution(对数正态分布),GammaDistribution(Gamma分布),Beta Distribution(Beta分布),Dirichlet Distribution(狄利克雷分布),Rayleigh Distribution(瑞利分布),Cauchy Distribution(柯西分布),Weibull Distribution (韦伯分布)

Three Sampling Distribution(三大抽样分布):Chi-squareDistribution(卡方分布),t-distribution(t-distribution),F-distribution(F-分布)

Data Pre-processing(数据预处理)

Missing Value Imputation(缺失值填充),Discretization(离散化),Mapping(映射),Normalization(归一化/标准化)。

Sampling(采样):

Simple Random Sampling(简单随机采样),OfflineSampling(离线等可能K采样),Online Sampling(在线等可能K采样),Ratio-based Sampling(等比例随机采样),Acceptance-RejectionSampling(接受-拒绝采样),Importance Sampling(重要性采样),MCMC(MarkovChain Monte Carlo 马尔科夫蒙特卡罗采样算法:Metropolis-Hasting& Gibbs)。

Clustering(聚类):

K-Means,K-Mediods,二分K-Means,FK-Means,Canopy,Spectral-KMeans(谱聚类),GMM-EM(混合高斯模型-期望最大化算法解决),K-Pototypes,CLARANS(基于划分),BIRCH(基于层次),CURE(基于层次),DBSCAN(基于密度),CLIQUE(基于密度和基于网格)

Classification&Regression(分类&回归):

LR(Linear Regression 线性回归),LR(LogisticRegression逻辑回归),SR(Softmax Regression 多分类逻辑回归),GLM(GeneralizedLinear Model 广义线性模型),RR(Ridge Regression 岭回归/L2正则最小二乘回归),LASSO(Least Absolute Shrinkage andSelectionator Operator L1正则最小二乘回归), RF(随机森林),DT(DecisionTree决策树),GBDT(Gradient BoostingDecision Tree 梯度下降决策树),CART(ClassificationAnd Regression Tree 分类回归树),KNN(K-Nearest Neighbor K近邻),SVM(Support VectorMachine),KF(KernelFunction 核函数PolynomialKernel Function 多项式核函数、Guassian KernelFunction 高斯核函数/Radial BasisFunction RBF径向基函数、String KernelFunction 字符串核函数)、 NB(Naive Bayes 朴素贝叶斯),BN(Bayesian Network/Bayesian Belief Network/ Belief Network 贝叶斯网络/贝叶斯信度网络/信念网络),LDA(Linear Discriminant Analysis/FisherLinear Discriminant 线性判别分析/Fisher线性判别),EL(Ensemble Learning集成学习Boosting,Bagging,Stacking),AdaBoost(Adaptive Boosting 自适应增强),MEM(MaximumEntropy Model最大熵模型)

Effectiveness Evaluation(分类效果评估):

Confusion Matrix(混淆矩阵),Precision(精确度),Recall(召回率),Accuracy(准确率),F-score(F得分),ROC Curve(ROC曲线),AUC(AUC面积),LiftCurve(Lift曲线) ,KS Curve(KS曲线)。

PGM(Probabilistic Graphical Models概率图模型):

BN(Bayesian Network/Bayesian Belief Network/ BeliefNetwork 贝叶斯网络/贝叶斯信度网络/信念网络),MC(Markov Chain 马尔科夫链),HMM(HiddenMarkov Model 马尔科夫模型),MEMM(Maximum Entropy Markov Model 最大熵马尔科夫模型),CRF(ConditionalRandom Field 条件随机场),MRF(MarkovRandom Field 马尔科夫随机场)。

NN(Neural Network神经网络):

ANN(Artificial Neural Network 人工神经网络),BP(Error BackPropagation 误差反向传播)

Deep Learning(深度学习):

Auto-encoder(自动编码器),SAE(Stacked Auto-encoders堆叠自动编码器:Sparse Auto-encoders稀疏自动编码器、Denoising Auto-encoders去噪自动编码器、Contractive Auto-encoders 收缩自动编码器),RBM(RestrictedBoltzmann Machine 受限玻尔兹曼机),DBN(Deep Belief Network 深度信念网络),CNN(ConvolutionalNeural Network 卷积神经网络),Word2Vec(词向量学习模型)。

DimensionalityReduction(降维):

LDA LinearDiscriminant Analysis/Fisher Linear Discriminant 线性判别分析/Fisher线性判别,PCA(Principal Component Analysis 主成分分析),ICA(IndependentComponent Analysis 独立成分分析),SVD(Singular Value Decomposition 奇异值分解),FA(FactorAnalysis 因子分析法)。

Text Mining(文本挖掘):

VSM(Vector Space Model向量空间模型),Word2Vec(词向量学习模型),TF(Term Frequency词频),TF-IDF(Term Frequency-Inverse DocumentFrequency 词频-逆向文档频率),MI(MutualInformation 互信息),ECE(Expected Cross Entropy 期望交叉熵),QEMI(二次信息熵),IG(InformationGain 信息增益),IGR(Information Gain Ratio 信息增益率),Gini(基尼系数),x2 Statistic(x2统计量),TEW(TextEvidence Weight文本证据权),OR(Odds Ratio 优势率),N-Gram Model,LSA(Latent Semantic Analysis 潜在语义分析),PLSA(ProbabilisticLatent Semantic Analysis 基于概率的潜在语义分析),LDA(Latent DirichletAllocation 潜在狄利克雷模型)

Association Mining(关联挖掘):

Apriori,FP-growth(Frequency Pattern Tree Growth 频繁模式树生长算法),AprioriAll,Spade。

Recommendation Engine(推荐引擎)

DBR(Demographic-based Recommendation 基于人口统计学的推荐),CBR(Context-basedRecommendation 基于内容的推荐),CF(Collaborative Filtering协同过滤),UCF(User-basedCollaborative Filtering Recommendation 基于用户的协同过滤推荐),ICF(Item-basedCollaborative Filtering Recommendation 基于项目的协同过滤推荐)。

Similarity Measure&Distance Measure(相似性与距离度量):

Euclidean Distance(欧式距离),ManhattanDistance(曼哈顿距离),Chebyshev Distance(切比雪夫距离),MinkowskiDistance(闵可夫斯基距离),Standardized Euclidean Distance(标准化欧氏距离),MahalanobisDistance(马氏距离),Cos(Cosine 余弦),HammingDistance/Edit Distance(汉明距离/编辑距离),JaccardDistance(杰卡德距离),Correlation Coefficient Distance(相关系数距离),InformationEntropy(信息熵),KL(Kullback-Leibler Divergence KL散度/Relative Entropy 相对熵)。

Optimization(最优化):

Non-constrainedOptimization(无约束优化):Cyclic VariableMethods(变量轮换法),Pattern Search Methods(模式搜索法),VariableSimplex Methods(可变单纯形法),Gradient Descent Methods(梯度下降法),Newton Methods(牛顿法),Quasi-NewtonMethods(拟牛顿法),Conjugate Gradient Methods(共轭梯度法)。

ConstrainedOptimization(有约束优化):Approximation Programming Methods(近似规划法),FeasibleDirection Methods(可行方向法),Penalty Function Methods(罚函数法),Multiplier Methods(乘子法)。

Heuristic Algorithm(启发式算法),SA(SimulatedAnnealing,模拟退火算法),GA(genetic algorithm遗传算法)

Feature Selection(特征选择算法):

Mutual Information(互信息),DocumentFrequence(文档频率),Information Gain(信息增益),Chi-squared Test(卡方检验),Gini(基尼系数)。

Outlier Detection(异常点检测算法):

Statistic-based(基于统计),Distance-based(基于距离),Density-based(基于密度),Clustering-based(基于聚类)。

Learning to Rank(基于学习的排序):

Pointwise:McRank;

Pairwise:RankingSVM,RankNet,Frank,RankBoost;

Listwise:AdaRank,SoftRank,LamdaMART;

Tool(工具):

MPI,Hadoop生态圈,Spark,BSP,Weka,Mahout,Scikit-learn,PyBrain…

常用的机器学习&数据挖掘知识点【转】的更多相关文章

  1. 【基础】常用的机器学习&数据挖掘知识点

    Basis(基础): MSE(Mean Square Error 均方误差),LMS(LeastMean Square 最小均方),LSM(Least Square Methods 最小二乘法),ML ...

  2. 常用的机器学习&数据挖掘知识点

    Basis(基础):MSE(Mean Square Error 均方误差),LMS(LeastMean Square 最小均方),LSM(Least Square Methods 最小二乘法),MLE ...

  3. 常用的机器学习&数据挖掘知识点总结

    Basis(基础): MSE(Mean Square Error 均方误差),LMS(LeastMean Square 最小均方),LSM(Least Square Methods 最小二乘法),ML ...

  4. 常见的机器学习&数据挖掘知识点

    原文:http://blog.csdn.net/heyongluoyao8/article/details/47840255 常见的机器学习&数据挖掘知识点 转载请说明出处 Basis(基础) ...

  5. 常用的机器学习&数据挖掘知识(点)总结

    Basis(基础): MSE(Mean Square Error 均方误差), LMS(LeastMean Square 最小均方), LSM(Least Square Methods 最小二乘法), ...

  6. 常用python机器学习库总结

    开始学习Python,之后渐渐成为我学习工作中的第一辅助脚本语言,虽然开发语言是Java,但平时的很多文本数据处理任务都交给了Python.这些年来,接触和使用了很多Python工具包,特别是在文本处 ...

  7. 机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理)

    前言: 找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可以考虑考 ...

  8. 机器学习&数据挖掘笔记(常见面试之机器学习算法思想简单梳理)

    机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理) 作者:tornadomeet 出处:http://www.cnblogs.com/tornadomeet 前言: 找工作时( ...

  9. Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱(转)

    原文:http://www.52nlp.cn/python-网页爬虫-文本处理-科学计算-机器学习-数据挖掘 曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开 ...

随机推荐

  1. Part 11 Search filter in AngularJS

    As we type in the search textbox, all the columns in the table must be searched and only the matchin ...

  2. MySQL之建设工程监管信息系统

    --创建SelfStudy数据库 CREATE DATABASE ConstructionDB ON PRIMARY --创建主数据库文件 ( NAME=' ConstructionDB', --数据 ...

  3. GPRS组网的几种方案【来自网络】

    GPRS组网的几种方案:1) 方案一:中心采用ADSL等INTELNET公网连接,采用公网固定IP或者公网动态IP+DNS解析服务.此种方案向先INTERNET运营商申请ADSL等宽带业务.     ...

  4. 构造高度自适应的textarea

    高度自适应的textarea,这个需求还是比较常见的,随着用户的输入textarea的高度自动变化,这样输入较少的时候可以节省空间,输入多的时候可以不出现滚动条,让内容尽可能的展现在用户的视线内. 可 ...

  5. 分享9款极具创意的HTML5/CSS3进度条动画

    1.HTML5/CSS3图片加载进度条 可切换多主题 今天要分享的这款HTML5/CSS3进度条模拟了真实的图片加载场景,插件会默认去从服务器下载几张比较大的图片,然后让该进度条展现当前读取图片的进度 ...

  6. flume+kafka (分区实现 默认单分区)

    这篇文章主要是log4j+flume+kafka的内容 首先从从下面的地址下载flume+kafka的插件包 https://github.com/beyondj2ee/flumeng-kafka-p ...

  7. Asp.net 生成验证码

    生成验证码一般来说大体有这么几步: 1.生成验证码字符串,一般由四个或更多随机字符拼凑而成: 2.填充图片背景,并绘制图片的背景噪音线: 3.将验证码绘制到图片中: 4.绘制前景噪点: 5.返回图片流 ...

  8. Zedboard VmodCAM PIN Constraint

    自己画了一块FMC-VHDCI四层板,外接VmodCAM,接口定义如下 #CAMA PIN CONSTRACT NET "CAMA_D_I[7]" LOC = T17 | IOST ...

  9. WP开发笔记——程序的退出方法

    Windows Phone程序中,并没有之前的类似于“App.Exit()”之类的函数用来让你退出程序.这是怎么回事儿呢? 很简单,在Windows Phone 7中系统要求配备了硬件的“Back”键 ...

  10. IE8浏览器跨域接口访问异常的解决办法

    IE8版本以下浏览器绝对是一个神奇的存在,忙碌好久,万事具备,居然在ajax调用接口的时候直接爆炸 陈述一下问题 首先是有这样一个接口,请求类型POST,入参JSON,出参JSON,jQuery aj ...