R包和python对应的库
数据库
类别 | Python | R |
---|---|---|
MySQL | mysql-connector-python(官方) | RMySQL |
Oracle | cx_Oracle | ROracle |
Redis | redis | rredis |
MongoDB | pymongo | RMongo, rmongodb |
neo4j | py2neo | RNeo4j |
Cassandra | cassandra-driver | RJDBC |
ODBC | pyodbc | RODBC |
JDBC | 未知[Jython Only] | RJDBC |
IO类
类别 | Python | R |
---|---|---|
excel | xlsxWriter, pandas.(from/to)_excel, openpyxl | openxlsx::read.xlsx(2), xlsx::read.xlsx(2) |
csv | csv.writer | read.csv(2), read.table |
json | json | jsonlite |
图片 | PIL | jpeg, png, tiff, bmp |
统计类
描述性统计
类别 | Python | R |
---|---|---|
描述性统计汇总 | scipy.stats.descirbe | summary |
均值 | scipy.stats.gmean(几何平均数), scipy.stats.hmean(调和平均数), numpy.mean, numpy.nanmean, pandas.Series.mean | mean |
中位数 | numpy.median, numpy.nanmediam, pandas.Series.median | median |
众数 | scipy.stats.mode, pandas.Series.mode | 未知 |
分位数 | numpy.percentile, numpy.nanpercentile, pandas.Series.quantile | quantile |
经验累积函数(ECDF) | statsmodels.tools.ECDF | ecdf |
标准差 | scipy.stats.std, scipy.stats.nanstd, numpy.std, pandas.Series.std | sd |
方差 | numpy.var, pandas.Series.var | var |
变异系数 | scipy.stats.variation | 未知 |
协方差 | numpy.cov, pandas.Series.cov | cov |
(Pearson)相关系数 | scipy.stats.pearsonr, numpy.corrcoef, pandas.Series.corr | cor |
峰度 | scipy.stats.kurtosis, pandas.Series.kurt | e1071::kurtosis |
偏度 | scipy.stats.skew, pandas.Series.skew | e1071::skewness |
直方图 | numpy.histogram, numpy.histogram2d, numpy.histogramdd | 未知 |
回归(包括统计和机器学习)
类别 | Python | R |
---|---|---|
普通最小二乘法回归(ols) | statsmodels.ols, sklearn.linear_model.LinearRegression | lm, |
广义线性回归(gls) | statsmodels.gls | nlme::gls, MASS::gls |
分位数回归(Quantile Regress) | statsmodels.QuantReg | quantreg::rq |
岭回归 | sklearn.linear_model.Ridge | MASS::lm.ridge, ridge::linearRidge |
LASSO | sklearn.linear_model.Lasso | lars::lars |
最小角回归 | sklearn.linear_modle.LassoLars | lars::lars |
稳健回归 | statsmodels.RLM | MASS::rlm |
假设检验
类别 | Python | R |
---|---|---|
t检验 | statsmodels.stats.ttest_ind, statsmodels.stats.ttost_ind, statsmodels.stats.ttost.paired; scipy.stats.ttest_1samp, scipy.stats.ttest_ind, scipy.stats.ttest_ind_from_stats, scipy.stats.ttest_rel | t.test |
ks检验(检验分布) | scipy.stats.kstest, scipy.stats.kstest_2samp | ks.test |
wilcoxon(非参检验,差异检验) | scipy.stats.wilcoxon, scipy.stats.mannwhitneyu | wilcox.test |
Shapiro-Wilk正态性检验 | scipy.stats.shapiro | shapiro.test |
Pearson相关系数检验 | scipy.stats.pearsonr | cor.test |
时间序列
类别 | Python | R |
---|---|---|
AR | statsmodels.ar_model.AR | ar |
ARIMA | statsmodels.arima_model.arima | arima |
VAR | statsmodels.var_model.var | 未知 |
生存分析
类别 | Python | R |
---|---|---|
PH回归 | statsmodels.formula.api.phreg | 未知 |
机器学习类
分类器
LDA、QDA
类别 | Python | R |
---|---|---|
LDA | sklearn.discriminant_analysis.LinearDiscriminantAnalysis | MASS::lda |
QDA | sklearn.discriminant_analysis.QuadraticDiscriminantAnalysis | MASS::qda |
SVM(支持向量机)
类别 | Python | R |
---|---|---|
支持向量分类器(SVC) | sklearn.svm.SVC | e1071::svm |
非支持向量分类器(nonSVC) | sklearn.svm.NuSVC | 未知 |
线性支持向量分类器(Lenear SVC) | sklearn.svm.LinearSVC | 未知 |
基于临近
类别 | Python | R |
---|---|---|
k-临近分类器 | sklearn.neighbors.KNeighborsClassifier | 未知 |
半径临近分类器 | sklearn.neighbors.RadiusNeighborsClassifier | 未知 |
临近重心分类器(Nearest Centroid Classifier) | sklearn.neighbors.NearestCentroid | 未知 |
贝叶斯
类别 | Python | R |
---|---|---|
朴素贝叶斯 | sklearn.naive_bayes.GaussianNB | e1071::naiveBayes |
多维贝叶斯(Multinomial Naive Bayes) | sklearn.naive_bayes.MultinomialNB | 未知 |
伯努利贝叶斯(Bernoulli Naive Bayes) | sklearn.naive_bayes.BernoulliNB | 未知 |
决策树
类别 | Python | R |
---|---|---|
决策树分类器 | sklearn.tree.DecisionTreeClassifier | tree::tree, party::ctree |
决策树回归器 | sklearn.tree.DecisionTreeRegressor | tree::tree, party::tree |
Assemble方法
类别 | 子类别 | Python | R |
---|---|---|---|
Bagging | 随机森林分类器 | sklearn.ensemble.RandomForestClassifier | randomForest::randomForest, party::cforest |
Bagging | 随机森林回归器 | sklearn.ensemble.RandomForestRegressor | randomForest::randomForest, party::cforest |
Boosting | Gradient Boosting | xgboost 模块 |
xgboost 包 |
Boosting | AdaBoost | sklearn.ensemble.AdaBoostClassifier | adabag 、fastAdaboost 、ada |
Stacking | 未知 | 未知 | 未知 |
聚类
类别 | Python | R |
---|---|---|
kmeans | scipy.cluster.kmeans.kmeans | kmeans::kmeans |
分层聚类 | scipy.cluster.hierarchy.fcluster | (stats::)hclust |
包聚类(Bagged Cluster) | 未知 | e1071::bclust |
DBSCAN | sklearn.cluster.DBSCAN | dbscan::dbsan |
Birch | sklearn.cluster.Birch | 未知 |
K-Medoids聚类 | pyclust.KMedoids(可靠性未知) | cluster.pam |
关联规则
类别 | Python | R |
---|---|---|
apriori算法 | apriori(可靠性未知,不支持py3), PyFIM(可靠性未知,不可用pip安装) | arules::apriori |
FP-Growth算法 | fp-growth(可靠性未知,不支持py3), PyFIM(可靠性未知,不可用pip安装) | 未知 |
神经网络
类别 | Python | R |
---|---|---|
神经网络 | neurolab.net, keras.* | nnet::nnet, nueralnet::nueralnet |
深度学习 | keras.* | 不可靠包居多以及未知 |
概率图模型
文本、NLP
基本操作
类别 | Python | R |
---|---|---|
tokenize | nltk.tokenize(英), jieba.tokenize(中) | tau::tokenize |
stem | nltk.stem | RTextTools::wordStem, SnowballC::wordStem |
stopwords | stop_words.get_stop_words | tm::stopwords, qdap::stopwords |
中文分词 | jieba.cut, smallseg, Yaha, finalseg, genius | jiebaR |
TFIDF | gensim.models.TfidfModel | 未知 |
主题模型
类别 | Python | R |
---|---|---|
LDA | lda.LDA, gensim.models.ldamodel.LdaModel | topicmodels::LDA |
LSI | gensim.models.lsiModel.LsiModel | 未知 |
RP | gensim.models.rpmodel.RpModel | 未知 |
HDP | gensim.models.hdpmodel.HdpModel | 未知 |
与其他分析/可视化/挖掘/报表工具的交互
类别 | Python | R |
---|---|---|
weka | python-weka-wrapper | RWeka |
Tableau | tableausdk | Rserve(实际是R的服务包) |
R包和python对应的库的更多相关文章
- Python中根据库包名学习使用该库包
目录 Python库包模块 import 语句 from-import 语句 搜索路径 PYTHONPATH 变量 命名空间和作用域 查看模块中所有变量和函数,以及查看具体函数的用法 globals( ...
- 工业级GBDT算法︱微软开源 的LightGBM(R包正在开发....)
看完一篇介绍文章后,第一个直觉就是这算法已经配得上工业级属性.日前看到微软已经公开了这一算法,而且已经发开python版本,本人觉得等hadoop+Spark这些平台配齐之后,就可以大规模宣传啦~如果 ...
- R 包
[下面列出每个步骤最有用的一些R包] .数据导入 以下R包主要用于数据导入和保存数据: feather:一种快速,轻量级的文件格式:在R和python上都可使用 readr:实现表格数据的快速导入 r ...
- python常用三方库 - openpyxl
目录 python常用三方库 - openpyxl 读取Excel文件 写入Excel文件 python常用三方库 - openpyxl openpyxl是一个第三方库, 可以处理xlsx格式的Exc ...
- Python的主要库
本文在Creative Commons许可证下发布 市面上的分析工具大致分为两大类,菜单式的工具和命令行式的工具.前者适合于初学入门,类似于跟团旅游,提供了固定的路线.分析套路比较固定化,点几下鼠标就 ...
- Python的标准库介绍与常用的第三方库
Python的标准库介绍与常用的第三方库 Python的标准库: datetime:为日期和时间的处理提供了简单和复杂的方法. zlib:以下模块直接支持通用的数据打包和压缩格式:zlib,gzip, ...
- python中requests库使用方法详解
目录 python中requests库使用方法详解 官方文档 什么是Requests 安装Requests库 基本的GET请求 带参数的GET请求 解析json 添加headers 基本POST请求 ...
- Python中第三方库Requests库的高级用法详解
Python中第三方库Requests库的高级用法详解 虽然Python的标准库中urllib2模块已经包含了平常我们使用的大多数功能,但是它的API使用起来让人实在感觉不好.它已经不适合现在的时代, ...
- Python常用的库简单介绍一下
Python常用的库简单介绍一下fuzzywuzzy ,字符串模糊匹配. esmre ,正则表达式的加速器. colorama 主要用来给文本添加各种颜色,并且非常简单易用. Prettytable ...
随机推荐
- 将DataTable 覆盖到 SQL某表(包括表结构及所有数据)
调用代码: string tableName = "Sheet1"; openFileDlg.ShowDialog(); DataTable dt = GeneralFun.Fil ...
- BASIC-6_蓝桥杯_杨辉三角形
示例代码: #include <stdio.h>#include <stdlib.h> int main(void){ int n = 0 ; int i = 0 , j = ...
- 小峰servlet/jsp(4)EL表达式
一.EL表达式内置对象: 二.EL表达式访问4种范围属性: 寻找值的顺序: page-->request-->session-->application; 三.EL表达式接收请求参数 ...
- Redis:Redis
ylbtech-Redis:Redis 1.返回顶部 2.返回顶部 3.返回顶部 4.返回顶部 5.返回顶部 6.返回顶部 7.返回顶部 8.返回顶部 9.返回顶部 ...
- tp5的RBAC插件及其使用很方便的管理用户登录及操作权限
tp5-rbac 本扩展包是tp5的rbac包,使用了部分tp5的特性实现了关系型数据库中特殊数据结构的处理. 安装方法 先安装composer如果不知道怎么安装使用composer请自行百度. 打开 ...
- tensorflow入门资料
google出的说明文档 tensorflow_manual_cn.pdf google出的视频 https://www.zhihu.com/question/41667903/answer/1306 ...
- 一个PHPer的规划
前言:学PHP过时了吗?PHP开发人员如何快速成长?怎么进行职业规划?特别是近几年非常火热的人工智能,机器学习,区块链技术等等,这多少会带动一些人盲目跟风,迷茫等,下面是PHP大牛魏永强带来的一篇根据 ...
- C++ 无锁队列实现
上源码 #ifndef __GLOBAL_LOCK_FREE_QUEUE_H__ #define __GLOBAL_LOCK_FREE_QUEUE_H__ #include <atomic> ...
- 暴搜 - Codeforces Round #327 (Div. 2) E. Three States
E. Three States Problem's Link Mean: 在一个N*M的方格内,有五种字符:'1','2','3','.','#'. 现在要你在'.'的地方修路,使得至少存在一个块'1 ...
- 20165233 2017-2018-2 《Java程序设计》第九周学习总结
20165233 2017-2018-2 <Java程序设计>第九周学习总结 教材学习内容总结 基础 - URL类:java.net包中的URL类是对统一资源定位符的抽象,使用URL创建对 ...