目的: 1. 计算自定义模序在所有蛋白质的匹配位点和次数 2. 输出超过阈值的蛋白质序列到Hit_sequences.fasta 3. Hit_sequences.fasta中序列用小写字母,匹配用大写字母 4. 返回一个数据框,内容包存储ID.注释行(anno)括--.长度(len).匹配位置(Position),匹配次数(Hits),相应序列(tag) 一.问题思考: 1. 如何快速计算匹配位点 2. 输出文件如何构建 >序列ID(ACCESSION) 序列内容…
目的:读入序列文件(fasta格式),返回一个数据框,内容包括--存储ID.注释行(anno).长度(len).序列内容(content) 一.问题思考: 1. 如何识别注释行和序列内容行 2. 如何快速定位序列内容所在位置 二.你可能需要的知识--基本的R语言基础 1. R语言基本数据类型 2. 会使用帮助(help,?)及网络资源 3. 其他的部分可能需要你针对自己看到的问题自己想办法解决或者留言 ##--构建函数--## seq_import <- function( file ){ se…
R语言作为BI中ETL的工具,增删改 R语言提供了强大的R_package与各种数据库进行数据交互. 外加其强大数据变换清洗函数,为ETL提供一条方便快捷的道路. RODBC ROracal RMysql Rmongodb http://mirrors.ustc.edu.cn/CRAN/web/packages/rmongodb/vignettes/rmongodb_cheat_sheet.pdf step1 新建连接con,并查看其信息 library(RODBC) con<-odbcConn…
概率图模型 基于R语言 这本书中的第一个R语言程序 prior <- c(working =0.99,broken =0.01) likelihood <- rbind(working = c(good=0.99,bad=0.01),broken =c(good=0.6,bad=0.4)) data <- c("bad","bad","bad","bad") bayes <- function(prio…
问题: 使用forecast.Arima对带xreg的arima模型进行预测,报xreg Error pre.m4x <- forecast.Arima(m4x, h = 20, xreg = seq(429,448,by = 1)) 报错: Error in if (ncol(xreg) != ncol(object$call$xreg)) stop("Number of regressors does not match fitted model") : argument i…
1. 在matlab中将数据保存到*.mat 文件夹 save("data.mat","data","label")#将data和label两个变量保存到data.mat文件夹中 2.在R语言中安装R.matlab包 install.packages('R.matlab') 3.读取*.mat 文件中的数据 library(R.matlab) ob<-readMat("data.mat")# 返回的是一个列表,通 $进行…
方法一: 按照R导论中的方法,使用RODBC包, library(RODBC) channel<-odbcConnectExcel("file.xlsx") da2<-sqlFetch(channel,"Sheet1") odbcClose(channel) 结果: 未能成功,原因是 odbcConnectExcel is only usable with 32-bit Windows 即只能在32位的电脑中使用,64位的则不可以. 方法二: 使用xls…
1.用0替代数据框中的缺失值NA 生成数据框: > m <- matrix(sample(c(NA, :), , replace = TRUE), ) > d <- as.data.frame(m) V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 1 4 3 NA 3 7 6 6 10 6 5 2 9 8 9 5 10 NA 2 1 7 2 3 1 1 6 3 6 NA 1 4 1 6 4 NA 4 NA 7 10 2 NA 4 1 8 5 1 2 4 NA 2 6…
判断ori_data[,1]中是否存在元素a: a %in% ori_data[,1] 如果存在返回 true,否则返回 false    …
使用attach(file)时,一定要配合使用detach(file),否则再此运行程序时极易出现问题,The following objects are masked ... 此外工作空间中不能有与file里的变量同名的全局变量存在,如果有会显示masked attach()与with的使用方法与区别可参见http://www.cnblogs.com/Make-It-Fun/p/5265396.html…
在R语言编译器中,设置当前工作文件夹可以用setwd()函数. > setwd("e://桌面//")> setwd("e:\桌面\")> setwd("e:/桌面/") 这三种结构都是可以编译通过的, 但是在VS C#中却不行,只有一种能运行成功. (PS:R语言在VS中运行要先配置环境,还没配置的童鞋先要配置好,才可运行,如有问题可看我前面的随笔.) 就是这种结构,engine.Evaluate("setwd('e…
本文目录 公共参数列表 par 颜色相关 字体相关 字体大小相关 线条相关 符号相关 线条和符号大小相关 结束 本文首发:program-dog.blogspot.com 注1:本文也曾在csdn发布,不过无法忍受csdn超长时间的审核,迁移到博客圆了. 本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可. 这一篇介绍par参数比较基础的几个参数用法,涉及颜色,字体,线条和符号,坐标轴,添加图例,组合做图留到下一篇文章. 上一篇文章已经详细的介绍了R语言可视化技术的…
code{white-space: pre;} pre:not([class]) { background-color: white; }if (window.hljs && document.readyState && document.readyState === "complete") { window.setTimeout(function() { hljs.initHighlighting(); }, 0);}.main-container {…
ddply和aggregate是两个用来整合数据的功能强大的函数. aggregate(x, ...) 关于aggregate()函数的使用在<R语言实战>中P105有简单描述,这里重新说一下.此函数主要有一下几种用法: ## Default S3 method: aggregate(x, ...) ## S3 method for class 'data.frame' aggregate(x, by, FUN, ..., simplify = TRUE, drop = TRUE) ## S3…
Iris的R语言命令工具箱(1) 最近在做数据分析,使用了R语言做了些数据处理和可视化,在此记下遇到过的问题.应用过的命令.处理方式以及工具包- *版权声明:本文为博主原创文章,转载请注明本文地址.http://www.cnblogs.com/o0Iris0o/p/6365927.html* 1.CSV格式文件数据导入导出 --------------- ** 1.1 导入CSV数据(导入CSV数据之后储存为"Data Frame数据框"数据结构)** ## 导入csv数据 ## 第一…
时间序列: (或称动态数列)是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列.时间序列分析的主要目的是根据已有的历史数据对未来进行预测.(百度百科) 主要考虑的因素: 1.长期趋势(Long-term trend) : 时间序列可能相当稳定或随时间呈现某种趋势. 时间序列趋势一般为线性的(linear),二次方程式的 (quadratic)或指数函数(exponential function). 2.季节性变动(Seasonal variation) 按时间变动,呈现重复性行为的序列…
一.scale函数 R语言base库中自带数据标准化接口scale函数,函数介绍如下 Usage scale(x, center = TRUE, scale = TRUE) Arguments x: a numeric matrix(like object). center: either a logical value or a numeric vector of length equal to the number of columns of x. scale: either a logic…
本文为带大家了解R语言以及分段式的步骤教程! 人们学习R语言时普遍存在缺乏系统学习方法的问题.学习者不知道从哪开始,如何进行,选择什么学习资源.虽然网络上有许多不错的免费学习资源,然而它们多过了头,反而会让人挑花了眼. 为了构建R语言学习方法,我们在Vidhya和DataCamp中选一组综合资源,帮您从头学习R语言.这套学习方法对于数据科学或R语言的初学者会很有用;如果读者是R语言的老用户,则会由本文了解这门语言的部分最新成果. R语言学习方法会帮助您快速.高效学习R语言. 前言 在开始学习之前…
Linux下安装R语言 一.编译安装 由于采用编译安装,所以需要用到gcc编译环境,在编译前check文件时还会用到libXt-devel和readline-devel两个依赖,所以在编译R语言源码时先将这些工具和依赖包准备好.readline-devel 也可以不安装,不安装此包R语言编程环境中的自动补全功能就废了. 注:可以使用yum安装比较方便. 1.安装环境: Centos 6.5 2.安装步骤: (1) 打开命令行窗口,进入某一目录输入 wget  http://ftp.ctex.or…
最近在网上看R的代码,常常看到 x %>% y 的写法. 样子看着像是pipe的用法,搜了一下, 没找到语法的相关说明. 今天突然开窍,想着 %>% 可能不是语言本身支持的语法,可能是某个包自己定义的. 于是查了下dplyr的文档,发现确实有关于%>%的解释,这个符号确实是个pipe符号. 用法为将左边的x作为参数赋予到右边的y函数中. 最初的版本来自magrittr包,顺着dplyr的文档可以找到解释. 将%>%作为R语言的pipe应该已经是业内共识的规范了,能看到很多地方在这样…
在日常学习或工作中经常会使用线性回归模型对某一事物进行预测,例如预测房价.身高.GDP.学生成绩等,发现这些被预测的变量都属于连续型变量.然而有些情况下,被预测变量可能是二元变量,即成功或失败.流失或不流失.涨或跌等,对于这类问题,线性回归将束手无策.这个时候就需要另一种回归方法进行预测,即Logistic回归. 在实际应用中,Logistic模型主要有三大用途: 1)寻找危险因素,找到某些影响因变量的"坏因素",一般可以通过优势比发现危险因素: 2)用于预测,可以预测某种情况发生的概…
R语言中有几个常用的函数,可以按组对数据进行处理,apply, lapply, sapply, tapply, mapply,等.这几个函数功能有些类似,下面介绍下这几个函数的用法. Apply 这是对一个Matrix或者Array进行某个维度的运算.其格式是: Apply(数据,维度Index,运算函数,函数的参数) 对于Matrix来说,其维度值为2,第二个参数维度Index中,1表示按行运算,2表示按列运算.下面举一个例子: m<-matrix(1:6,2,3) 构建一个简单的2行3列的矩…
问题描述: 安装包xlsx包后,运行library("xlsx")后弹出错误窗口: RGui (64-bit): Rgui.exe - 系统错误 无法启动此程序,因为计算机中丢失 jvm.dll.尝试重新安装该程序以解决此问题. 在R语言环境中的错误是: 载入需要的程辑包:rJava Error : loadNamespace()里算'rJava'时.onLoad失败了,详细内容: 调用: inDL(x, as.logical(local), as.logical(now), ...)…
1.下载Xming地址 http://pan.baidu.com/s/1o6ilisU,安装,推荐默认安装在C盘,推荐快捷方式放在与putty快捷方式同一个文件夹: 2.打开putty,在SSH的X11选项中勾选Enable X11 forwarding,保存putty设置: 3.运行Xming,最小化在系统托盘,使用putty进入一个服务器: 4.打开R语言 > x=c(-5:5)> y=x*x> plot(x,y,type='b') 5.绘图显示曲线…
今天接手一个重复性工作, 需要手工把产品运营们在excel里写的活动规则, 插入数据库表中.为了减少出错, 提高效率. 再加上最近刚刚学R语言, 就用R练练手, 自动生成mysql的sql语句. 一次性提交. 刚才就是判断一个值是否是整数折腾了一小会儿.后来发现R判断这个很简单. 就是as.integer(money) != as.numeric(money) require("XLConnect")library("WriteXLS")wb <-loadWo…
详细内容见上一篇文章:http://www.cnblogs.com/lc1217/p/6514734.html 这里只是介绍下R语言中如何使用最小二乘法解决一次函数的线性回归问题. 代码如下:(数据同上一篇博客)(是不是很简单????) > x<-c(6.19,2.51,7.29,7.01,5.7,2.66,3.98,2.5,9.1,4.2) > y<-c(5.25,2.83,6.41,6.71,5.1,4.23,5.05,1.98,10.5,6.3) > lsfit(x,y…
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- openNLP是NLP中比较好的开源工具,R语言中有openNLP packages,但是呢,貌似对中文的支持并不好,笔者试了试,发现结果并不如意.但是也算认识了一番,就来介绍一下. 一些内容转载于白宁超老师:OpenNLP:驾驭文本,分词那些事 ---------------------------------------- 一.openNL…
R语言使用向量化计算,因此非常容易在集群上进行并行计算.parallel 包提供了非常方便的函数用来进行并行计算,但有一个问题是并行时对于内存中的对象会拷贝多份,因此会比较占内存,这里提供一个比较简易的方法在内存中共享对象从而达到降低内存占用的目的. cl<-makeCluster(, type="FORK") result_list <- parLapply(cl, list, function) stopCluster(cl) 非常简单,在创建集群的时候添加type为…
1. 分子生物学中英文.csv,输入文件,两列,以tab键分隔的txt文本,没有列名 2. 错误的名解.csv, 如果在测试中拼写错误,会写出到这个文件,可用这个容易犯错的名词进行新的测试 3. 注意加载data.table包,因为R语言readline函数,使用脚本不能很好交互,暂时只能在R交互模式下(终端输入R)运行 4. 这里使用write写出文件或者标准输出,readline读入键盘输入,value进行得分统计 library(data.table) dt <- fread("分子…
如何判断我们的线性回归模型是正确的? 1.回归诊断的基本方法opar<-par(no.readOnly=TRUE) fit <- lm(weight ~ height, data = women)par(mfrow = c(2, 2))plot(fit)par(opar) 为理解这些图形,我们来回顾一下OLS回归的统计假设.(1)正态性(主要使用QQ图) 当预测变量值固定时,因变量成正态分布,则残差值也应该是一个均值为0的正态分布.正态Q-Q图(Normal Q-Q,右上)是在正态分布对应的值…