前言

合并数据框有重复匹配时通常会返回所有的匹配，如何只保留匹配的第一行呢？其实这个需求也很常见。如芯片探针ID和基因ID往往多对一，要合并ID对应矩阵和芯片表达矩阵时。

数据例子

data = data.frame(id = c(1,2,3,4,5),

                  state = c("KS","MN","AL","FL","CA"))

scores = data.frame(id = c(1,1,1,2,2,3,3,3),

                    score = c(66,75,78,86,85,76,75,90))

数据长这样：

想要这样的结果：

错误的尝试

试了不少方法，以下都是达不到需求的：

dplyr::left_join(data,scores,by="id")

dplyr::inner_join(data,scores,by="id")

dplyr::left_join(data, scores, by="id", match="first") 

merge(data, scores, by = "id")

dplyr::semi_join(data, scores, by = "id") 

#distinct去重

dplyr::left_join(data, dplyr::distinct(scores, id, .keep_all = T))

data %>% dplyr::left_join(dplyr::distinct(scores, id, .keep_all = T)) %>%

  tidyr::replace_na(replace = list("score"=0L)) #替换na

正确方法

通过网上查找，找到了如下实现方式：

方法1

require(data.table)

setDT(scores); setDT(data) # convert to data.tables by reference

scores[data, mult = "first", on = "id", nomatch=0L]

#注意两者顺序

data[scores, mult = "first", on = "id", nomatch=0L] #达不到要求

方法2

merge(data, aggregate(score ~ id, data=scores, head, 1), by="id")

方法3

merge(data, scores[!duplicated(scores$id),], by="id")

方法4

#Return also those which found no match

tt <- cbind(data, score=scores[match(data$id, scores$id),"score"])

#Return only those which found a match

tt[!is.na(tt$score),]

总结

个人最钟意第一种方法，因为data.table真的适合处理大数据，相比于join和merge等快了不少，几千万个基因探针我用join处理的话要很久很久，而且占的内存超级大。data.table几分钟就处理完了。

不过data.table的语法感觉怪怪的，所以一直没去学，看来要好好学习一下了。

R合并数据框有重复匹配时只保留第一行的更多相关文章

有重复行，查询时只保留最新一行的sql
一.表结构如下:表名test 二.sql select temp.* from (select test.*, row_number() over(partition by obd_code orde ...
（数据科学学习手札07）R在数据框操作上方法的总结（初级篇）
上篇我们了解了Python中pandas内封装的关于数据框的常用操作方法,而作为专为数据科学而生的一门语言,R在数据框的操作上则更为丰富精彩,本篇就R处理数据框的常用方法进行总结: 1.数据框的生成 ...
mysql中删除重复记录，只保留一条
表结构如下: mysql> desc test1; +--------------+------------------+------+-----+---------+------------- ...
初探oracle删除重复记录，只保留rowid最小的记录
如题,初探oracle删除重复记录,只保留rowid最小的记录(rowid可以反映数据插入到数据库中的顺序) 一.删除重复记录可以使用多种方法,如下只是介绍了两种方法(exist和in两种). 1.首 ...
oracle删除重复记录，只保留rowid最小的记录
初探oracle删除重复记录,只保留rowid最小的记录如题,初探oracle删除重复记录,只保留rowid最小的记录(rowid可以反映数据插入到数据库中的顺序) 一.删除重复记录可以使用多种 ...
SQL Server 删除重复记录，只保留一条记录
原文地址:http://blog.csdn.net/eriato/article/details/17417303 有张表格之前没有设计关键字段的唯一约束,导致有时候执行插入操作时不小心执行了多次就出 ...
Access数据库删除重复记录，只保留一条记录的做法
Access数据库删除重复记录,只保留一条记录的做法: 只保留id最小的记录方法: delete from [表名] where id not in (select min(id) from [表名] ...
R语言数据框小技巧
当我们想要把数据框的行或者列按照指定的顺序排列时,可以通过行名称或者列名称快速排列 data <- data.frame(matrix(1:9, ncol=3)) rownames(data) ...
R语言数据框行转列实例
目的:须要把数据框的行列进行转置方法: # 原始数据框 > hrl_jd_mon 年份一月二月三月四月五月六月七月八月九月十月十一月十二月 1 2010年 51 ...

随机推荐

VS Code C/C++开发环境配置
VS Code C/C++开发环境配置一.安装 1.前往官网下载安装即可 https://code.visualstudio.com/ 2.进入VS Code安装如下插件二.C/C++开发 ...
SpringCloud 2020.0.4 系列之 Feign
1. 概述老话说的好:任何问题都有不止一种的解决方法,当前的问题没有解决,只是还没有发现解决方法,而并不是无解. 言归正传,之前我们聊了 SpringCloud 的服务治理组件 Eureka,今天我 ...
第五课第四周笔记2：Self-Attention 自注意力
Self-Attention 自注意力让我们跳进去谈谈transformer的self-attention机制.如果您能了解本视频背后的主要思想,您就会了解变压器网络工作背后最重要的核心思想. 让我 ...
Java：并发笔记-02
Java:并发笔记-02 说明:这是看了 bilibili 上黑马程序员的课程 java并发编程后做的笔记 3. 共享模型之管程-1 本章内容-1 共享问题 synchronized 线程安全分 ...
[软工顶级理解组] Beta阶段团队贡献分评分
贡献分评分依据下述表格适用于前端.后端.爬虫开发者的评分,在此基础上进行增减. 类别程度加减分准时性提前完成 +0 按时完成 +0 延后完成,迟交时间一天内或未延误进度 -2 延后完成,迟交 ...
numpy中的nan和常用方法
1.数组的拼接 import numpy as np t1 = np.array([[0, 1, 2, 3, 4, 5], [6, 7, 8, 9, 10, 11]]) t2 = np.array([ ...
攻防世界 web4.cookie
题有几种解法,我有点懒,懒的打开burp,所以可以直接在浏览器拿flag, 首先访问ip/cookie.php,提示:See the http response 接着F12查看响应头给你cyberp ...
21.6.17 test
\(NOI\) 模拟赛. \(T1\) 正解树形DP,由于不是很熟悉概率和期望所以打了个20pts暴力,说不定见多了概率能打出60pts半正解?最后的虚树更不会. \(T2\) 又是概率,还有坐标数量 ...
DH密钥交换
DH密钥交换密模运算所谓幂模,就是先做一次幂运算,再做一次模运算. 模运算有以下性质: 也就是说,先模再乘和先乘再模,只要最后都模了同一个模数,结果都是一样. 有了这个性质,我们首先得到幂模运算的 ...
Serverless 工程实践｜自建 Apache OpenWhisk 平台
作者 | 刘宇(江昱) 前言:OpenWhisk 是一个开源.无服务器的云平台,可以在运行时容器中通过执行扩展的代码响应各种事件,而无须用户关心相关的基础设施架构. OpenWhisk 简介 Open ...

R合并数据框有重复匹配时只保留第一行

前言

数据例子

错误的尝试

正确方法

方法1

方法2

方法3

方法4

总结

R合并数据框有重复匹配时只保留第一行的更多相关文章

随机推荐

热门专题