如何在 R 中选择一个数据框中不存在于其他数据框中的行?

r programmingserver side programmingprogramming更新于 2025/6/27 6:07:17

有时，我们需要查找两个数据框之间不常见的行，而不是查找相同的行。这种方法主要用于我们预期有大量行而不是少数行不常见的情况。我们可以通过使用否定运算符(感叹号表示)和子集函数来实现这一点。

示例

考虑以下数据框 −

> x1<-sample(1:10,20,replace=TRUE)
> y1<-sample(1:10,20,replace=TRUE)
> df1<-data.frame(x1,y1)
> df1

> x2<-sample(1:10,20,replace=TRUE)
> y2<-sample(1:10,20,replace=TRUE)
> df2<-data.frame(x2,y2)
> df2

现在假设我们想要取 df2 变量 y2 的一个子集，该子集不在 df1 的 y1 中，那么可以按如下方式进行 −

> subset(df2,!(y2%in%df1$y1))
x2 y2
16 1 7
<0 rows> (or 0-length row.names)

类似地，取 df2 变量 y2 的一个子集，该子集不在 df1 的 x1 中，则可以按如下方式进行 −

> subset(df2,!(y2%in%df1$x1))
[1] x2 y2
<0 rows> (or 0-length row.names)

我们再看一个例子 −

> x1<-rep(1:10,2)
> df1<-data.frame(x1)
> df1

> x2<-rep(1:5,4)
> df2<-data.frame(x2)
> df2

> subset(df1,!(x1%in%df2$x2))