dplyr을 사용하여 중복된 요소 찾기
여기에 제시된 코드를 사용하여 중복된 모든 요소를 찾으려고 했습니다.dplyr
다음과 같이:
library(dplyr)
mtcars %>%
mutate(cyl.dup = cyl[duplicated(cyl) | duplicated(cyl, from.last = TRUE)])
중복된 모든 요소를 찾기 위해 여기에 제시된 코드를 변환하려면 어떻게 해야 합니까?dplyr
위의 내 코드가 오류를 발생시키는 것뿐입니까?또는 더 나은 것은, 이것을 복잡한 것보다 더 간결하게 달성할 또 다른 기능이 있을까요?x[duplicated(x) | duplicated(x, from.last = TRUE)])
접근?
제 생각에 당신은filter
이를 위해:
mtcars %>%
group_by(carb) %>%
filter(n()>1)
작은 예(추가한 참고 사항)summarize()
결과 데이터 세트에 중복된 '접두사'가 있는 행이 포함되어 있지 않음을 증명합니다.'carb'는 고유한 값을 가지고 있는 반면 'cyl'은 고유하지 않기 때문에 'cyl' 대신 'carb'를 사용했습니다.)
mtcars %>% group_by(carb) %>% summarize(n=n())
#Source: local data frame [6 x 2]
#
# carb n
#1 1 7
#2 2 10
#3 3 3
#4 4 10
#5 6 1
#6 8 1
mtcars %>% group_by(carb) %>% filter(n()>1) %>% summarize(n=n())
#Source: local data frame [4 x 2]
#
# carb n
#1 1 7
#2 2 10
#3 3 3
#4 4 10
또 다른 해결책은 다음과 같습니다.janitor
패키지:
mtcars %>% get_dupes(wt)
다음과 같이 dplyr로 중복된 요소를 찾을 수 있습니다.
library(dplyr)
# Only duplicated elements
mtcars %>%
filter(duplicated(.[["carb"]])
# All duplicated elements
mtcars %>%
filter(carb %in% unique(.[["carb"]][duplicated(.[["carb"]])]))
원본 게시물에 관련 답변의 솔루션 사용 오류가 있습니다.주어진 예제에서 돌연변이 내부에서 해당 솔루션을 사용하면 mtcars 데이터 프레임과 길이가 동일하지 않은 cyl 벡터의 부분 집합을 구성하려고 합니다.
대신 다음 예제를 모든 중복 요소를 반환하는 필터와 함께 사용하거나 ifelse와 함께 변환하여 나중에 필터링할 수 있는 더미 변수를 만들 수 있습니다.
library(dplyr)
# Return all duplicated elements
mtcars %>%
filter(duplicated(cyl) | duplicated(cyl, fromLast = TRUE))
# Or for making dummy variable of all duplicated
mtcars %>%
mutate(cyl.dup =ifelse(duplicated(cyl) | duplicated(cyl, fromLast = TRUE), 1,0))
# Adding a shortcut to the answer above
library(dplyr)
#>
#> Attaching package: 'dplyr'
#> The following objects are masked from 'package:stats':
#>
#> filter, lag
#> The following objects are masked from 'package:base':
#>
#> intersect, setdiff, setequal, union
mtcars %>% count(carb)
#> # A tibble: 6 x 2
#> carb n
#> <dbl> <int>
#> 1 1. 7
#> 2 2. 10
#> 3 3. 3
#> 4 4. 10
#> 5 6. 1
#> 6 8. 1
mtcars %>% count(carb) %>% filter(n > 1)
#> # A tibble: 4 x 2
#> carb n
#> <dbl> <int>
#> 1 1. 7
#> 2 2. 10
#> 3 3. 3
#> 4 4. 10
# Showing an alternative that follows the apparent intention if the asker
duplicated_carb <- mtcars %>%
mutate(dup_carb = duplicated(carb)) %>%
filter(dup_carb)
duplicated_carb
#> mpg cyl disp hp drat wt qsec vs am gear carb dup_carb
#> 1 21.0 6 160.0 110 3.90 2.875 17.02 0 1 4 4 TRUE
#> 2 21.4 6 258.0 110 3.08 3.215 19.44 1 0 3 1 TRUE
#> 3 18.1 6 225.0 105 2.76 3.460 20.22 1 0 3 1 TRUE
#> 4 14.3 8 360.0 245 3.21 3.570 15.84 0 0 3 4 TRUE
#> 5 24.4 4 146.7 62 3.69 3.190 20.00 1 0 4 2 TRUE
#> 6 22.8 4 140.8 95 3.92 3.150 22.90 1 0 4 2 TRUE
#> 7 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4 TRUE
#> 8 17.8 6 167.6 123 3.92 3.440 18.90 1 0 4 4 TRUE
#> 9 17.3 8 275.8 180 3.07 3.730 17.60 0 0 3 3 TRUE
#> 10 15.2 8 275.8 180 3.07 3.780 18.00 0 0 3 3 TRUE
#> 11 10.4 8 472.0 205 2.93 5.250 17.98 0 0 3 4 TRUE
#> 12 10.4 8 460.0 215 3.00 5.424 17.82 0 0 3 4 TRUE
#> 13 14.7 8 440.0 230 3.23 5.345 17.42 0 0 3 4 TRUE
#> 14 32.4 4 78.7 66 4.08 2.200 19.47 1 1 4 1 TRUE
#> 15 30.4 4 75.7 52 4.93 1.615 18.52 1 1 4 2 TRUE
#> 16 33.9 4 71.1 65 4.22 1.835 19.90 1 1 4 1 TRUE
#> 17 21.5 4 120.1 97 3.70 2.465 20.01 1 0 3 1 TRUE
#> 18 15.5 8 318.0 150 2.76 3.520 16.87 0 0 3 2 TRUE
#> 19 15.2 8 304.0 150 3.15 3.435 17.30 0 0 3 2 TRUE
#> 20 13.3 8 350.0 245 3.73 3.840 15.41 0 0 3 4 TRUE
#> 21 19.2 8 400.0 175 3.08 3.845 17.05 0 0 3 2 TRUE
#> 22 27.3 4 79.0 66 4.08 1.935 18.90 1 1 4 1 TRUE
#> 23 26.0 4 120.3 91 4.43 2.140 16.70 0 1 5 2 TRUE
#> 24 30.4 4 95.1 113 3.77 1.513 16.90 1 1 5 2 TRUE
#> 25 15.8 8 351.0 264 4.22 3.170 14.50 0 1 5 4 TRUE
#> 26 21.4 4 121.0 109 4.11 2.780 18.60 1 1 4 2 TRUE
duplicated()로 부울 마스크를 만들 수 있습니다.
iris %>% duplicated()
[1] FALSE FALSE FALSE .... TRUE FALSE
[145] FALSE FALSE FALSE FALSE FALSE FALSE
대괄호 인덱싱을 통과합니다.
iris[iris %>% duplicated(),]
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
143 5.8 2.7 5.1 1.9 virginica
참고: 이 접근 방식은 R 및 dplyr로 수행할 수 있는 Pandas와 가장 유사합니다.
iris[iris %>% duplicated(), c("Petal.Length","Petal.Width","Species")]
Petal.Length Petal.Width Species
143 5.1 1.9 virginica
여러 열을 사용하여 중복 항목을 그룹화하려는 경우 보다 일반적인 솔루션
df%>%
select(ID,COL1,COL2,all_of(vector_of_columns))%>%
distinct%>%
ungroup%>%rowwise%>%
mutate(ID_GROUPS=paste0(ID,"_",cur_group_rows()))%>%
ungroup%>%
full_join(.,df,by=c("INFO_ID","COL1","COL2",vector_of_columns))->chk
열이 있는 데이터 프레임에서 중복 값 찾기
df<-dataset[duplicated(dataset$columnname),]
언급URL : https://stackoverflow.com/questions/28244123/find-duplicated-elements-with-dplyr
'programing' 카테고리의 다른 글
함수에 다차원 변수 길이 배열 전달 (0) | 2023.07.01 |
---|---|
Oracle에서 날짜를 포맷하고 정렬하는 방법은 무엇입니까? (0) | 2023.07.01 |
Firebase의 클라우드 기능이 무료인지 여부(클라우드 기능을 구축하려면 종량제(Blaze) 과금 계획 필요) (0) | 2023.07.01 |
Oracle과 SQL Server를 혼합한 Entity Framework 5 (0) | 2023.07.01 |
모델을 검증하는 동안 케라스에서 자세한 내용은 무엇을 사용합니까? (0) | 2023.07.01 |