R의 substring() 함수 - 알아야 할 사항
R의 Substring() 함수는 데이터에 있는 문자를 추출하거나 데이터를 조작하는 데 널리 사용됩니다. 문자열에서 필요한 문자를 쉽게 추출하고 문자열의 값을 바꿀 수도 있습니다.
안녕하세요 여러분, 잘 지내시기 바랍니다. 오늘은 R의 substing 함수에 초점을 맞추겠습니다.
substring() 함수 구문
하위 문자열: 값 추출, 값 교체 등과 같은 여러 작업을 수행할 수 있습니다. 이를 위해 substr() 및 substring()과 같은 함수를 사용합니다.
substr(x,start,stop)
substring(x,first,last=1000000L)
어디:
- x=입력 데이터/파일.
- Start/First= 하위 문자열의 시작 인덱스.
- Stop/Last= 하위 문자열의 끝 인덱스.
R에서 substring() 함수를 사용하여 문자 추출
글쎄, 나는 당신이 구문에 대해 꽤 명확하기를 바랍니다. 이제 R의 substring() 함수를 사용하여 문자열에서 일부 문자를 추출해 보겠습니다.
#returns the characters from 1,11
df<-("Journal_dev_private_limited")
substring(df,1,11)
출력=\Journal_dev
#returns the characters from 1-7
df<-("Journal_dev")
substring(df,1,7)
출력=\저널
축하합니다. 주어진 문자열에서 데이터를 추출했습니다. 알 수 있듯이 R의 substring() 함수는 시작/첫 번째 및 마지막/끝 값을 인수로 사용하고 문자열을 인덱싱하고 언급된 차원의 필수 하위 문자열을 반환합니다.
R에서 substring() 함수를 사용하여 바꾸기
substring() 함수를 사용하여 문자열의 값을 원하는 값으로 바꿀 수도 있습니다. 흥미로운 것 같죠? 그럼 어떻게 작동하는지 봅시다.
#returns the string by replacing the _ by space
df<-("We are_developers")
substring(df,7,7)=" "
df
출력=\우리는 개발자입니다.
#string replacement
df<-("R=is a language made for statistical analysis")
substring(df,2,2)=" "
df
출력 = "R은 통계 분석을 위해 만들어진 언어입니다.\
좋아, 해냈어! 이러한 방식으로 문자열의 값을 원하는 값으로 바꿀 수 있습니다.
위의 경우 '_'(밑줄) 및 "=\(등호)를\\(공백)으로 교체했습니다. 개선되셨기를 바랍니다.
substring() 함수를 사용한 문자열 교체
지금까지 모든 것이 좋습니다! 그러나 존재하는 모든 문자열에 반영되어야 하는 일부 값을 대체해야 하는 경우에는 어떻게 해야 합니까?
괜찮아요! 값을 바꿀 수 있고 존재하는 모든 문자열에 반영되도록 만들 수 있습니다.
어떻게 작동하는지 봅시다!
#replaces the 4th letter of each string by $
df<-c("Alok","Joseph","Hayato","Kelly","Paloma","Moca")
substring(df,4,4)<-c("$")
df
출력=\Alo$” \Jos$ph” \Hay$to” \Kel$y” \Pal$ma” \Moc$”
오 무슨 일이야? 문자열의 모든 4번째 문자는 '$' 기호로 대체되었습니다!.
글쎄, 그것은 당신을 위한 substring()입니다. 표시된 위치를 주어진 값으로 대체할 수 있습니다.
위의 경우 모든 입력 문자열의 4번째 문자마다 substring() 함수에 의해 '$' 기호로 대체되었습니다. 놀랍죠? 나는 찬성. 당신은 어때요?
R에서 substr() 및 str_sub() 함수 사용
우리는 이미 행에 집중했습니다. 이제 열에 있는 문자 추출에 대해서도 살펴보겠습니다.
어떻게 작동하는지 보자!.
기술 및 인기도라는 2개의 열이 있는 샘플 데이터로 데이터 프레임을 만들 수 있습니다. 이 데이터에서 특정 문자를 추출해 보겠습니다. 재미있을 것.
#creates the data frame
df<-data.frame(Technologies=c("Datascience","machinelearning","Deeplearning","Artificalintelligence"),Popularity=c("70%","85%","90%","95%"))
df
Technologies Popularity
1 Datascience 70%
2 machinelearning 85%
3 Deeplearning 90%
4 Artificalintelligence 95%
예, 이제 데이터 프레임을 만들었습니다. 일부 텍스트를 추출해 보겠습니다. 이렇게 하려면 아래 코드를 실행하여 R의 substr() 함수를 사용하여 Technologies 열의 모든 문자열에서 8-10의 문자를 추출합니다.
#creates new column with extracted values
df$Extracted_Technologies=substr(df$Technologies,8,10)
df
출력 =
Technologies Popularity Extracted_Technologies
1 Datascience_DS 70% enc
2 machinelearning_ML 85% lea
3 Deeplearning_DL 90% rni
4 Artificalintelligence_AI 95% ali
이제 추출된 데이터로 새 열이 생성된 것을 볼 수 있습니다. 이와 같이 인덱스 값을 지정하여 데이터를 추출할 수 있습니다.
R에서 str_sub() 함수 사용
substr() 함수가 작동하는 것을 보았습니다. 이제 앞에서 언급한 대로 str_sub() 함수와 그 추출 방법에 대해 알아보겠습니다.
하자 롤!
이번에도 기술 데이터와 그 인기도를 포함하는 동일한 데이터 프레임을 만들 것입니다.
df<-data.frame(Technologies=c("Datascience","machinelearning","Deeplearning","Artificalintelligence"),Popularity=c("70%","85%","90%","95%"))
df
Technologies Popularity
1 Datascience 70%
2 machinelearning 85%
3 Deeplearning 90%
4 Artificalintelligence 95%
음, 색인된 문자를 출력으로 반환하는 str_sub() 함수를 사용해 봅시다. R에서 하위 문자열을 가져오거나 생성하는 것은 여러 가지 방법으로 수행할 수 있으며 이것이 그 중 하나입니다.
#using the str_sub function
df$Extracted_Technologies=str_sub(df$Technologies,10,15)
> df
보시다시피 str_sub() 함수는 인덱스 값을 추출하고 아래와 같이 출력을 반환합니다.
Technologies Popularity Extracted_Technologies
1 Datascience 70% ce
2 machinelearning 85% arning
3 Deeplearning 90% ing
4 Artificalintelligence 95% intell
마무리
예, 주어진 문자열의 하위 문자열을 가져오거나 생성하는 것이 훨씬 더 쉬운 작업입니다. substr(), substring() 및 str_sub()와 같은 함수 덕분에 하위 스트링을 흥미롭고 흥미롭게 만들었습니다.
지금은 여기까지입니다. 계산에서 이 놀라운 기능을 사용하는 것을 잊지 마십시오. 행복한 서브스트링!!!
추가 학습: R 설명서