R에서 표준 편차를 찾는 방법?
통계 언어인 R은 값의 표준 편차를 찾기 위해 표준 함수 sd(' )를 제공합니다.
그래서 표준 편차는 무엇입니까?
- '표준편차는 값의 분산을 측정한 것'입니다.
- 표준 편차가 높을수록 값의 범위가 넓어집니다.
- 표준 편차가 낮을수록 값의 범위가 좁아집니다.
- 간단한 말로 공식은 다음과 같이 정의됩니다. 표준 편차는 '분산'의 제곱근입니다.
표준편차의 중요성
표준 편차는 통계에서 매우 인기가 있지만 그 이유는 무엇입니까? 그 인기와 중요성에 대한 이유는 다음과 같습니다.
- 표준 편차는 음수를 제곱하여 양수로 변환합니다.
- 특히 살펴볼 수 있도록 더 큰 편차를 표시합니다.
- 중심경향을 보여주므로 분석에 매우 유용한 기능입니다.
- 금융, 비즈니스, 분석 및 측정에서 중요한 역할을 합니다.
주제를 다루기 전에 이 정의를 염두에 두십시오!
분산 - 관찰된 값과 예상 값 사이의 제곱 차이로 정의됩니다.
목록의 값에 대한 R의 표준 편차 찾기
이 방법에서는 목록 'x'를 만들고 여기에 값을 추가합니다. 그런 다음 목록에서 해당 값의 표준 편차를 찾을 수 있습니다.
x <- c(34,56,87,65,34,56,89) #creates list 'x' with some values in it.
sd(x) #calculates the standard deviation of the values in the list 'x'
출력 —> 22.28175
이제 표준 편차를 찾기 위해 목록 'y'에서 특정 값을 추출할 수 있습니다.
y <- c(34,65,78,96,56,78,54,57,89) #creates a list 'y' having some values
data1 <- y[1:5] #extract specific values using its Index
sd(data1) #calculates the standard deviation for Indexed or extracted values from the list.
출력 —> 23.28519
CSV 파일에 저장된 값의 표준 편차 찾기
이 방법에서는 해당 파일에 저장된 값에 대한 R의 표준 편차를 찾기 위해 CSV 파일을 가져옵니다.
readfile <- read.csv('testdata1.csv') #reading a csv file
data2 <- readfile$Values #getting values stored in the header 'Values'
sd(data2) #calculates the standard deviation
출력 —> 17.88624
높고 낮은 표준 편차
일반적으로 낮은 표준편차에서는 값이 평균값에 매우 가깝고 높은 표준편차에서는 평균값에서 멀리 퍼집니다.
예를 들어 설명할 수 있습니다.
x <- c(79,82,84,96,98)
mean(x)
---> 82.22222
sd(x)
---> 10.58038
R에서 사용하여 막대 그래프에 이러한 값을 표시하려면 아래 코드를 실행하십시오.
ggplot2 패키지를 설치하려면 R 스튜디오에서 이 코드를 실행합니다.
--> install.packages(\ggplot2”)
library(ggplot2)
values <- data.frame(marks=c(79,82,84,96,98), students=c(0,1,2,3,4,))
head(values) #displayes the values
marks students
1 79 0
2 82 1
3 84 2
4 96 3
5 98 4
x <- ggplot(values, aes(x=marks, y=students))+geom_bar(stat='identity')
x #displays the plot
위의 결과에서 대부분의 데이터가 평균값(79,82,84)을 중심으로 군집하고 있어 낮은 표준편차임을 알 수 있습니다.
높은 표준 편차에 대한 그림입니다.
y <- c(23,27,30,35,55,76,79,82,84,94,96)
mean(y)
---> 61.90909
sd(y)
---> 28.45507
R의 ggplot에서 막대 그래프를 사용하여 이러한 값을 플롯하려면 아래 코드를 실행하십시오.
library(ggplot2)
values <- data.frame(marks=c(23,27,30,35,55,76,79,82,84,94,96), students=c(0,1,2,3,4,5,6,7,8,9,10))
head(values) #displayes the values
marks students
1 23 0
2 27 1
3 30 2
4 35 3
5 55 4
6 76 5
x <- ggplot(values, aes(x=marks, y=students))+geom_bar(stat='identity')
x #displays the plot
위의 결과에서 광범위한 데이터를 볼 수 있습니다. 평균점수인 61점에서 매우 낮은 23점으로 가장 낮은 점수를 볼 수 있습니다. 이것을 높은 표준편차라고 합니다.
지금까지 R 언어에서 표준 편차를 계산하기 위해 sd(' ) 함수를 사용하는 방법을 충분히 이해했습니다. 간단한 문제를 해결하여 이 자습서를 요약해 보겠습니다.
예 #1: 짝수 목록의 표준편차
1-20 사이의 짝수의 표준 편차를 구합니다(1과 20 제외).
솔루션: 1에서 20 사이의 짝수는,
--> 2, 4, 6, 8, 10, 12, 14, 16, 18
이 값들의 표준편차를 구해봅시다.
x <- c(2,4,6,8,10,12,14,16,18) #list of even numbers from 1 to 20
sd(x) #calculates the standard deviation of these
values in the list of even numbers from 1 to 20
출력 —> 5.477226
예 #2: 미국 인구 데이터의 표준 편차
미국의 주별 인구의 표준편차를 구합니다.
이를 위해 CSV 파일을 가져오고 값을 읽어 표준 편차를 찾고 결과를 R의 히스토그램에 플로팅합니다.
df<-read.csv("population.csv") #reads csv file
data<-df$X2018.Population #extarcts the data from population
column
mean(data) #calculates the mean
View(df) #displays the data
sd(data) #calculates the standard deviation
출력 ----> 평균=6432008, Sd=7376752
결론
R 값의 표준 편차를 찾는 것은 쉽습니다. R은 표준 편차를 찾기 위해 표준 함수 sd(')를 제공합니다. 값 목록을 만들거나 CSV 파일을 가져와서 표준 편차를 찾을 수 있습니다.
중요: 위와 같이 인덱싱을 통해 파일 또는 목록에서 일부 값을 추출하여 표준 편차를 계산하는 것을 잊지 마십시오.
R의 sd(' ) 함수에 대한 의문 사항은 댓글 상자를 사용하여 게시하십시오. 즐거운 학습이 되십시오!!!