R 내장 데이터셋 state.x77로 알아보는 기초 데이터 분석
데이터 분석을 배우기 시작하면 누구나 한 번쯤 마주하게 되는 것이 바로 R의 내장 데이터셋입니다. 그중 오늘은 미국 50개 주의 사회경제 통계를 담은 state.x77 데이터셋을 가지고 흥미로운 분석을 해보려 합니다.
문맹률이 높은 주는 소득이 낮을까? 교육 수준과 문맹률은 어떤 관계일까? 지금부터 R과 함께 간단한 데이터 분석 여정을 시작해봅시다.
🔍 state.x77 데이터셋이란?
state.x77은 R에 기본으로 내장되어 있는 데이터셋으로, 미국 50개 주의 인구, 소득, 문맹률, 기대수명, 범죄율, 교육 수준 등 다양한 통계를 담고 있습니다.
주요 변수 설명
| Population | 인구 수 (천 명 단위) |
| Income | 1인당 평균 소득 |
| Illiteracy | 문맹률 (25세 이상 인구 기준, %) |
| Life Exp | 기대수명 |
| Murder | 살인범죄율 (인구 10만 명당) |
| HS Grad | 고등학교 졸업률 (%) |
| Frost | 연간 서리 발생일 수 |
| Area | 주 면적 (평방마일) |
📦 데이터 불러오기 및 전처리
# 데이터 불러오기
data("state.x77")
df <- as.data.frame(state.x77)
df$State <- rownames(df) # 주 이름 추가
head(df)
View(df)

데이터를 불러오고 주 이름을 변수로 추가해줍니다. 분석을 위해 시각화와 상관계수 분석도 진행해볼 예정입니다.
우선、 데이터 이름을 수정해할께요
names(df) <-c("Population","Income","Illiteracy",
"Life_Exp","Murder","HS_Grad","Frost","Area","State")
📈 문맹률과 소득의 관계는?
plot(df$Illiteracy, df$Income,
xlab = "문맹률 (%)",
ylab = "1인당 소득 ($)",
main = "문맹률과 소득의 관계",
pch = 19, col = "blue")
abline(lm(Income ~ Illiteracy, data = df), col = "red")

cor(df$Illiteracy, df$Income)
▶ 상관계수 예시: -0.44 → 상당한 음의 상관관계
📌 분석 결과:
문맹률이 높을수록 소득이 낮은 경향이 보입니다. 회귀선을 추가하면 음의 상관관계를 확인할 수 있습니다.
🎓 교육 수준과 문맹률의 상관관계
이번엔 고등학교 졸업률(HS Grad)과 문맹률(Illiteracy) 사이의 관계를 살펴봅시다.
plot(df$HS_Grad, df$Illiteracy,
xlab = "고등학교 졸업률 (%)",
ylab = "문맹률 (%)",
main = "교육 수준과 문맹률의 관계",
pch = 19, col = "darkgreen")
abline(lm(Illiteracy ~ HS_Grad, data = df), col = "red")

cor(df$HS.Grad, df$Illiteracy)
▶ 상관계수 예시: -0.70 이상 → 강한 음의 상관관계
📌 분석 결과:
졸업률이 높을수록 문맹률이 낮습니다. 교육이 문해력 향상에 얼마나 중요한지를 보여주는 사례입니다.
🗺️ 문맹률이 가장 높은 주와 낮은 주는?
df[order(df$Illiteracy, decreasing = TRUE), c("State", "Illiteracy")][1:5, ]
▶ 문맹률이 높은 상위 5개 주 예시:
- Louisiana
- Mississippi
- Alabama
- South Carolina
- Georgia
df[order(df$Illiteracy), c("State", "Illiteracy")][1:5, ]
▶ 문맹률이 낮은 하위 5개 주 예시:
- New Hampshire
- Iowa
- North Dakota
- Nebraska
- Utah
🧠 한눈에 보는 변수 간 상관관계
cor_matrix <- round(cor(df[, 1:8]), 2)
print(cor_matrix)

library(corrplot)
corrplot(cor(df[, 1:8]), method = "circle")

📌 해석 팁:
- 소득 vs 문맹률: -0.44
- 문맹률 vs 졸업률: -0.70
- 문맹률 vs 범죄율: 양의 상관관계 소폭 존재 가능
✍️ 마무리: 데이터는 사회를 비추는 거울
이번 분석을 통해 우리는 단순한 숫자 너머에 있는 사회적 메시지를 읽을 수 있었습니다.
- 문맹률이 높을수록 소득이 낮고, 교육 수준도 낮은 경향이 있으며,
- 이는 사회적 불평등, 지역 간 교육 격차로 이어질 수 있습니다.
📢 R을 활용한 이런 분석은 교육, 정책, 복지 분야의 문제를 고민하는 데 큰 인사이트를 줍니다.
2025.04.02 - [IT관련] - GDP로 보는 대한민국의 변화 – 경제성장, 출산율, 기대수명의 상관관계( + R코드)
GDP로 보는 대한민국의 변화 – 경제성장, 출산율, 기대수명의 상관관계( + R코드)
GDP로 보는 대한민국의 변화-– 경제성장, 출산율, 기대수명의 상관관계 [ 목차 ] 데이터요약 경제성장과 삶의 질 경제성장과 출산율 감소경제성장과 출산율 감소 10년 단위로 본 경제성장 속도GDP
aostory.co.kr
2025.04.24 - [IT관련] - R로 배우는 회귀분석 실습 ( 베이징 미세먼지(PM2.5) 데이터 분석 )
R로 배우는 회귀분석 실습 ( 베이징 미세먼지(PM2.5) 데이터 분석 )
R로 배우는 회귀분석 실습 ( 베이징 미세먼지(PM2.5) ) [ 목차 ] 분석목적 데이터개요 분석방법 R코드 - 데이터 불러오기 - 변수 추출 및 전처리 - 다중회귀 모델 생성 및 결과 요약 - 시각화 결론 및
aostory.co.kr
2025.04.26 - [IT관련] - 영화 흥행 분석 프로젝트( Kaggle 영화 데이터셋 )
영화 흥행 분석 프로젝트( Kaggle 영화 데이터셋 )
🎥 "영화가 성공하려면 무엇이 필요할까?"여러분은 영화가 히트하는 데 무엇이 가장 중요한 요소라고 생각하시나요?막대한 제작비? 유명 배우? 아니면 뛰어난 감독?이런 궁금증을 데이터로 풀
aostory.co.kr
'IT관련' 카테고리의 다른 글
| R로 배우는 데이터 분석: 데이터 분할과 시각화 (3) | 2025.05.19 |
|---|---|
| R로 배우는 랜덤포레스트 교차검증 모델 – caret 패키지 실습 (3) | 2025.05.19 |
| 데이터 쉐어링 완전 정복! (4) | 2025.05.16 |
| R로 분석한 미국 범죄 데이터 (USArrests) (1) | 2025.05.14 |
| 데이터마이닝(Data Mining)이란? (3) | 2025.05.14 |