본문 바로가기
IT관련

미국 50개 주의 문맹률, 소득, 교육수준의 상관관계는?

by aostory77 2025. 5. 16.

R 내장 데이터셋 state.x77알아보는 기초 데이터 분석

데이터 분석을 배우기 시작하면 누구나 번쯤 마주하게 되는 것이 바로 R내장 데이터셋입니다. 그중 오늘은 미국 50주의 사회경제 통계를 담은 state.x77 데이터셋가지고 흥미로운 분석을 해보려 합니다.

문맹률이 높은 주는 소득이 낮을까? 교육 수준과 문맹률은 어떤 관계일까? 지금부터 R함께 간단한 데이터 분석 여정을 시작해봅시다.


🔍 state.x77 데이터셋이란?

state.x77R기본으로 내장되어 있는 데이터셋으로, 미국 50주의 인구, 소득, 문맹률, 기대수명, 범죄율, 교육 수준 다양한 통계를 담고 있습니다.

주요 변수 설명

변수 이름설명
Population 인구 수 (단위)
Income 1인당 평균 소득
Illiteracy 문맹률 (25이상 인구 기준, %)
Life Exp 기대수명
Murder 살인범죄율 (인구 10명당)
HS Grad 고등학교 졸업률 (%)
Frost 연간 서리 발생일
Area 면적 (평방마일)

📦 데이터 불러오기 전처리

# 데이터 불러오기
data("state.x77")
df <- as.data.frame(state.x77)
df$State <- rownames(df)  # 주 이름 추가
head(df)

 

View(df)

 

 

데이터를 불러오고 이름을 변수로 추가해줍니다. 분석을 위해 시각화와 상관계수 분석도 진행해볼 예정입니다.

우선、 데이터 이름을 수정해할께요

 

names(df) <-c("Population","Income","Illiteracy",
            "Life_Exp","Murder","HS_Grad","Frost","Area","State")


📈 문맹률과 소득의 관계는?

plot(df$Illiteracy, df$Income,
     xlab = "문맹률 (%)",
     ylab = "1인당 소득 ($)",
     main = "문맹률과 소득의 관계",
     pch = 19, col = "blue")
abline(lm(Income ~ Illiteracy, data = df), col = "red")

 

 

cor(df$Illiteracy, df$Income)

상관계수 예시: -0.44상당한 음의 상관관계

 

📌 분석 결과:

문맹률이 높을수록 소득이 낮은 경향이 보입니다. 회귀선을 추가하면 음의 상관관계 확인할  있습니다.


🎓 교육 수준과 문맹률의 상관관계

이번엔 고등학교 졸업률(HS Grad)문맹률(Illiteracy) 사이의 관계를 살펴봅시다.

 

plot(df$HS_Grad, df$Illiteracy,
     xlab = "고등학교 졸업률 (%)",
     ylab = "문맹률 (%)",
     main = "교육 수준과 문맹률의 관계",
     pch = 19, col = "darkgreen")
abline(lm(Illiteracy ~ HS_Grad, data = df), col = "red")

 

 

cor(df$HS.Grad, df$Illiteracy)

상관계수 예시: -0.70 이상 → 강한 음의 상관관계

 

📌 분석 결과:

졸업률이 높을수록 문맹률이 낮습니다. 교육이 문해력 향상에 얼마나 중요한지를 보여주는 사례입니다.


🗺️ 문맹률이 가장 높은 주와 낮은 주는?

df[order(df$Illiteracy, decreasing = TRUE), c("State", "Illiteracy")][1:5, ]

 

문맹률이 높은 상위 5예시:

  • Louisiana
  • Mississippi
  • Alabama
  • South Carolina
  • Georgia

 

df[order(df$Illiteracy), c("State", "Illiteracy")][1:5, ]

 

문맹률이 낮은 하위 5예시:

  • New Hampshire
  • Iowa
  • North Dakota
  • Nebraska
  • Utah

🧠 한눈에 보는 변수 상관관계

cor_matrix <- round(cor(df[, 1:8]), 2)
print(cor_matrix)

 

library(corrplot)
corrplot(cor(df[, 1:8]), method = "circle")

📌 해석 팁:

  • 소득 vs 문맹률: -0.44
  • 문맹률 vs 졸업률: -0.70
  • 문맹률 vs 범죄율: 양의 상관관계 소폭 존재 가능

✍️ 마무리: 데이터는 사회를 비추는 거울

이번 분석을 통해 우리는 단순한 숫자 너머에 있는 사회적 메시지를 읽을 있었습니다.

  • 문맹률이 높을수록 소득이 낮고, 교육 수준도 낮은 경향이 있으며,
  • 이는 사회적 불평등, 지역 교육 격차로 이어질 있습니다.

📢 R활용한 이런 분석은 교육, 정책, 복지 분야의 문제를 고민하는 인사이트를 줍니다.

 

 

2025.04.02 - [IT관련] - GDP로 보는 대한민국의 변화 – 경제성장, 출산율, 기대수명의 상관관계( + R코드)

 

GDP로 보는 대한민국의 변화 – 경제성장, 출산율, 기대수명의 상관관계( + R코드)

GDP로 보는 대한민국의 변화-– 경제성장, 출산율, 기대수명의 상관관계 [ 목차 ] 데이터요약 경제성장과 삶의 질 경제성장과 출산율 감소경제성장과 출산율 감소 10년 단위로 본 경제성장 속도GDP

aostory.co.kr

 

2025.04.24 - [IT관련] - R로 배우는 회귀분석 실습 ( 베이징 미세먼지(PM2.5) 데이터 분석 )

 

R로 배우는 회귀분석 실습 ( 베이징 미세먼지(PM2.5) 데이터 분석 )

R로 배우는 회귀분석 실습 ( 베이징 미세먼지(PM2.5) ) [ 목차 ] 분석목적 데이터개요 분석방법 R코드 - 데이터 불러오기 - 변수 추출 및 전처리 - 다중회귀 모델 생성 및 결과 요약 - 시각화 결론 및

aostory.co.kr

 

2025.04.26 - [IT관련] - 영화 흥행 분석 프로젝트( Kaggle 영화 데이터셋 )

 

영화 흥행 분석 프로젝트( Kaggle 영화 데이터셋 )

🎥 "영화가 성공하려면 무엇이 필요할까?"여러분은 영화가 히트하는 데 무엇이 가장 중요한 요소라고 생각하시나요?막대한 제작비? 유명 배우? 아니면 뛰어난 감독?이런 궁금증을 데이터로 풀

aostory.co.kr