“도시화가 범죄를 유발한다”는 말, 들어본 적 있으신가요?
이번 글에서는 R 내장 데이터셋인 USArrests를 활용하여,
미국 각 주(State)의 도시화율(UrbanPop)과 범죄율 사이의 상관관계를 분석해보겠습니다.
🧾 분석에 사용할 데이터: USArrests
USArrests는 미국 50개 주의 다음 네 가지 범죄 통계를 포함하고 있습니다:
| Murder | 살인 사건 발생 수 (인구 10만 명당) |
| Assault | 폭행 사건 발생 수 (인구 10만 명당) |
| UrbanPop | 도시 인구 비율 (%) |
| Rape | 강간 사건 발생 수 (인구 10만 명당) |
도시화율이 높을수록 범죄도 함께 높아질까요?
지금부터 R을 통해 탐색해 보겠습니다.
🔍 1단계: 데이터 확인과 전처리
data("USArrests")
head(USArrests)
> head(USArrests)
Murder Assault UrbanPop Rape
Alabama 13.2 236 58 21.2
Alaska 10.0 263 48 44.5
Arizona 8.1 294 80 31.0
Arkansas 8.8 190 50 19.5
California 9.0 276 91 40.6
Colorado 7.9 204 78 38.7
# 주 이름을 별도 컬럼으로 저장
USArrests$State <- rownames(USArrests)
📊 2단계: 상관관계 분석 (Correlation)
먼저 각 변수 간 상관계수를 확인해 보겠습니다.
Murder Assault UrbanPop Rape
Murder 1.00000000 0.8018733 0.06957262 0.5635788
Assault 0.80187331 1.0000000 0.25887170 0.6652412
UrbanPop 0.06957262 0.2588717 1.00000000 0.4113412
Rape 0.56357883 0.6652412 0.41134124 1.0000000
📌 상관계수 결과 요약
- UrbanPop vs Murder: 약 0.07 (거의 상관 없음)
- UrbanPop vs Assault: 약 0.26 (약한 양의 상관관계)
- UrbanPop vs Rape: 약 0.41 (보통 이상의 양의 상관관계)
→ 결론적으로, 도시화율이 높다고 해서 살인이 많다는 증거는 약하지만,
강간 및 폭행과는 어느 정도 연관이 있을 수 있음을 알 수 있습니다.
📈 3단계: 시각화 – 산점도 + 회귀선
(1) UrbanPop vs Murder ( 도시화율과 살인율의 관계 )
ggplot(USArrests, aes(x = UrbanPop, y = Murder)) +
geom_point(color = "steelblue") +
geom_smooth(method = "lm", se = FALSE, color = "red") +
labs(title = "도시화율과 살인률의 관계", x = "Urban Population (%)", y = "Murder Rate")

(2) UrbanPop vs Assault ( 도시화율과 폭행률의 관계 )
geom_point(color = "darkgreen") +
geom_smooth(method = "lm", se = FALSE, color = "orange") +
labs(title = "도시화율과 폭행률의 관계", x = "Urban Population (%)", y = "Assault Rate")

(3) UrbanPop vs Rape ( 도시화율과 강간율의 관계 )
geom_point(color = "purple") +
geom_smooth(method = "lm", se = FALSE, color = "darkred") +
labs(title = "도시화율과 강간률의 관계", x = "Urban Population (%)", y = "Rape Rate")

🧠 분석 결과 해석
| UrbanPop vs Murder | 약함 | 도시화율과 살인 사이에는 명확한 관계가 없음 |
| UrbanPop vs Assault | 다소 있음 | 도시화된 지역일수록 폭행이 증가할 가능성 |
| UrbanPop vs Rape | 꽤 있음 | 강간 범죄는 도시화율과 뚜렷한 관계를 보임 |
📌 주의점: 상관관계는 인과관계를 뜻하지 않습니다.
즉, 도시화가 직접 범죄를 유발한다고 단정할 수는 없습니다. 다만 환경 요인 중 하나로 작용할 가능성은 존재합니다.
✍ 마무리
도시화율이 높다고 해서 모든 범죄가 증가하는 것은 아니지만,
강간과 폭행 같은 범죄 유형에서는 어느 정도 관계가 관찰되었습니다.
이러한 분석은 단순히 데이터를 넘어서, 사회적 안전정책이나 도시 설계 방향에도 도움을 줄 수 있겠죠.
2025.05.07 - [IT관련] - 심혈관 질환 예측 보고서 : 혈압과의 관계 분석
심혈관 질환 예측 보고서 : 혈압과의 관계 분석
심혈관 질환 예측 보고서 : 혈압과의 관계 분석 [ 목차 ] 데이터 수집 및 전처리 혈압 단계별 질환 비율 시각화 로지스틱 회귀분석 및 결과 모델 평가: 정확도 및 AUC 결론 및 시사점 R코드 다운로
aostory.co.kr
2025.04.30 - [IT관련] - 메타 점수가 높은 게임들의 공통점은? ( 캐글 데이터로 보는 게임 공식 )
메타 점수가 높은 게임들의 공통점은? ( 캐글 데이터로 보는 게임 공식 )
메타 점수가 높은 게임들의 공통점은?( 캐글 데이터로 보는 게임 공식 ) [ 목차 ] 사용한 데이터 분석목표 R 코드: 데이터 로딩 및 전처리 시각화 분석 - 장르별 메타 점수 분포 - 플랫폼별 메타 점
aostory.co.kr
2025.04.26 - [IT관련] - 영화 흥행 분석 프로젝트( Kaggle 영화 데이터셋 )
영화 흥행 분석 프로젝트( Kaggle 영화 데이터셋 )
🎥 "영화가 성공하려면 무엇이 필요할까?"여러분은 영화가 히트하는 데 무엇이 가장 중요한 요소라고 생각하시나요?막대한 제작비? 유명 배우? 아니면 뛰어난 감독?이런 궁금증을 데이터로 풀
aostory.co.kr
2025.04.17 - [IT관련] - R로 알아보는 미국 치안지도 ( + USArrests )
R로 알아보는 미국 치안지도 ( + USArrests )
R로 알아보는 미국 치안지도 ( + USArrests ) [ 목차 ] 1. 데이터 소개: USArrests 2. 데이터 전처리 및 군집분석 3. 미국 지도 시각화 4. 결과 해석 5. 자주 묻는 질문 (FAQ) 6. 마무리 및 시사점 미국 50개 주의
aostory.co.kr
'IT관련' 카테고리의 다른 글
| 미국 50개 주의 문맹률, 소득, 교육수준의 상관관계는? (3) | 2025.05.16 |
|---|---|
| 데이터 쉐어링 완전 정복! (4) | 2025.05.16 |
| 데이터마이닝(Data Mining)이란? (3) | 2025.05.14 |
| 심혈관 질환 예측 보고서 : 혈압과의 관계 분석 (0) | 2025.05.07 |
| 메타 점수가 높은 게임들의 공통점은? ( 캐글 데이터로 보는 게임 공식 ) (0) | 2025.04.30 |