본문 바로가기
반응형

전체 글87

R로 배우는 데이터 분석: 데이터 분할과 시각화 데이터 분석에서 가장 중요한 과정 중 하나는 데이터 분할(Data Splitting)입니다. 좋은 모델을 만들기 위해선 단순히 정확도가 높은 것보다 일반화 성능, 즉 새로운 데이터를 잘 예측하는 능력이 중요합니다.R을 활용하여 데이터를 훈련/테스트로 나누고, 간단한 모델링과 시각화를 통해 성능을 확인해보겠습니다.1️⃣ 실습 데이터: 꽃의 품종을 분류하는 irisiris 데이터셋은 머신러닝 입문에서 자주 사용되는 예제로, 세 가지 품종의 붓꽃(Species)을 4가지 특성(Sepal, Petal 길이/너비)으로 구분합니다. # 데이터 불러오기 data(iris) head(iris)2️⃣ Hold-out 방식으로 데이터 분할 ( 7 : 3 )Hold-out 방식은 데이터를 한 번 나누고, 훈련용 데이터로 모.. 2025. 5. 19.
R로 배우는 랜덤포레스트 교차검증 모델 – caret 패키지 실습 데이터 분석을 하다 보면 "정확한 모델인가?", "과적합된 건 아닐까?"라는 고민이 들곤 합니다.이번에는 R의 대표적인 머신러닝 패키지인 caret을 활용해, 랜덤포레스트(Random Forest) 모델을 학습하고, 5-Fold 교차검증으로 모델 성능을 평가해보는 과정을 소개합니다. 🧑‍🏫 사용 데이터: irisiris 데이터셋은 머신러닝 입문자들에게 가장 많이 사용되는 데이터입니다.총 150개 샘플4개의 독립 변수 (꽃잎 길이/너비, 꽃받침 길이/너비)3개의 품종 분류 (setosa, versicolor, virginica) 🛠️ 분석 과정 요약caret 패키지 설치 및 로드trainControl()을 이용한 5-Fold 교차검증 설정train() 함수로 랜덤포레스트 모델 훈련최적의 하이퍼파라미터.. 2025. 5. 19.
미국 50개 주의 문맹률, 소득, 교육수준의 상관관계는? R 내장 데이터셋 state.x77로 알아보는 기초 데이터 분석데이터 분석을 배우기 시작하면 누구나 한 번쯤 마주하게 되는 것이 바로 R의 내장 데이터셋입니다. 그중 오늘은 미국 50개 주의 사회경제 통계를 담은 state.x77 데이터셋을 가지고 흥미로운 분석을 해보려 합니다.문맹률이 높은 주는 소득이 낮을까? 교육 수준과 문맹률은 어떤 관계일까? 지금부터 R과 함께 간단한 데이터 분석 여정을 시작해봅시다.🔍 state.x77 데이터셋이란?state.x77은 R에 기본으로 내장되어 있는 데이터셋으로, 미국 50개 주의 인구, 소득, 문맹률, 기대수명, 범죄율, 교육 수준 등 다양한 통계를 담고 있습니다.주요 변수 설명변수 이름설명Population인구 수 (천 명 단위)Income1인당 평균 소득Il.. 2025. 5. 16.
데이터 쉐어링 완전 정복! ✅ 데이터 쉐어링이란?요즘 스마트폰뿐만 아니라 태블릿, 노트북, 스마트워치까지 다양한 스마트 기기를 동시에 사용하는 사람들이 많아졌죠.이럴 때 기기마다 별도로 요금제를 가입하기엔 부담스럽고, 와이파이 없이도 자유롭게 인터넷을 쓰고 싶다면?바로 그때 필요한 것이 **데이터 쉐어링(Data Sharing)**입니다.하나의 요금제 데이터를 여러 기기에서 나눠 쓰는 통신사 부가 서비스로,스마트폰 데이터를 태블릿이나 노트북에서도 공유해서 쓸 수 있는 서비스입니다. 📱 데이터 쉐어링이 필요한 이유데이터 낭비 없이 효율적으로 사용카페, 지하철 등 외부에서도 태블릿·노트북 자유롭게 이용스마트워치 단독 통화 및 데이터 사용 가능핫스팟 켜둘 필요 없이 언제 어디서나 연결🔍 통신사별 데이터 쉐어링 서비스 비교항목SKTK.. 2025. 5. 16.
R로 분석한 미국 범죄 데이터 (USArrests) “도시화가 범죄를 유발한다”는 말, 들어본 적 있으신가요?이번 글에서는 R 내장 데이터셋인 USArrests를 활용하여,미국 각 주(State)의 도시화율(UrbanPop)과 범죄율 사이의 상관관계를 분석해보겠습니다.🧾 분석에 사용할 데이터: USArrestsUSArrests는 미국 50개 주의 다음 네 가지 범죄 통계를 포함하고 있습니다:변수설명Murder살인 사건 발생 수 (인구 10만 명당)Assault폭행 사건 발생 수 (인구 10만 명당)UrbanPop도시 인구 비율 (%)Rape강간 사건 발생 수 (인구 10만 명당) 도시화율이 높을수록 범죄도 함께 높아질까요?지금부터 R을 통해 탐색해 보겠습니다.🔍 1단계: 데이터 확인과 전처리# 데이터 불러오기 data("USArrests") head(.. 2025. 5. 14.
데이터마이닝(Data Mining)이란? 데이터마이닝은 대량의 데이터에서 유의미한 패턴, 관계, 규칙을 자동으로 찾아내는 분석 기법입니다.비즈니스, 금융, 의료, 마케팅, SNS 분석 등 다양한 분야에서 활용되며, 숨겨진 인사이트를 도출하는 데 핵심적인역할을 합니다.🧠 데이터마이닝 주요 분석 방법 7가지 1. 분류(Classification)✔️ 개념데이터를 미리 정의된 **카테고리(클래스)**로 나누는 기법입니다.대표 알고리즘: 의사결정트리, 나이브 베이즈, SVM, 랜덤포레스트🧪 예시이메일을 스팸/정상으로 분류병원에서 환자의 증상을 보고 질병 진단(예: 감기/독감/폐렴)은행 고객을 대출 상환 가능/불가능으로 분류📌 실제 활용금융사에서 고객 데이터를 바탕으로 신용등급을 예측하는 모델을 만들 수 있습니다.2. 군집화(Clustering)✔.. 2025. 5. 14.