본문 바로가기
Deep Learning/밑바닥부터 시작하는 데이터 과학

[Kaggle for beginner] [Kaggle 일지2] House Prices 시작1

by Steve-Lee 2020. 7. 28.

Kaggle House Prices

Photo by Franki Chamaki on Unsplash

 

[Kaggle for beginner] [Kaggle 일지1] 데이터 사이언스 초심자를 위한 캐글 스터디

Kaggle for beginner. 데이터 과학 기초부터 시작하기 안녕하세요 인문학적 관점으로 기술을 바라보는 Steve-Lee입니다. 오늘은 데이터 사이언스 초심자를 위한 캐글 스터디 방법에 대한 포스팅을 하려�

deepinsight.tistory.com

Prologue

저는 전문적인 데이터 과학자도 아니고, 그렇다고 전공지식이 가득차고 넘치는 대학원생도 아닙니다...

Kaggle 스터디를 시작하게 된 이유는 간단합니다. 하나씩 제대로 파헤쳐보고 싶습니다. 그동안 너무 이론에 치중한 나머지... 실제 데이터가 주어졌을 때, 어떻게 처리를 해야하며 어떤 결과를 이끌어낼 수 있는지에 대해서는 많은 고민을 안해본 것 같습니다. 

 

고민을 해결함과 동시에 솔루션을 제안할 수 있는 방법은 역시 'Kaggle'밖에 생각이 안납니다...ㅎㅎ 


안녕하세요 Steve-Lee입니다. 오랜만에 다시 포스팅을 합니다.

 

지난 포스팅에서 데이터 과학을 위한 Kaggle 스터디 계획을 말씀드렸습니다. 그런데... 시간이 벌써 10일이 다 지났네요...ㅠㅠ 변명은 하지 않겠습니다. 일이 조금 있었고... 멘탈 관리를 위해 조금의 휴식을 취했습니다...ㅎㅎ

 

요며칠 계속되는 장맛비에 몸도 마음도 조금은 처지는 것 같습니다... 하지만 마냥 풀어질수는 없죠! 맛있는 식사를 하고, (사회적거리를 두며)운동도 좀 하고, 책상앞에 앉았습니다. 

 

계속해서 Kaggle 스터디가 Titanic에서 정체되는것 같아서... 시작을 House Price로 하려고 합니다. Regression문제라 성능을 개선시키는 과정에서 많은 재미를 느낄 수 있다고 생각했습니다!

 

말이 또 길어졌습니다...ㅎㅎ 그럼 House Price: Advanced Regression Techniques 시작합니다!


Over View

  • Getting Started Prediction Competiton
  • House Prices: Advanced Regression Techniques
    • Predict sales prices and practice feature engineering, RFs, and gradient boosting
  • R 또는 Python에 대한 경험이 있으며 머신러닝에 대한 기본이 있으시다면 House Prices Competition을 통해 경험의 폭을 넓힐 수 있을 것입니다

 

이미지 출처: https://www.kaggle.com/c/house-prices-advanced-regression-techniques/overview/

대회 소개

  • 주택 구매자에게 꿈의 집(Dream House)를 설명해 달라고 하면 어떤 것부터 말할까요?
  • 아마 대부분은 침실의 수나, 화이트 피켓 펜스 등을 말하지 천장 높이 또는 철도 근접성 등을 말하지 않을 것입니다
  • 이번 Competition에서는 79개의 설명가능한 변수들을 사용해서 최종 가격을 예측해보도록 하겠습니다 
  • Boston Housing dataset의 현대화된 확장판으로 생각하면 좋을 것 같습니다

Practce Skills

  • Creative feature engineering
  • Advanced regression techniques like random forest and gradient boosting

Evaluation(평가, 최종제출)

최종제출본입니다

위의 그림과 같이 header(Id, SalePrice)를 포함한 파일을 제출해야합니다. 매물 Id별 판매가격을 예측할 수 있어야합니다.

모델에 대한 평가는 RMSE(Root-Mean-Squared-Error)로 이루어집니다.

Tutorial

Python으로 시도해볼 수 있는 Tutorial들이 눈에 들어옵니다

갓캐글, 갓캐글 하는 이유를 알것만 같네요... 이전에는 이정도로 관심이 없어서 였을까요... 놓치고 지나쳤던 부분들이 이제 눈에 들어오기 시작했습니다...ㅎㅎ

원래 계획은 Notebook에서 유저들로부터 좋은 평점을 얻은 kernel을 공부하는 것이었지만 이렇게 친절한 가이드가 있는 한 가이드 대로 한 번 정주행해보려고 합니다.

 

일일 또는 이틀에 한 커널씩 끝내더라도 1주일이라는 시간이 있으니 괜찮은 프로그램이 될 것 같네요! 


첫 번째 Notebook

Comprehensive data exploration with Python

첫번째 Notebook으로 'Comprehensive data exploration with Python'을 선택했습니다. 앞서 표현을 빌리자면...

  • Understand how variables are distributed and how they interact
  • Apply differen transformations before training machine learning models

이 두가지를 배울 것 같네요. 좀 더 살펴보면

이런 것들을 배운다고 합니다.

 

문제 인식 -> Univariable Study -> Multivariate Study -> Basic cleaning -> Test assumptions

 

dependent variable('SalePrice')부터 다양한 Independent variable에 대해 이해해보며 기본적인 전처리 방법부터 multivariate technique에 대해 배워보도록 하겠습니다(약간 설레네요ㅎㅎ)

 

끝으로 어떤 데이터가 있는지 맛보도록 하겠습니다


Dataset

변수도 많고, 변수에 대한 설명도 많네요! 데이터 맛집입니다.

더더욱 재미있는 Competition이 되지 않을까 생각합니다.


마무리

이상 캐린이 Steve-Lee였습니다. 꾸준히 공부하며 포스팅해보도록 하겠습니다. 감사합니다!

댓글