본문 바로가기
Deep Learning/밑바닥부터 시작하는 데이터 과학

[데이터 과학 with Kaggle] 01. Kaggle Titanic - Intro

by Steve-Lee 2020. 7. 19.

데이터 과학 with Kaggle

안녕하세요 Steve-Lee입니다. 개인적으로 Data Science 공부를 다시 시작하게 되면서 Kaggle로 학습한 내용들을 정리해서 포스트 하려고 합니다. 저와 함께 Data Science를 공부하면서 입문부터 한 단계씩 나아가기를 소망합니다!

 

오늘은 시작입니다. Kaggle, Data Science의 시작은 누가 뭐래도 Titanic이죠! Titanic Dataset 분석을 한 번 시작해 보겠습니다.


Competition 소개

 

Titanic: Machine Learning from Disaster

Start here! Predict survival on the Titanic and get familiar with ML basics

www.kaggle.com

위의 링크를 통해 Competition을 들어가면 다음과 같은 메인 화면을 보실 수 있습니다. 크게 Overview, Data, Notebooks, Discussion, Leaderboard, Rules, Team으로 분류가 되어있네요!

오늘은 시작인 만큼 Kaggle에 대한 간단한 소개도 하려고 합니다(사실 별거 없습니다...ㅎㅎ)

Kaggle Competition을 한 마디로 정의하자면 Data Science를 위한 놀이터이자 경쟁의 장입니다.

마치 게임을 하며 랭킹을 올리듯 주어진 Data를 누가 더 잘 가공해서 최적의 결과를 도출할 수 있느냐를 겨루는 무대가 바로 캐글(Kaggle)입니다.

 

저희가 오늘부터 시작하게 될 Titanic Competition의 경우 Titanic 생존자를 분류하는 모델을 누가 더 잘 만드냐를 겨룰 수 있습니다. 데이터 테이블을 통해 조금 더 살펴보도록 하겠습니다.


Dataset

survival Survival 0 = No, 1 = Yes
pclass Ticket class 1 = 1st, 2 = 2nd, 3 = 3rd
sex Sex
Age Age in years
sibsp # of siblings / spouses aboard the Titanic
parch # of parents / children aboard the Titanic
ticket Ticket number
fare Passenger fare
cabin Cabin number
embarked Port of Embarkation C = Cherbourg, Q = Queenstown, S = Southampton

결론적으로 'survival'을 분류하는 모델을 생성하는 것이 목표입니다. 

이를 위해 우리가 할 일은 9개의 feature를 분석하고, 전처리해서 최적의 모델을 생성하는 것입니다.

(pclass, sex, Age, sibsp, parch, ticket, fare, cabin, embarked)

 

데이터를 통해 다음의 가설들도 증명해 볼 수 있을 것 같습니다.

 

클래스에 따른 생존률의 차이가 있을까?

나이, 성별에 따른 생존률의 차이가 있을까?

탑승 위치에 따라서도 생존 여부가 바뀔 수 있을까?

.

.

.

그렇다면 어떤 feature가 가장 중요할까?

 

다음의 질문들을 데이터를 통해 확인하고 검증하는 과정을 앞으로 하게 될 것 같습니다.


어떻게 시작해야 할까?

이 질문이 가장 중요하지 않을까 생각합니다...!(저는 아직도 답을 찾지 못했습니다...!)

 

제가 1차적으로 내린 결론은...

 

일단 시작하자!

 

입니다...(별 거 없습니다)

 

Kaggle Notebook을 통해 Top Class Data Scientist 들의 work flow를 익히고, 그들이 주어진 데이터를 통해 insight를 도출하는 방법과 팁들을 제 것으로 습득하는 것이 목표입니다.


마치며

Intro는 짧으면 짧을 수록 좋습니다. 

그럼 다음시간부터 Titanic Kerner을 한 번 제대로 분석해보도록 하겠습니다.

이상 Steve-Lee였습니다. 감사합니다!

댓글