데이터 과학 with Kaggle
안녕하세요 Steve-Lee입니다. 개인적으로 Data Science 공부를 다시 시작하게 되면서 Kaggle로 학습한 내용들을 정리해서 포스트 하려고 합니다. 저와 함께 Data Science를 공부하면서 입문부터 한 단계씩 나아가기를 소망합니다!
오늘은 시작입니다. Kaggle, Data Science의 시작은 누가 뭐래도 Titanic이죠! Titanic Dataset 분석을 한 번 시작해 보겠습니다.
Competition 소개
오늘은 시작인 만큼 Kaggle에 대한 간단한 소개도 하려고 합니다(사실 별거 없습니다...ㅎㅎ)
Kaggle Competition을 한 마디로 정의하자면 Data Science를 위한 놀이터이자 경쟁의 장입니다.
마치 게임을 하며 랭킹을 올리듯 주어진 Data를 누가 더 잘 가공해서 최적의 결과를 도출할 수 있느냐를 겨루는 무대가 바로 캐글(Kaggle)입니다.
저희가 오늘부터 시작하게 될 Titanic Competition의 경우 Titanic 생존자를 분류하는 모델을 누가 더 잘 만드냐를 겨룰 수 있습니다. 데이터 테이블을 통해 조금 더 살펴보도록 하겠습니다.
Dataset
survival | Survival | 0 = No, 1 = Yes |
pclass | Ticket class | 1 = 1st, 2 = 2nd, 3 = 3rd |
sex | Sex | |
Age | Age in years | |
sibsp | # of siblings / spouses aboard the Titanic | |
parch | # of parents / children aboard the Titanic | |
ticket | Ticket number | |
fare | Passenger fare | |
cabin | Cabin number | |
embarked | Port of Embarkation | C = Cherbourg, Q = Queenstown, S = Southampton |
결론적으로 'survival'을 분류하는 모델을 생성하는 것이 목표입니다.
이를 위해 우리가 할 일은 9개의 feature를 분석하고, 전처리해서 최적의 모델을 생성하는 것입니다.
(pclass, sex, Age, sibsp, parch, ticket, fare, cabin, embarked)
데이터를 통해 다음의 가설들도 증명해 볼 수 있을 것 같습니다.
클래스에 따른 생존률의 차이가 있을까?
나이, 성별에 따른 생존률의 차이가 있을까?
탑승 위치에 따라서도 생존 여부가 바뀔 수 있을까?
.
.
.
그렇다면 어떤 feature가 가장 중요할까?
다음의 질문들을 데이터를 통해 확인하고 검증하는 과정을 앞으로 하게 될 것 같습니다.
어떻게 시작해야 할까?
이 질문이 가장 중요하지 않을까 생각합니다...!(저는 아직도 답을 찾지 못했습니다...!)
제가 1차적으로 내린 결론은...
일단 시작하자!
입니다...(별 거 없습니다)
Kaggle Notebook을 통해 Top Class Data Scientist 들의 work flow를 익히고, 그들이 주어진 데이터를 통해 insight를 도출하는 방법과 팁들을 제 것으로 습득하는 것이 목표입니다.
마치며
Intro는 짧으면 짧을 수록 좋습니다.
그럼 다음시간부터 Titanic Kerner을 한 번 제대로 분석해보도록 하겠습니다.
이상 Steve-Lee였습니다. 감사합니다!
'Deep Learning > 밑바닥부터 시작하는 데이터 과학' 카테고리의 다른 글
[Kaggle for beginner] [Kaggle 일지2] House Prices 시작1 (0) | 2020.07.28 |
---|---|
[Kaggle for beginner] [Kaggle 일지1] 데이터 사이언스 초심자를 위한 캐글 스터디 (0) | 2020.07.19 |
01. 머신러닝/딥러닝을 위한 수학 및 확률과 통계 가이드 - KOCW와 기본 서적 추천 (0) | 2020.05.28 |
Intro. 밑바닥부터 시작하는 데이터 과학 (2) | 2020.05.26 |
투빅스_알고리즘 (2) | 2019.01.29 |
댓글