데이터 과학 with Kaggle
안녕하세요 Steve-Lee입니다. 개인적으로 Data Science 공부를 다시 시작하게 되면서 Kaggle로 학습한 내용들을 정리해서 포스트 하려고 합니다. 저와 함께 Data Science를 공부하면서 입문부터 한 단계씩 나아가기를 소망합니다!
오늘은 시작입니다. Kaggle, Data Science의 시작은 누가 뭐래도 Titanic이죠! Titanic Dataset 분석을 한 번 시작해 보겠습니다.
Competition 소개
Titanic: Machine Learning from Disaster
Start here! Predict survival on the Titanic and get familiar with ML basics
www.kaggle.com

오늘은 시작인 만큼 Kaggle에 대한 간단한 소개도 하려고 합니다(사실 별거 없습니다...ㅎㅎ)
Kaggle Competition을 한 마디로 정의하자면 Data Science를 위한 놀이터이자 경쟁의 장입니다.
마치 게임을 하며 랭킹을 올리듯 주어진 Data를 누가 더 잘 가공해서 최적의 결과를 도출할 수 있느냐를 겨루는 무대가 바로 캐글(Kaggle)입니다.
저희가 오늘부터 시작하게 될 Titanic Competition의 경우 Titanic 생존자를 분류하는 모델을 누가 더 잘 만드냐를 겨룰 수 있습니다. 데이터 테이블을 통해 조금 더 살펴보도록 하겠습니다.
Dataset
survival | Survival | 0 = No, 1 = Yes |
pclass | Ticket class | 1 = 1st, 2 = 2nd, 3 = 3rd |
sex | Sex | |
Age | Age in years | |
sibsp | # of siblings / spouses aboard the Titanic | |
parch | # of parents / children aboard the Titanic | |
ticket | Ticket number | |
fare | Passenger fare | |
cabin | Cabin number | |
embarked | Port of Embarkation | C = Cherbourg, Q = Queenstown, S = Southampton |
결론적으로 'survival'을 분류하는 모델을 생성하는 것이 목표입니다.
이를 위해 우리가 할 일은 9개의 feature를 분석하고, 전처리해서 최적의 모델을 생성하는 것입니다.
(pclass, sex, Age, sibsp, parch, ticket, fare, cabin, embarked)
데이터를 통해 다음의 가설들도 증명해 볼 수 있을 것 같습니다.
클래스에 따른 생존률의 차이가 있을까?
나이, 성별에 따른 생존률의 차이가 있을까?
탑승 위치에 따라서도 생존 여부가 바뀔 수 있을까?
.
.
.
그렇다면 어떤 feature가 가장 중요할까?
다음의 질문들을 데이터를 통해 확인하고 검증하는 과정을 앞으로 하게 될 것 같습니다.
어떻게 시작해야 할까?
이 질문이 가장 중요하지 않을까 생각합니다...!(저는 아직도 답을 찾지 못했습니다...!)
제가 1차적으로 내린 결론은...
일단 시작하자!
입니다...(별 거 없습니다)
Kaggle Notebook을 통해 Top Class Data Scientist 들의 work flow를 익히고, 그들이 주어진 데이터를 통해 insight를 도출하는 방법과 팁들을 제 것으로 습득하는 것이 목표입니다.
마치며
Intro는 짧으면 짧을 수록 좋습니다.
그럼 다음시간부터 Titanic Kerner을 한 번 제대로 분석해보도록 하겠습니다.
이상 Steve-Lee였습니다. 감사합니다!
'Deep Learning > 밑바닥부터 시작하는 데이터 과학' 카테고리의 다른 글
[Kaggle for beginner] [Kaggle 일지2] House Prices 시작1 (0) | 2020.07.28 |
---|---|
[Kaggle for beginner] [Kaggle 일지1] 데이터 사이언스 초심자를 위한 캐글 스터디 (0) | 2020.07.19 |
01. 머신러닝/딥러닝을 위한 수학 및 확률과 통계 가이드 - KOCW와 기본 서적 추천 (0) | 2020.05.28 |
Intro. 밑바닥부터 시작하는 데이터 과학 (2) | 2020.05.26 |
투빅스_알고리즘 (2) | 2019.01.29 |
댓글