1. 데이터 다운로드와 구조 설명
데이터는 총 2개입니다. 머신러닝을 알고리즘을 평가하기 위해 데이터는 흔히 2개로 분류합니다. 학습데이터와 테스트데이터로 나누는 것인데요.
원본 데이터(Original data set)가 2개의 데이터로 나눈 것입니다. 보통 7:3정도로 나누고 5:5로 나누는 경우도 있습니다.
데이터는 아래 파일로 다운로드 가능하시고, 링크(http://paullab.co.kr/타이타닉_데이터.zip)로도 다운로드 가능합니다.
2. 데이터 구조
데이터 구조는 아래와 같습니다.

- PassengerId : 각 승객의 고유 번호
- Survived : 생존 여부(0 : 사망, 1 : 생존)
- Pclass : 티켓의 승선권 클래스
- 1 = 1등석
- 2 = 2등석
- 3 = 3등석
- Name : 이름
- Sex : 성별
- Age : 나이
- SibSp : 동반한 Sibling(형제자매)와 Spouse(배우자)의 수
- Parch : 동반한 Parent(부모) Child(자식)의 수
- Ticket : 티켓의 고유넘버
- Fare : 티켓의 요금
- Cabin : 객실 번호
- Embarked : 승선한 항(제주항, 부산항, 인천항과 같은 항입니다.)