1. Import library yang
diperlukan
%matplotlib
inline
import
numpy as np
import
scipy as sp
import
matplotlib as mpl
import
matplotlib.cm as cm
import
matplotlib.pyplot as plt
import
pandas as pd
from
pandas.tools.plotting import scatter_matrix
pd.set_option('display.width',500)
pd.set_option('display.max_columns',100)
pd.set_option('display.notebook_repr_html',True)
import
seaborn as sns
sns.set(style='whitegrid')
from
sklearn.tree import DecisionTreeClassifier
from
sklearn import metrics
from
sklearn.model_selection import train_test_split
2. Load Data Set
data= pd.read_csv('E:/KULIAH/SEMESTER
6/DATMIN/Materi/train.csv')
Cek Data Set
data.head()
3. Pemahaman data (EDA)
dan preprocess data
·
Statistik
data.describe()
·
Visual
data["Survived"].value_counts().plot(kind="bar")
data["Survived"].value_counts()
4. Perbandingan survival
rated engan variable lainnya
a. Buat fungsi
untuk menghitung dan menampilkan grafiknya
def
survival_stacked_bar(variable):
Died=data[data["Survived"]==0][variable].value_counts()/len(data["Survived"]==0)
Survived=data[data["Survived"]==1][variable].value_counts()/len(data["Survived"]==1)
data=pd.DataFrame([Died,Survived])
data.index=["Did not survived",
"Survived"]
data.plot(kind="bar",stacked=True,title="Percentage")
return data.head()
b. Panggil fungsi
tersebut
survival_stacked_bar("Sex")
5. Preprocess Data
a.
Missing Value? Cek
apakah ada missing value
data.isnull().sum()
b. Membuat
stacked bar
def titanic_corr(data):
correlation = data.corr()
sns.heatmap(correlation, annot=True,
cbar=True, cmap="RdYlGn")
c. Melihat stacked
bar
titanic_corr(data)
d. Menambah kolom
‘Title’ untuk memberi tingkatan pada gelar penumpang
data.insert(value=data.Name.map(lambda
name:
name.split(",")[1].split(".")[0].strip()),loc=12,column="Title")
e. Isi kolom ‘Title’
title_map={'Capt':1,
'Col': 1,
'Mayor': 1,
'Jonkheer': 2,
'Don': 2,
'Sir': 2,
'Dr': 3,
'Rev': 3,
'the Countess': 2,
'Dona': 2,
'Mme': 4,
'Mlle': 5,
'Ms': 4,
'Mr': 6,
'Mrs': 7,
' Miss': 8,
'Master': 9,
'Lady': 2,}
data["Title"]=data.Title.map(title_map)
f.
Cek data setelah ditambahkan kolom ‘Title’
data
g. Mengubah jenis
kelamin menjadi angka 0 dan 1
sex_map={"male":1,"female":0}
data["Sex"]=data["Sex"].map(sex_map)
h. Cek data
setelah melakukan perubahan
data







0 komentar:
Posting Komentar