Minggu, 24 Maret 2019

Data Mining (Klasifikasi)


   1.      Import library yang diperlukan
   %matplotlib inline
   import numpy as np
   import scipy as sp
   import matplotlib as mpl
   import matplotlib.cm as cm
   import matplotlib.pyplot as plt
   import pandas as pd
   from pandas.tools.plotting import scatter_matrix
   pd.set_option('display.width',500)
   pd.set_option('display.max_columns',100)
   pd.set_option('display.notebook_repr_html',True)
   import seaborn as sns
   sns.set(style='whitegrid')
   from sklearn.tree import DecisionTreeClassifier
   from sklearn import metrics
   from sklearn.model_selection import train_test_split

   2.      Load Data Set
   data= pd.read_csv('E:/KULIAH/SEMESTER 6/DATMIN/Materi/train.csv')
   Cek Data Set
   data.head()

   3.      Pemahaman data (EDA) dan preprocess data
   ·         Statistik
   data.describe()
   ·         Visual
   data["Survived"].value_counts().plot(kind="bar")
   data["Survived"].value_counts()

   4.      Perbandingan survival rated engan variable lainnya
         a.      Buat fungsi untuk menghitung dan menampilkan grafiknya
         def survival_stacked_bar(variable):
         Died=data[data["Survived"]==0][variable].value_counts()/len(data["Survived"]==0)
         Survived=data[data["Survived"]==1][variable].value_counts()/len(data["Survived"]==1)
         data=pd.DataFrame([Died,Survived])
         data.index=["Did not survived", "Survived"]
         data.plot(kind="bar",stacked=True,title="Percentage")
         return data.head()
        b.      Panggil fungsi tersebut
        survival_stacked_bar("Sex")

   5.      Preprocess Data
         a.       Missing Value? Cek apakah ada missing value
          data.isnull().sum()
         b.      Membuat stacked bar
          def titanic_corr(data):
          correlation = data.corr()
          sns.heatmap(correlation, annot=True, cbar=True, cmap="RdYlGn")
         c.       Melihat stacked bar
          titanic_corr(data)
         d.      Menambah kolom ‘Title’ untuk memberi tingkatan pada gelar penumpang
          data.insert(value=data.Name.map(lambda name: name.split(",")[1].split(".")[0].strip()),loc=12,column="Title")
          e.       Isi kolom ‘Title’
          title_map={'Capt':1,
                  'Col': 1,
                  'Mayor': 1,
                  'Jonkheer': 2,
                  'Don': 2,
                  'Sir': 2,
                  'Dr': 3,
                  'Rev': 3,
                  'the Countess': 2,
                  'Dona': 2,
                  'Mme': 4,
                  'Mlle': 5,
                  'Ms': 4,
                  'Mr': 6,
                  'Mrs': 7,
                 ' Miss': 8,
                 'Master': 9,
                 'Lady': 2,}
         data["Title"]=data.Title.map(title_map)
        f.        Cek data setelah ditambahkan kolom ‘Title’
         data
         g.      Mengubah jenis kelamin menjadi angka 0 dan 1
         sex_map={"male":1,"female":0}
         data["Sex"]=data["Sex"].map(sex_map)
         h.      Cek data setelah melakukan perubahan
         data


0 komentar:

Posting Komentar