Minggu, 24 Maret 2019

Data Mining NoteBook


     1.      Load Data
     import pandas as pd
     dataset=pd.read_csv("E:\KULIAH\SEMESTER 6\DATMIN\PreprocessDataSet.csv")

     2.      Menampilkan Data
a.      dimensi data
print(dataset.shape)
b.      5 data pertama
print(dataset.head(5))
c.       5 data terakhir
print(dataset.tail(5))
d.      semua data
print(dataset)
e.       ringkasan data yang (integer)
print(dataset.describe())
f.        ringkasan data (tipe kolom mix)
print(dataset.describe(include = 'all'))
g.      jumlah missing value
dataset.isnull().sum()
h.      menampilkan, pada baris keberapa, dataset pada suatu kolom, mengandung missing value
dataset[dataset.Marital_Status.isnull()]


     3.      count   : menghitung jumlah baris yang gak missing
     unique : isinya apa aja (misal gender, ada male dan female)
     top/modus: data yang paling sering muncul
     freq      : berapa byk / jumlah yg sering muncul (missal ‘yahoo’ frekuensinya 6)
     mean    : nilai rata-rata
     std       : (standart defiasi) 
     min      : nilai minimum
     max     : nilai terbesar

     4.      Periksa dimensi sebelum remove
a.      jika semua baris yang mengandung missing value di kolom manapun, didrop
dataset.dropna(how='any').shape
b.      jika semua baris yang mengandung missing value di semua kolom didrop
dataset.dropna(how='all').shape
c.       jika semua baris yang mengandung missing value di kolom tertentu didrop (any [salah 1] /all [harus semua yg salah])
·         dataset.dropna(subset=['Marital_Status', 'Online_Gaming'], how='any').shape
·         dataset.dropna(subset=['Marital_Status', 'Online_Gaming'], how='all').shape

     5.      Mengganti nilai dengan random
a.      memeriksa  frekuensi sebaran nilai pada kolom tertentu
dataset['Marital_Status'].value_counts()   à munculnya S (4), D (3), M (3)
b.      mereplace missing value dengan nilai tertentu
import numpy as np
dataset['Marital_Status'].replace(np.nan, 'S', inplace=True)   à memilih mengganti dengan S krn modus

     6.     Cek lagi datanya
      print(dataset)

0 komentar:

Posting Komentar