1. Load Data
import pandas as pd
dataset=pd.read_csv("E:\KULIAH\SEMESTER
6\DATMIN\PreprocessDataSet.csv")
2. Menampilkan
Data
a. dimensi data
print(dataset.shape)
b. 5 data pertama
print(dataset.head(5))
c. 5 data terakhir
print(dataset.tail(5))
d. semua data
print(dataset)
e. ringkasan data
yang (integer)
print(dataset.describe())
f.
ringkasan data (tipe kolom mix)
print(dataset.describe(include
= 'all'))
g. jumlah missing value
dataset.isnull().sum()
h. menampilkan, pada baris keberapa, dataset pada suatu kolom, mengandung
missing value
dataset[dataset.Marital_Status.isnull()]
3. count : menghitung jumlah baris yang gak missing
unique : isinya apa aja (misal gender, ada male dan
female)
top/modus: data yang
paling sering muncul
freq : berapa byk / jumlah yg sering muncul (missal
‘yahoo’ frekuensinya 6)
mean : nilai rata-rata
std : (standart defiasi)
min : nilai minimum
max : nilai terbesar
4. Periksa dimensi
sebelum remove
a. jika semua baris yang mengandung missing value di kolom manapun, didrop
dataset.dropna(how='any').shape
b. jika semua baris yang mengandung missing value di semua kolom didrop
dataset.dropna(how='all').shape
c. jika semua baris yang mengandung missing value di kolom tertentu didrop (any [salah
1] /all [harus semua yg salah])
·
dataset.dropna(subset=['Marital_Status',
'Online_Gaming'], how='any').shape
·
dataset.dropna(subset=['Marital_Status',
'Online_Gaming'], how='all').shape
5. Mengganti nilai
dengan random
a. memeriksa frekuensi sebaran
nilai pada kolom tertentu
dataset['Marital_Status'].value_counts() à
munculnya S (4), D (3), M (3)
b. mereplace missing value dengan nilai tertentu
import numpy as np
dataset['Marital_Status'].replace(np.nan,
'S', inplace=True)
à memilih mengganti dengan S krn modus
6. Cek lagi datanya
print(dataset)







0 komentar:
Posting Komentar