Data Mining NoteBook ~ Cooking with Erica

1. Load Data

import pandas as pd

dataset=pd.read_csv("E:\KULIAH\SEMESTER 6\DATMIN\PreprocessDataSet.csv")

2. Menampilkan Data

a. dimensi data

print(dataset.shape)

b. 5 data pertama

print(dataset.head(5))

c. 5 data terakhir

print(dataset.tail(5))

d. semua data

print(dataset)

e. ringkasan data yang (integer)

print(dataset.describe())

f. ringkasan data (tipe kolom mix)

print(dataset.describe(include = 'all'))

g. jumlah missing value

dataset.isnull().sum()

h. menampilkan, pada baris keberapa, dataset pada suatu kolom, mengandung missing value

dataset[dataset.Marital_Status.isnull()]

3. count : menghitung jumlah baris yang gak missing

unique : isinya apa aja (misal gender, ada male dan female)

top/modus: data yang paling sering muncul

freq : berapa byk / jumlah yg sering muncul (missal ‘yahoo’ frekuensinya 6)

mean : nilai rata-rata

std : (standart defiasi)

min : nilai minimum

max : nilai terbesar

4. Periksa dimensi sebelum remove

a. jika semua baris yang mengandung missing value di kolom manapun, didrop

dataset.dropna(how='any').shape

b. jika semua baris yang mengandung missing value di semua kolom didrop

dataset.dropna(how='all').shape

c. jika semua baris yang mengandung missing value di kolom tertentu didrop (any [salah 1] /all [harus semua yg salah])

· dataset.dropna(subset=['Marital_Status', 'Online_Gaming'], how='any').shape

· dataset.dropna(subset=['Marital_Status', 'Online_Gaming'], how='all').shape

5. Mengganti nilai dengan random

a. memeriksa frekuensi sebaran nilai pada kolom tertentu

dataset['Marital_Status'].value_counts() à munculnya S (4), D (3), M (3)

b. mereplace missing value dengan nilai tertentu

import numpy as np

dataset['Marital_Status'].replace(np.nan, 'S', inplace=True) à memilih mengganti dengan S krn modus

6. Cek lagi datanya

print(dataset)

Total Tayangan Halaman

Popular Posts

Categories

Cooking with Erica

Welcome to my blog :)

Minggu, 24 Maret 2019

Data Mining NoteBook

0 komentar:

Posting Komentar