Data Mining - Pemodelan

2 comments

These are the steps :
1. Variable Creation
Selama ini gw cuma tau memodelkan data dengan variabel yang tersedia. Ga pernah berpikir untuk membuat variabel turunan dari variabel yang sudah ada. Nah, ternyata pada dunia pemodelan yang high class, variabel turunan wajib dibuat.
Dari 30 variabel inti bisa didapat 150 atau lebih variabel turunan. Variabel turunan itu bisa apa saja, misalnya average, min, max, dsb. Pembentukan variabel turunan ini menjadi begitu penting karena pada model akhir yang didapat biasanya hanya terdiri dari beberapa variabel inti dan sisanya adalah variabel turunan. Satu hal yang pasti yaitu belum tentu variabel inti adalah variabel terbaik, bisa saja turunannya yang terbaik.

2. Variable Checking
Setelah dibuat variabel turunan dari variabel inti, selanjutnya adalah mengecek keberadaan missing value dan outlier (pencilan). Sehingga, dua tahap terpenting yang harus dilakukan dalam variable checking adalah :

* Missing Value Handling *
Missing value tidak bisa dibiarkan begitu saja, terutama jika analisisnya menggunakan Regresi Logistik, karena analisis tersebut akan membuang semua data yang mengandung missing value. Jadi sayang kan kalau udah capek-capek nyari datanya, malah ga dipake tuk model. Jika data dianalisis dengan classification tree, keberadaan missing value tidak jadi masalah. Classification tree akan menganggap missing value sebagai suatu kategori tersendiri, jadi tidak akan membuangnya.
Ok, dalam pemodelan yang sering dilakukan oleh sang trainer, terdapat 4 cara yang sering dilakukan untuk mengatasi missing value, yaitu :
1. memberikan score dengan nilai terendah
2. memberikan score 0
3. mengisi dengan mean/median/modus
— mean digunakan pada data yang berskala kontinu, misal jumlah pendapatan pada usia tertentu
— median/modus digunakan pada data yang berskala kategorik, misal jenis kelamin
4. memprediksi nilainya dengan regresi linier sederhana
penggunaan metode-metode diatas harus disesuaikan dengan bentuk data dan perlu diperhatikan bahwa pemberian suatu nilai tertentu dipilih tidak hanya berdasarkan data keseluruhan tetapi juga berdasarkan kategori peubah-peubah lain yang bersandingan. Ya, seperti kasus yang jumlah pendapatan tadi, ngisinya jangan langsung rata-rata dari seluruh nilai jumlah pendapatan tapi liat dulu variabel lain kya umur, pekerjaan, jumlah tanggungan.
** Outlier Handling **
Menurut sang trainer, outlier itu cuma punya satu penanganan yaitu “Di Buang”. Walaupun begitu satu hal yang perlu diperhatikan adalah cara mendeteksi outlier. Ada 2 cara yang sering di pake :
* liat dari box plot
** bikin batesan Xbar +/- 3Sigma, outlier tu yang diluar bates.

3. Selecting Variable
Tahapan ini butuh ahli statistik yang punya business sense. Dari segi statistik, variabel yang layak masuk ke dalam model adalah variabel yang mempunyai nilai-p hasil uji chi-square sangat kecil atau dibawah nilai toleransi tertentu. Biasanya angka 0.05 dipakai sebagai nilai toleransi default, tetapi nilai ini bisa diubah tergantung kebijakan si pembuat model.
Seperti yang sudah disebutkan sebelumnya, diperlukan ahli statistik yang punya business sense. Soalnya variabel yang dipilih untuk masuk ke dalam model bukan hanya variabel yang signifikan secara uji statistik tetapi juga variabel yang memang berpengaruh secara bisnis. Sering terjadi variabel-variabel yang punya business sense itu ga lolos uji signifikansi, padahal klo ga da variabel tu model ga da gunanya.

4. Transformation Variable
Sekarang masuk ke tahap yang bisa di bilang paling lama. Transformasi variabel pada dunia modeling yang real bukan sesederhana yang selama ini diajarkan di kuliah. Setiap variabel (penjelas) yang masuk ke dalam model, baik yang kontinu maupun kategorik, sebaiknya dibuat mengikuti kaidah LINIERISASI. Variabel yang linier terhadap respon (target) akan lebih signifikan dibanding variabel yang tidak linier.
Kelebihan dari variabel yang linier adalah :
* lebih mudah untuk dilakukan pendugaan
** dapat diketahui arah hubungannya positif/negatif
*** dapat diketahui hubungannya kuat/lemah
2 syarat kuat hubungan di regresi adalah :
* significant correlation
** linier
So, transformasi dilakukan sesuai bentuk datanya, yang penting buat data tersebut jadi linier. Bentuk-bentuk transformasi ada Ln, exp, polinomial, square root, multiply, absolute, dll.

5. Checking Multikolinierity
6. Building Model
7. Fix The Model (Validation)
8. Robustness Checking


Dikutip dari Indaizy blog

2 comments :

  1. @dimas: sebagian besar ilmu statistika belajar itu. harusnya udah bisa. :p

    ReplyDelete