Laman

Jumat, 19 Mei 2017

jurnal



Implementasi Data Mining dengan Algoritma C4.5 untuk Memprediksi Pembelian Tipe Sepeda Motor

Siti Sundari
Sekolah Tinggi Teknik Harapan Medan
Jln. Hm Joni  No. 70 C Medan

Abstrak
Penjualan adalah salah satu transaksi yang sangat penting didunia bisnis. Dalam pengelolaan suatu perusahaan khususnya di showroom sepeda motor CV Berlian Bintang Mas, pembelian jenis sepeda motor yang diminati oleh konsumen sangatlah menjadi hal penting dan menjadi patokan seorang manager untuk mengambil keputusan kedepannya. Ada beberapa yang menjadi faktor penentu selera konsumen, diantaranya kualitas, harga, desain dan tekhnologi.  Dari beberapa faktor inilah dapat dicari pohon keputusan menggunakan Decision Tree. Algoritma C4.5 adalah metode datamining yang sering digunakan untuk mengambil sebuah keputusan. Diharapkan dengan menggunakan algoritma C4.5 yang menghasilkan output dari permasalahan yang diteliti dapat diambil keputusan dengan tepat. Algoritma C4.5 diawali dengan pemilihan atribut, kemudian menghitung nilai entropy dan gain. Setelah didapatkan nilai gain tertinggi, atribut itulah yang akan menjadi akar. Proses perhitungan akan terus berlanjut sampai didapatkan hasil yang diinginkan. Aplikasi yang dipakai adalah Rapid Miner 5, aplikasi ini sangat sering digunakan untuk decision tree.
Kata kunci : Data Mining, Decision Tree, Algoritma C4.5, Rapid Miner.
1.     
Pendahuluan
Didalam perkembangan dunia bisnis, terdapat beberapa hambatan dalam proses penjualan. Mulai dari pengolahan data yang masih manual menggunakan kertas hingga menggunakan Microsoft excel. Di CV Berlian Bintang  Mas khususnya,  pengambilan keputusan seorang manager dalam mengambil keputusan apakah produknya diterima oleh konsumen atau tidak, dan tipe sepeda motor yang paling diminati semua kalangan. Dengan melihat dari beberapa factor, jenis  sepeda motor  apakah yang diminati oleh konsumen. Diharapkan dengan  menggunakan datamining, dapat mempermudah melakukan penjualan dikarenakan sudah mengetahui perkiraan jenis sepeda motor yang laris dipasar.
Data mining adalah proses yang mengunakan teknik statistik, matematika, kecerdasan buatan, dan machine learning untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai database besar. Salah satu teknik yang ada pada data mining adalah klasifikasi [1].
Dalam penelitian sebelumnya dengan judul “Data Mining untuk Menganalisa Prediksi Mahasiswa berpotensi Non-Aktif Menggunakan Metode Decision Tree C4.5”. Penelitian tersebut dilakukan untuk mengidentifikasi mahasiswa berpotensu non aktif menggunakan pohon keputusan C4.5, dari sisi keakuratan hasil prediksi. Hasil akhir dari tingkat akurasi penelitian ini diatas 90%. [2].

Yi Jiang et al melakukan penilaian terhadap kredit debitur. Penelitiannya menyatakan bahwaC4.5 adalah algoritma pembelajaran yang mengadopsi strategi pencarian lokal, dan dapat memperoleh aturan keputusan terbaik[3]

2.      Tinjauan Pustaka

 Algoritma C4.5 merupakan algoritma klasifikasi pohon keputusan yang banyak digunakan karena memiliki kelebihan utama dari algoritma yang lainnya. Kelebihan algoritma C4.5 dapat menghasilkan pohon keputusan yang mudah diinterprestasikan, memiliki tingkat akurasi yang dapat diterima, efisien dalam menangani atribut bertipe diskret dan dapat menangani atribut bertipe diskret dan numeric[4].

Pohon keputusan merupakan metode klasifikasi dan prediksi yang sangat kuat dan terkenal. Metode pohon keputusan mengubah fakta yang sangat besar menjadi pohon keputusan yang memprediksikan aturan. Aturan dapat dengan mudah dipahami dengan alami. Dan mereka juga dapat diekspresikan dalam bentuk bahasa basis data seperti Structured Query Language untuk mencari record pada kategori tertentu [5].

Proses pada pohon keputusan adalah mengubah bentuk data (tabel) menjadi model pohon,
mengubah model pohon menjadi rule dan menyederhanakan rule. Secara umum algoritma C4.5 untuk
membangun pohon keputusan adalah sebagai berikut [6] :
1. Pilih atribut sebagai akar
2. Buat cabang untuk tiap nilai
3. Bagi kasus dalam cabang
4. Ulangi proses untuk setiap cabang sampai semua kasus pada cabang memiliki kelas
yang sama.
Untuk memilih atribut sebagai akar, didasarkan pada nilai gain tertinggi dari atribut-atribut yang
ada. Untuk menghitung gain digunakan rumus di bawah ini :

                 (1)
Di mana :
S = Himpunan kasus
A = Atribut
n = Jumlah partisi atribut A
|Si|= Jumlah kasus pada partisi ke-i
|S|= Jumlah kasus dalam S
Sementara itu, perhitungan nilai entropy adalah seperti persamaan 2 di bawah ini :

                                                     (2)
Di mana :
S = Himpunan kasus n = Jumlah partisi S A = Fitur
Pi = Proporsi dari |Si| terhadap S


3.      Analisa Data

Data dalam pohon keputusan biasanya dinyatakan dalam bentuk tabel dengan atribut dan record. Atribut menyatakan suatu parameter yang dibuat sebagai kriteria dalam pembentukan pohon, salah satu atribut merupakan atribut yang menyatakan data solusi per item data yang disebut target atribut. Atribut memiliki nilai-nilai yang dinamakan dengan instance [7].

4.      Pemilihan Variabel

Pemilihan variabel didasarkan dari data-data yang diperoleh dilapangan. Ada beberapa factor yang menjadi penentu dalam pembelian sepeda motor di CV Berlian Bintang Mas antara lain adalah Kualitas dari sepeda motor, hal ini dilihat dari cc kendaraan, semakin besar cc nya akan digolongkan sebagai kendaraan sepeda motor mewah. Hal lain yang mempengaruhi pembelian yaitu harga yang ditawarkan. Tekhnologi juga sebagai hal yang tak lepas dari factor pembelian sepeda motor, yang tak kalah penting adalah bentuk desain dari sepeda motor yang dipasarkan. Berdasarkan uraian diatas, maka dapat diperoleh 4 variabel yaitu : kualitas, harga, desain dan tekhnologi yang ada di sepeda motor.

Tabel 1. Data Hasil Pra-proses

No
Kualitas
Harga
Desain
Tekhnologi
Beli
1
Super
Mahal
Mewah
Canggih
Ya
2
Medium
Mahal
Mewah
Canggih
Ya
3
Standar
Terjangkau
Sedang
Medium
Ya
4
Standar
Mahal
Sedang
Standar
Tidak
5
Medium
Normal
Biasa
Standar
Tidak
6
Medium
Normal
Sedang
Medium
Ya
7
Super
Mahal
Biasa
Standar
Tidak
8
Super
Normal
Sedang
Medium
Ya
9
Standar
Terjangkau
Sedang
Canggih
Ya
10
Super
Mahal
Biasa
Standar
Tidak
11
Medium
Mahal
Biasa
Canggih
Tidak
12
Super
Normal
Mewah
Medium
Ya
13
Super
Terjangkau
Sedang
Medium
Ya
14
Standar
Mahal
Biasa
Standar
Tidak
15
Standar
Normal
Mewah
Canggih
Ya
16
Medium
Mahal
Mewah
Canggjh
Ya
17
Super
Normal
Mewah
Canggih
Ya
18
Standar
Mahal
Mewah
Canggih
Ya
19
Super
Normal
Biasa
Standar
Tidak
20
Medium
Terjangkau
Biasa
Standar
Ya
21
Standar
Mahal
Biasa
Canggih
Tidak

Perhitungan Entropy dan Gain
Entropy (Total) =
                                    = 0.958712
Entropy (Kualitas Super) =
                                                = 0.954434
Entropy (Kualitas Medium) =
                                                = 0.918296
Entropy (Kualitas Standar) =
                                                = 0.985228


Entropy (Harga Mahal) =
                                                = 0.970951
Entropy (Harga Normal) =
                                                = 0.863121
Entropy (Harga Terjangkau) =
                                             = 0
Entropy (Desain Mewah) =
                                          = 0
Entropy (Desain Sedang) =
                                                = 0.650022
Entropy (Desain Biasa) =
                                                = 0.543564
Entropy (Tekhnologi Canggih) =
                                                            = 0.764205
Entropy (Tekhnologi Medium) =
                                                            = -0.31564
Entropy (Tekhnologi Standar) =  
                                                      = 0

Setelah menghitung nilai entropy, hal yang dilakukan selanjutnya adalah menghitung nilai Gain. Adapun perhitungan Gain dapat dilihat sebagai berikut:

Gain(Total, Kualitas) = 0.958712  +
                                   = 0.004338

Gain(Total, Harga) = 0.958712  +
                                   = 0.208648
Gain(Total, Desain) = 0.958712  +
                                   = 0.958712
Gain(Total, Teknologi) = 0.958712  +
                                   = 0.706348


Tabel 2. perhitungan node 1
Node


Jml Kasus
Tidak
Ya
Entropy
Gain
1
Total

21
8
13
0.958712


Kualitas





0.004338


Super
8
3
5
0.954434



Medium
6
2
4
0.918296



Standar
7
3
4
0.985228


Harga





0.208648


Mahal
10
6
4
0.970951



Normal
7
2
5
0.863121



Terjangkau
4
-
4
0


Desain





0.958712


Mewah
7
-
7
0



Sedang
6
1
5
0.650022



Biasa
8
7
1
0.543564


Tekhnologi





0.706348


Canggih
9
2
7
0.764205



Medium
5
6
5
-0.31564



Standar
7
-
1
0


Dari perhitungan yang didapat di tabel 2, terlihat Gain Desain memiliki nilai yang paling tinggi. Dengan demikian, Desain dapat menjadi node akar dengan nilai 0,958712. Untuk atribut yang lain yaitu kualitas, harga dan tekhnologi perlu dilakukan perhitungan dengan cara yang sama.

5.      Implementasi
Setelah proses perhitungan secara manual selesai dikerjakan hal selanjutnya yang akan dilakukan adalah implementasi. Di implementasi saya menggunakan software aplikasi Rapid Miner 5. Langkah-langkah implementasi menggunakan Rapid Miner 5 dapat dirujuk ke tabel 1. yaitu tabel praproses dibuat menggunakan Microsoft Excel dengan format .xls, selanjutnya buka aplikasi Rapid Miner 5 pilih new process , pilih importing dan drag Read excel ke lembar kerja. Selanjutnya pilih import configuration wizard dan pilih data yang telah disimpan di excel. Kemudian pilih modeling decision tree drag ke lembar kerja dan hubungkan antara read excel dan decision tree. Setelah itu, klik run maka akan muncul pohon dibawah ini.



                                                      Gambar 1. Pohon Keputusan

6.      Kesimpulan
Dari hasil penelitian, dapat ditarik kesimpulan bahwa pembelian sepeda motor menggunakan C4.5 akan bermanfaat untuk pengambilan keputusan. Faktor desain sangatlah penting dan menjadi faktor utama yang mempengaruhi pembelian sepeda motor. Selanjutnya diposisi kedua faktor yang didapat dari pohon keputusan adalah tekhnologi. Saran penulis adalah agar dapat dibandingkan dengan metode datamining yang lain.


Daftar Pustaka
1.      Efraim Turban, Jay E. Aronson, Ting Peng Liang, 2005. Decision Support System and   Intelligent Systems Edisi 7 Jilid 1, Andi Yogyakarta.
2.      Dwi Untari, 2010. Data Mining untuk Menganalisa Prediksi Mahasiswa berpotensi Non-Aktif Menggunakan Metode Decision Tree C4.5, Universitas Dian Nuswantoro, Semarang.
3.      Jiang,Yi. et al, (2007).”A Bank Customer CreditEvaluation Based on the Decision Tree and theSimulated Annealing Algorithm. Journal of Department of Computer Science XiamenUniversity (IEEE International Co 8-11 July 2008)”.
4.      Han, J., Kamber, M., 2001, “Data Mining Concepts and Techniques”, Morgan Kaufman Pub., USA.
5.      Kusrini, (2009). Algoritma Data Mining ,Andi Yogyakarta
6.      Muhammad Syahril, 2011 .”Konversi Data Training Tentang Penyakit Hipertensi Menjadi Bentuk Pohon Keputusan dengan Teknik Klasifikasi Menggunakan Tools Rapid Miner 4.1 ,Vol 10,No.2,Mei.
7.      Fitriana Harahap, (2015). Penerapan Data Mining dalam Memprediksi Pembelian Cat, STMIK Potensi Utama, Medan.


           

Tidak ada komentar:

Posting Komentar

jurnal

Implementasi Data Mining dengan Algoritma C4.5 untuk Memprediksi Pembelian Tipe Sepeda Motor Siti Sundari Sekolah Tinggi Teknik...