Rabu, 17 Maret 2010

Langkah-langkah data mining

Untuk memanfaatkan data mining dan untuk mempelajari pola dari data yang dimiliki oleh suatu perusahaan dan mampu memberikan prediksi berdasarkan pola data yang ada, maka diperlukan langkah-langkah penentuan definisi data mining dari awal sampai dengan data mining siap untuk memberikan prediksi. Langkah-langkah tersebut adalah :
1. Definisi permasalahan bisnis yang ingin diketahui.
Langkah pertama dalam pembuatan data mining adalah definisi permasalahan bisnis yang ingin dijawab, misalnya ingin mengetahui apakah seorang customer berpotensi memiliki kredit macet, atau mengidentifikasi seorang customer apakah akan pindah ke kompetitor bisnis kita, dan lain sebagainya. Setelah menemukan pertanyaan bisnis yang perlu dijawab oleh data mining, selanjutnya tentukan tipe tugas dasar untuk menjawab pertanyaan bisnis tersebut. Tugas dasar yang menjadi dasar algoritma data mining adalah klasifikasi, regresi, segmentasi, asosiasi dan sequence analysis. Dengan mengetahui tugas dasar, anda memiliki pedoman kira-kira algoritma mana yang bisa digunakan untuk menjawab pertanyaan bisnis.

2. Mempersiapkan data yang menjadi sumber untuk data mining untuk dipelajari polanya.
Setelah menentukan definisi masalah, langkah berikutnya adalah mencari data yang mendukung definisi masalah anda. Sumber data dapat berasal dari OLTP maupun dari cube OLAP. Bila sumber data berasal dari OLTP, sebaiknya pastikan datanya telah konsisten. Bila belum konsisten, SSIS bisa digunakan untuk melakukan cleansing data sampai data tersebut konsisten.

3. Menentukan porsi data yang digunakan men-training data mining berdasarkan algoritma data mining yang telah dibuat.
Setelah persiapan data selesai dilakukan, langkah berikutnya adalah memberikan sebagian data kedalam algoritma data mining. Algoritma data mining perlu mempelajari pola data yang diberikan guna menarik informasi dan trend dari data tersebut. Istilah itu dikenal dengan sebutan training data mining.

4. Validasi apakah data mining memberikan prediksi yang akurat.
Setelah training data selesai dilakukan, data mining tersebut perlu di-“uji” atau di-validasi keakuratannya terhadap data testing. Biasanya tidak hanya 1 algoritma data mining yang diimplementasikan ke dalam suatu data mining. Berarti data yang dipersiapkan pada persiapan data mengandung data yang digunakan untuk training dan data yang digunakan untuk testing. Pemilihan data training dan data testing dapat dilakukan secara manual ataupun secara acak oleh SQL Server.

1 komentar:

  1. artikel yang menarik, kami juga punya artikel tentang 'data mining' silahkan buka link ini
    http://repository.gunadarma.ac.id/bitstream/123456789/2292/1/01-03-012.pdf
    semoga bermanfaat ya

    BalasHapus