Process Data mining terdiri dari 3 bagian, Data Preprocessing, Data Analysis, dan Result Interpretation
Main steps and methods in a Data Mining problem
Data Preprocessing
Data adalah sekumpulan objek beserta atribut-atributnya, dimana atribut tersebut didefiniskan sebagai property atau karakteristik dari objek itu sendiri, yang termasuk objek data berupa baris (record), item, point, sample, observasi, da instance. Yang termasuk atribut variable, field, karakter atau fitur.
Setiap data real biasanya perlu di preprocessing (cleaning, filtering, other), untuk selanjutnya agar dapat di proses dengan baik oleh machine learning.
Ada beberapa teknik yang digunakan mengurangi dimensi
• Similarity Measures
Klasifikasi dan klustering adalah pendekatan yang sering digunakan untuk mengukur jarak kesamaan, Contoh paling sederhana dan paling umum dari ukuran jarak adalah dengan pendekatan Euclidian distance.
Euclidean distance adalah perhitungan jarak dari 2 buah titik dalam Euclidean space
Rumus euclid
• Sampling
Sampling adalah teknik utama yang digunakan dalam data mining untuk memilih subset dari data yang relevan dari sekumpulan data yang besar, sampling digunakan sebagai sumber utama untuk membuat pelatihan dan pengujian dataset. Dataset training digunakan untuk mempelajari parameter, dataset testing digunakan untuk mengevaluasi model yang diperoleh dalam tahap pelatihan.
• Reducing Dimensionality
RSs memiliki kekurangan tidak hanya sebuah system yang mendefinisikan space dengan dimensi yang tinggi tapi juga memiliki masalah jarang tersedianya informasi (sparsity) pada space tersebut.
– Principal Component Analysis
PCA adalah metode statistik klasik untuk menemukan pola pada data set yang berdimensi tinggi
– Singular Value Decomposition
SVD adalah teknik yang cukup powerfull dalam mereduksi dimensi dengan cara menemukan ruang fitur dimensi yang lebih rendah di mana fitur-fitur representasi dari "konsep", kekuatan konsep pada ada pada computable konteksnya.
Basic konsep SVD : item × memiliki matriks dapat diuraikan ke dalam tiga yang berbeda: item × konsep, kekuatan konsep, dan konsep × fitur
• Denoising
Denoising adalah langkah preprocessing bertujuan menghilangkan efek yang tidak diinginkan dalam data guna memaksimalkan informasinya.
Klasifikasi
Klasifikasi adalah pemetaan antara ruang fitur dan space label, di mana fitur mewakili karakteristik dari elemen untuk mengklasifikasikan dan label mewakili kelas.
Beberapa jenis klasifikasi, Supervised dan Unsupervised diantaranya
1. Nearest Neighbors
System kerjanya dengan menyimpan log training dan menggunakan training tersebut untuk memprediksi label kelas pada kasus yang tidak terlihat.
2. Decision Trees
Mengklasifikasikan atribut target (or class) pada konsep struktur pohon, Node dari pohon dapat menjadi : a) node keputusan, di node ini sebuah satu atribut-nilai diuji untuk menentukan ke mana cabang subtree mengarah. Atau b) node daun yang menunjukkan nilai dari atribut target.
Ada banyak algoritma untuk decision tree diantaranya : Hunts Algorithm, CART, ID3, C4.5, SLIQ, SPRINT dan lainya.
3. Ruled-based Classifiers
Rule based mengklasifikasikan data dengan konsep kumpulan rule “if ... then ...”.
4. Bayesian Classifiers
Bayessian Classifiers adalah kerangka probabilistik untuk memecahkan masalah klasifikasi dengan mengacu pada aturan probabilitas dan teorema Bayes.
5. Artificial Neural Networks
ANN adalah konsep perakitan node saling berhubungan dan link bebrobot yang terinspirasi arsitektur otak biologis. Node dalam ANN disebut neuron sebagai analogi dengan neuron biologis. Berdasrkan definisi ANN adalah unit-unit fungsional yang sederhana terdiri dalam jaringan yang memiliki kemampuan untuk belajar untuk mengklasifikasikan setelah mereka dilatih dengan data mencukupi.
Perceptron Model
6. Support Vector Machines
Konsep kerja dari SVM adalah adalah menemukan sebuah hyperplane linear terbaik untuk memisahkan data sedemikian rupa dengan memaksimalkan batas margin.
7. Ensembles of Classifiers
Ide dasarnya adalah bagaimana membangun suatu klasifikasi berdasarkan data pelatihan dan memprediksi label kelas dengan menggabungkan prediksi dari data-data tersebut.
8. Evaluating Classifiers
Evaluasi yang digunakan dengan pendekatan Mean Average Error or Root Mean Squared Error.
Cluster Analysis
Cluster pada RSs dapat dimanfaatkan untuk untuk meningkatkan efisiensi dan meningkatkan akurasi.
K-means
K-Means merupakan salah satu metode data clustering non hirarki yang berusaha mempartisi data yang ada ke dalam bentuk satu atau lebih cluster/kelompok, metode ini mempartisi data ke dalam cluster/kelompok sehingga data yang memiliki karakteristik yang sama dikelompokkan ke dalam satu cluster yang sama dan data yang mempunyai karakteristik yang berbeda dikelompokkan ke dalam kelompok yang lain.
Alternative K-means
Density-based clustering :
Using DBSCAN Algorithm
Message Passing Clustering :
Using graph-based clustering methods, mempertimbangkan semua points menjadi nilai tengah.
Hierarchical Clustering :
Dapat menghasilkan suatu set cluster sebagai hierarchical tree (dendogram).
Association Rule Mining
Association rule mining menganut pada aturan (rule) dalam memprediksi suatu item berdasarkan kejadian item lainnya dalam suatu transaksi.
Sumber : Data Mining Methods for Recommender Systems
Xavier Amatriain, Alejandro Jaimes, Nuria Oliver, and Josep M. Pujol
0 comments:
Post a Comment