METODE DATA MINING UNTUK RECOMMENDER SYSTEMs

Recommender system adalah bidangan keilmuanya yang mengimplementasikan teknik dan method dari bidang terdekat lainya, halnya seperti Human Computer Interaction (HCI) dan Information Retrieval (IR), Sebagian RSs banyak menggunakan pendekatan algoritma dalam lingkup teknik data mining.

Process Data mining terdiri dari 3 bagian, Data Preprocessing, Data Analysis, dan Result Interpretation

Main steps and methods in a Data Mining problem

Data Preprocessing

Data adalah sekumpulan objek beserta atribut-atributnya, dimana atribut tersebut didefiniskan sebagai property atau karakteristik dari objek itu sendiri, yang termasuk objek data berupa baris (record), item, point, sample, observasi, da instance. Yang termasuk atribut variable, field, karakter atau fitur.

Setiap data real biasanya perlu di preprocessing (cleaning, filtering, other), untuk selanjutnya agar dapat di proses dengan baik oleh machine learning.

Ada beberapa teknik yang digunakan mengurangi dimensi

• Similarity Measures

Klasifikasi dan klustering adalah pendekatan yang sering digunakan untuk mengukur jarak kesamaan, Contoh paling sederhana dan paling umum dari ukuran jarak adalah dengan pendekatan Euclidian distance.

Euclidean distance adalah perhitungan jarak dari 2 buah titik dalam Euclidean space

Rumus euclid

• Sampling

Sampling adalah teknik utama yang digunakan dalam data mining untuk memilih subset dari data yang relevan dari sekumpulan data yang besar, sampling digunakan sebagai sumber utama untuk membuat pelatihan dan pengujian dataset. Dataset training digunakan untuk mempelajari parameter, dataset testing digunakan untuk mengevaluasi model yang diperoleh dalam tahap pelatihan.

• Reducing Dimensionality

RSs memiliki kekurangan tidak hanya sebuah system yang mendefinisikan space dengan dimensi yang tinggi tapi juga memiliki masalah jarang tersedianya informasi (sparsity) pada space tersebut.

– Principal Component Analysis

PCA adalah metode statistik klasik untuk menemukan pola pada data set yang berdimensi tinggi

– Singular Value Decomposition

SVD adalah teknik yang cukup powerfull dalam mereduksi dimensi dengan cara menemukan ruang fitur dimensi yang lebih rendah di mana fitur-fitur representasi dari "konsep", kekuatan konsep pada ada pada computable konteksnya.

Basic konsep SVD : item × memiliki matriks dapat diuraikan ke dalam tiga yang berbeda: item × konsep, kekuatan konsep, dan konsep × fitur

• Denoising

Denoising adalah langkah preprocessing bertujuan menghilangkan efek yang tidak diinginkan dalam data guna memaksimalkan informasinya.

Klasifikasi

Klasifikasi adalah pemetaan antara ruang fitur dan space label, di mana fitur mewakili karakteristik dari elemen untuk mengklasifikasikan dan label mewakili kelas.

Beberapa jenis klasifikasi, Supervised dan Unsupervised diantaranya

1. Nearest Neighbors

System kerjanya dengan menyimpan log training dan menggunakan training tersebut untuk memprediksi label kelas pada kasus yang tidak terlihat.

2. Decision Trees

Mengklasifikasikan atribut target (or class) pada konsep struktur pohon, Node dari pohon dapat menjadi : a) node keputusan, di node ini sebuah satu atribut-nilai diuji untuk menentukan ke mana cabang subtree mengarah. Atau b) node daun yang menunjukkan nilai dari atribut target.

Ada banyak algoritma untuk decision tree diantaranya : Hunts Algorithm, CART, ID3, C4.5, SLIQ, SPRINT dan lainya.

3. Ruled-based Classiﬁers

Rule based mengklasifikasikan data dengan konsep kumpulan rule “if ... then ...”.

4. Bayesian Classiﬁers

Bayessian Classifiers adalah kerangka probabilistik untuk memecahkan masalah klasifikasi dengan mengacu pada aturan probabilitas dan teorema Bayes.

5. Artiﬁcial Neural Networks

ANN adalah konsep perakitan node saling berhubungan dan link bebrobot yang terinspirasi arsitektur otak biologis. Node dalam ANN disebut neuron sebagai analogi dengan neuron biologis. Berdasrkan definisi ANN adalah unit-unit fungsional yang sederhana terdiri dalam jaringan yang memiliki kemampuan untuk belajar untuk mengklasifikasikan setelah mereka dilatih dengan data mencukupi.

Perceptron Model

6. Support Vector Machines

Konsep kerja dari SVM adalah adalah menemukan sebuah hyperplane linear terbaik untuk memisahkan data sedemikian rupa dengan memaksimalkan batas margin.

7. Ensembles of Classiﬁers

Ide dasarnya adalah bagaimana membangun suatu klasifikasi berdasarkan data pelatihan dan memprediksi label kelas dengan menggabungkan prediksi dari data-data tersebut.

8. Evaluating Classiﬁers

Evaluasi yang digunakan dengan pendekatan Mean Average Error or Root Mean Squared Error.

Cluster Analysis

Cluster pada RSs dapat dimanfaatkan untuk untuk meningkatkan efisiensi dan meningkatkan akurasi.

K-means

K-Means merupakan salah satu metode data clustering non hirarki yang berusaha mempartisi data yang ada ke dalam bentuk satu atau lebih cluster/kelompok, metode ini mempartisi data ke dalam cluster/kelompok sehingga data yang memiliki karakteristik yang sama dikelompokkan ke dalam satu cluster yang sama dan data yang mempunyai karakteristik yang berbeda dikelompokkan ke dalam kelompok yang lain.

Alternative K-means

Density-based clustering :

Using DBSCAN Algorithm

Message Passing Clustering :

Using graph-based clustering methods, mempertimbangkan semua points menjadi nilai tengah.

Hierarchical Clustering :

Dapat menghasilkan suatu set cluster sebagai hierarchical tree (dendogram).

Association Rule Mining

Association rule mining menganut pada aturan (rule) dalam memprediksi suatu item berdasarkan kejadian item lainnya dalam suatu transaksi.