Tutorial Klasifikasi Text Data Review Film dengan Metode Naïve Bayes dan K-Nearest Neighbor (KNN) menggunakan WEKA

Text mining adalah proses mengambil informasi berkualitas tinggi dari teks. Informasi berkualitas tinggi biasanya diperoleh melalui peramalan pola dan kecenderungan melalui sarana seperti pembelajaran pola statistik. percobaan ini adalah untuk melakukan klasifikasi data review film menggunakan metode naïve bayes dan K-Nearest Neighbor (KNN) dengan bantuan tools WEKA. Dataset berita menggunakan dataset yang diambil dari website “Sentiment Polarity Dataset version 2.0” (http://www.cs.cornell.edu/People/pabo/movie-review-data). Dataset tersebut terdiri dari dua kelas yaitu : review positif dan review negative, karena ini hanya sebagai sample percobaan untuk datanya saya batasi total 200 data review dari total 1000 yang data.

Disini saya melakukan rename terhadap sumber data dari txt_sentoken menjadi data_review_film

Pada percobaan ini hanya mengambil 100 data dari setiap kelas, 100 neg (negatif) - 100 pos (positif)

Agar lebih memudahkan data review film disimpan pada folder 'data' yang ada dalam direktori WEKA

Tools yang digunakan untuk melakukan klasifikasi ini adalah dengan menggunakan WEKA

Hal pertama yang harus dilakukan adalah untuk mengimpor dataset dalam tools WEKA. Data arsip yang berisi 200 file text dipartisi dalam dua sub-direktori pos danneg (nilai kelas).

Disini akan mengimport data review film berbentuk folder menjadi .arff

Di pilih option 'TextDirectoryLoader'

Arahkan pada directory sumber data 'data_review_film'

Seperti yang diharapkan, terdapat hubungan yang mengandung 200 kasus dan dua atribut(teks dan kelas). Histogram pada gambar menunjukkan distribusi seragam kelas review (biru = negatif,red = positif).

Untuk tahap selanjutnya klasifikasiyang harus dilakukan adalah preprocessingteks dan ekstraksi fitur penting.

Word parsing and tokenization
Stop-words removal
Lemmatization and stemming
Term selection/feature extraction

Untuk melakukan preprocessing di WEKA, disni filter StringToWordVector dari paketweka.filters.unsupervised.attribute. Filter ini memungkinkan untuk mengkonfigurasi berbagai tahap ekstraksi

Mengkonfigurasi tokenizer (pemisah istilah);
Menentukan daftar stop-kata;
Pilih stemmer a.

Kemudian cleaning kata-kata yang memang tidak berkaitan dengan pattern begitu pun manual, Jika semua telah dilakukan klik 'remove' dan kemudian klik 'save'

Karakter-karakter yang akan di hapus

Untuk konfigurasi preprocessing lainya dapat dilakukan dengan mengklik 'StringToWordVector'

Setelah data processing tahapan selanjutnya adalah klasifikasi data review film dengan metode pertama menggunakan naïve bayes

Hasil klasifikasi dengan metode Naive Bayes

Kemudian klasifikasi data review film dengan metode kedua menggunakan K-Nearest Neighbor (KNN), pada tool WEKA metode klasifikasi KNN di definisikan dengan nama IBk

Hasil klasifikasi dengan metode K-Nearest Neighbor (KNN)

Kesimpulan

Dari hasil percobaan yang dilakukan dengan K-Fold Cross Validation dengan 10 section, klasifikasi text menggunakan metode naïve bayes lebih baik daripada klasifikasi text menggunakan metode K-Nearest Neighbor (KNN), hasil akurasi yang timpang mungkin berpengaruh dari data yang ada, seperti kurangnya data dan lainya.

Semoga Bermanfaat,
Regards,

Iqbal Ardimansyah