Text mining
adalah proses mengambil informasi berkualitas tinggi dari teks.
Informasi berkualitas tinggi biasanya diperoleh melalui peramalan pola
dan kecenderungan melalui sarana seperti pembelajaran pola statistik.
percobaan ini adalah untuk melakukan klasifikasi data review film menggunakan metode naïve bayes dan K-Nearest Neighbor (KNN) dengan bantuan tools WEKA. Dataset berita menggunakan dataset yang diambil dari website “Sentiment Polarity Dataset version 2.0” (http://www.cs.cornell.edu/People/pabo/movie-review-data). Dataset tersebut terdiri dari dua kelas yaitu :
review positif dan review negative, karena ini hanya sebagai sample
percobaan untuk datanya saya batasi total 200 data review dari total
1000 yang data.
Disini saya melakukan rename terhadap sumber data dari txt_sentoken menjadi data_review_film
Pada percobaan ini hanya mengambil 100 data dari setiap kelas, 100 neg (negatif) - 100 pos (positif)
Agar lebih memudahkan data review film disimpan pada folder 'data' yang ada dalam direktori WEKA
Tools yang digunakan untuk melakukan klasifikasi ini adalah dengan menggunakan WEKA
Hal pertama yang harus dilakukan adalah untuk mengimpor dataset dalam tools WEKA. Data arsip yang berisi 200 file text dipartisi dalam dua sub-direktori pos danneg (nilai kelas).
Disini akan mengimport data review film berbentuk folder menjadi .arff
Di pilih option 'TextDirectoryLoader'
Arahkan pada directory sumber data 'data_review_film'
Seperti yang diharapkan, terdapat hubungan yang mengandung 200 kasus dan dua atribut(teks dan kelas). Histogram pada gambar menunjukkan distribusi seragam kelas review (biru = negatif,red = positif).
Untuk tahap selanjutnya klasifikasiyang harus dilakukan adalah preprocessingteks dan ekstraksi fitur penting.
- Word parsing and tokenization
- Stop-words removal
- Lemmatization and stemming
- Term selection/feature extraction
Untuk melakukan preprocessing di WEKA, disni filter StringToWordVector dari paketweka.filters.unsupervised.attribute. Filter ini memungkinkan untuk mengkonfigurasi berbagai tahap ekstraksi
- Mengkonfigurasi tokenizer (pemisah istilah);
- Menentukan daftar stop-kata;
- Pilih stemmer a.
Kemudian cleaning kata-kata yang memang tidak berkaitan dengan pattern begitu pun manual, Jika semua telah dilakukan klik 'remove' dan kemudian klik 'save'
Karakter-karakter yang akan di hapus
Untuk konfigurasi preprocessing lainya dapat dilakukan dengan mengklik 'StringToWordVector'
Setelah data processing tahapan selanjutnya adalah klasifikasi data review film dengan metode pertama menggunakan naïve bayes
Hasil klasifikasi dengan metode Naive Bayes
Kemudian
klasifikasi data review film dengan metode kedua menggunakan K-Nearest
Neighbor (KNN), pada tool WEKA metode klasifikasi KNN di definisikan
dengan nama IBk
Hasil klasifikasi dengan metode K-Nearest Neighbor (KNN)
Kesimpulan
Dari
hasil percobaan yang dilakukan dengan K-Fold Cross Validation dengan 10
section, klasifikasi text menggunakan metode naïve bayes lebih baik
daripada klasifikasi text menggunakan metode K-Nearest Neighbor (KNN),
hasil akurasi yang timpang mungkin berpengaruh dari data yang ada,
seperti kurangnya data dan lainya.
Semoga Bermanfaat,
Regards,
Iqbal Ardimansyah
Regards,
Iqbal Ardimansyah
0 comments:
Post a Comment