Wednesday, December 23, 2015

Text mining adalah proses mengambil informasi berkualitas tinggi dari teks. Informasi berkualitas tinggi biasanya diperoleh melalui peramalan pola dan kecenderungan melalui sarana seperti pembelajaran pola statistik. percobaan  ini  adalah  untuk  melakukan  klasifikasi  data review film menggunakan  metode  naïve  bayes dan K-Nearest Neighbor (KNN) dengan bantuan tools WEKA. Dataset berita menggunakan dataset  yang diambil dari website “Sentiment Polarity Dataset version 2.0” (http://www.cs.cornell.edu/People/pabo/movie-review-data). Dataset  tersebut  terdiri  dari  dua  kelas   yaitu  : review positif dan review negative, karena ini hanya sebagai sample percobaan untuk datanya saya batasi total 200 data review dari total 1000 yang data.


Disini saya melakukan rename terhadap sumber data dari txt_sentoken menjadi data_review_film



Pada percobaan ini hanya mengambil 100 data dari setiap kelas, 100 neg (negatif) - 100 pos (positif)

  

Agar lebih memudahkan data review film disimpan pada folder 'data' yang ada dalam direktori WEKA 



Tools yang digunakan untuk melakukan klasifikasi ini adalah dengan menggunakan WEKA
 




Hal pertama yang harus dilakukan adalah untuk mengimpor dataset dalam tools WEKA. Data arsip yang berisi 200 file text dipartisi dalam dua sub-direktori pos danneg (nilai kelas).
 

Disini akan mengimport data review film berbentuk folder menjadi .arff




Di pilih option 'TextDirectoryLoader'


Arahkan pada directory sumber data 'data_review_film'






Seperti yang diharapkan, terdapat hubungan yang mengandung 200 kasus dan dua atribut(teks dan kelas). Histogram pada gambar menunjukkan distribusi seragam kelas review (biru = negatif,red = positif).





Untuk tahap selanjutnya klasifikasiyang harus dilakukan adalah preprocessingteks dan ekstraksi fitur penting.
  1. Word parsing and tokenization
  2. Stop-words removal 
  3.  Lemmatization and stemming
  4. Term selection/feature extraction
Untuk melakukan preprocessing di WEKA, disni filter StringToWordVector dari paketweka.filters.unsupervised.attribute. Filter ini memungkinkan untuk mengkonfigurasi berbagai tahap ekstraksi
  • Mengkonfigurasi tokenizer (pemisah istilah);
  • Menentukan daftar stop-kata;
  • Pilih stemmer a.



Kemudian cleaning kata-kata yang memang tidak berkaitan dengan pattern begitu pun manual, Jika semua telah dilakukan klik 'remove' dan kemudian klik 'save'
 


Karakter-karakter yang akan di hapus




Untuk konfigurasi preprocessing lainya dapat dilakukan dengan mengklik 'StringToWordVector'




Setelah data processing tahapan selanjutnya adalah klasifikasi data review film dengan metode pertama menggunakan naïve bayes
 



Hasil klasifikasi dengan metode Naive Bayes



Kemudian klasifikasi data review film dengan metode kedua menggunakan K-Nearest Neighbor (KNN), pada tool WEKA metode klasifikasi KNN di definisikan dengan nama IBk

 


Hasil klasifikasi dengan metode K-Nearest Neighbor (KNN)


Kesimpulan
Dari hasil percobaan yang dilakukan dengan K-Fold Cross Validation dengan 10 section, klasifikasi text menggunakan metode naïve bayes lebih baik daripada klasifikasi text menggunakan metode K-Nearest Neighbor (KNN), hasil akurasi yang timpang mungkin berpengaruh dari data yang ada, seperti kurangnya data dan lainya.


Semoga Bermanfaat,
Regards,

Iqbal Ardimansyah

0 comments:

Post a Comment