Centroid Based Classifier With TF – IDF – ICF for Classfication of Student’s Complaint at Appliation E-Complaint in Muhammadiyah University of Sidoarjo


Classifier Berbasis Centroid Dengan TF – IDF – ICF Untuk Klasifikasi Keluhan Mahasiswa Pada Aplikasi E-Complaint di Universitas Muhammadiyah Sidoarjo


  • (1) * Mochamad Alfan Rosid            Teknik Informatika Universitas Muhammadiyah Sidoarjo  
            Indonesia

  • (2)  Gunawan Gunawan            Sekolah Tinggi Teknik Surabaya, Surabaya  
            Indonesia

  • (3)  Edwin Pramana            Sekolah Tinggi Teknik Surabaya, Surabaya  
            Indonesia

    (*) Corresponding Author

Abstract

Text mining mengacu pada proses mengambil informasi berkualitas tinggi dari teks. Informasi berkualitas tinggi biasanya diperoleh melalui peramalan pola dan kecenderungan melalui sarana seperti pembelajaran pola statistik. Salah satu kegiatan penting dalam text mining adalah klasifikasi atau kategorisasi teks. Kategorisasi teks sendiri saat ini memiliki berbagai metode antara lain metode K-Nearest Neighbor, Naïve Bayes, dan Centroid Base Classifier, atau decision tree classification.
Pada penelitian ini, klasifikasi keluhan mahasiswa dilakukan dengan metode centroid based classifier dan dengan fitur TF-IDF-ICF, Ada lima tahap yang dilakukan untuk mendapatkan hasil klasifikasi. Tahap pengambilan data keluhan kemudian dilanjutkan dengan tahap preprosesing yaitu mempersiapkan data yang tidak terstruktur sehingga siap digunakan untuk proses selanjutnya, kemudian dilanjutkan dengan proses pembagian data, data dibagi menjadi dua macam yaitu data latih dan data uji, tahap selanjutnya yaitu tahap pelatihan untuk menghasilkan model klasifikasi dan tahap terakhir adalah tahap pengujian yaitu menguji model klasifikasi yang telah dibuat pada tahap pelatihan terhadap data uji. Keluhan untuk pengujian akan diambilkan dari database aplikasi e-complaint Universitas Muhammadiyah Sidoarjo. Adapun hasil uji coba menunjukkan bahwa klasifikasi keluhan dengan algoritma centroid based classifier dan dengan fitur TF-IDF-ICF memiliki rata-rata akurasi yang cukup tinggi yaitu 79.5%. Nilai akurasi akan meningkat dengan meningkatnya data latih dan efesiensi sistem semakin menurun dengan meningkatnya data latih.

References

. Verayuth Lertnattee, Chanisara Leuviphan., “Using Class Frequency for Improving Centroid-based Text Classification”. Department Of Health-related Informatics, Silpakorn University, Maung, Nakorn Pathom, Thailand, 2012.

. Eui-Hong (Sam) Han, George Karypis., “Centroid-Based Document Classification: Analysis & Experimental Results”. Department of Computer Science / Army HPC Research Center, University of Minnesota.

. Songbo Tan ,“ An improved centroid classifier for text categorization”, Intelligent Software Department, Institute of Computing Technology, Chinese Academy of Sciences, PR China, 2007,

. Hidayet Takci, Tunga Gungor. “A High Performance Centroid-based Classification Approach for Language Identification”. Department of Computer Enginering, GYTE, Kocaeli, Turkey, 2012. DOI: https://doi.org/10.1016/j.patrec.2012.06.012

. Joel W. Reed, Yu Jiao, Thomas E. Potok, Brian A. Klump, Mark T. Elmore, Ali R. Hurson, “TF-ICF: A New Term Weighting Scheme for Clustering Dynamic Data Streams”, Computer Science and Engineering Department, The Pennsylvania State University, University Park, 2006.

. Manning C. D. and H. Shutze: Foundations of Statistical Natural Language Processing, Chapter 15. MIT Press. 1999.

. Hu Guan, Jingyu Zhou, Minyi Guo, “ A Class-Feature-Centroid Classifier for Text Categorization”, Computer Science Dept, Shanghai Jiao Tong University, China, 2009.

. Ronen Feldman, James Sanger, 2007. “The Text Mining Handbook, Advanced Approaches in analyzing Unstructured Data”. Cambridge University Press, Cambridge, England. DOI: https://doi.org/10.1017/CBO9780511546914

. Bambang Kurniawan, Syahril Efendi, dan Opim Salim Sitompul, Klasifikasi Konten Berita Dengan Metode Text Mining, Jurnal Dunia Teknologi Informasi vol.1, No.I, 2012

. Chakrabarti, Soumen, 2003, Mining the Web: Discovering knowledge from hypertext data. San Francisco: Morgan Kaufman.

. Porter, M. F. ,1980, An algorithm for suffix stripping, Program 14(3), p. 130-137. DOI: https://doi.org/10.1108/eb046814

. Fadillah Z. Talla, A Study of Stemming Effects on Information Retrieval in Bahasa, MS Thesis, 2003.

Picture in here are illustration from public domain image (License) or provided by the author, as part of their works
Published
2015-04-30
 
Section
Computer Engineering