128x Filetype PDF File size 0.37 MB Source: media.neliti.com
Jurnal Teknologi Informasi DINAMIK Volume 20, No.1, Januari 2015 : 25-35 ISSN : 0854-9524 Rancang Bangun Information Retrieval System (IRS) Bahasa Jawa Ngoko pada Palintangan Penjebar Semangad dengan Metode Vector Space Model (VSM) Fatkhul Amin dan Purwatiningtyas Fakultas Teknologi Informasi, Universitas Stikubank Semarang Email: fatkhulamin@gmail.com, diba_ian@yahoo.com Abstrak Bahasa Jawa adalah bahasa daerah yang paling banyak digunakan di Indonesia yang mulai ditinggalkan. Perlunya pelestarian bahasa jawa dalam bentuk online yang bisa diakses bagi penggunanya sehingga akanmemudahkan dalam pencarian dokumen teks khususnya dokumen bahasa jawa ngoko. Software IRS dirancang untuk memberikan hasil pencarian dokumen dalam jumlah yang optimal (recall rendah) dan akurat (precision tinggi) menggunakan metode VSM, sehingga user akan mendapatkan hasil pencarian cepat dan akurat. Metode VSM akan melakukan pembobotan tiap dokumen yang ada pada database sehingga antar dokumen memiliki bobot yang berbeda untuk menentukan dokumen mana yang paling mirip (similar) dengan query, dokumen dengan bobot tertinggi menempati ranking teratas dalam hasil pencarian. Evaluasi hasil pencarian IRS dilakukan dengan uji recall dan precision. Studi kasus yang telah dilakukan menggunakan IRS ini didapatkan hasil sistem mampu melakukan proses preprosesing (tokenisasi, filtering, dan stemming) dengan waktu komputasi 18 detik. Sistem mampu melakukan pencarian dokumen dan menampilkan hasil pencarian dokumen dalam waktu komputasi rata-rata 2 detik, memiliki rata-rata recall 0,04 dan rata-rata precision 0,84. Sistem dilengkapi dengan bobot tiap dokumen dan letakknya yang akan memudahkan user dalam pencarian dokumen teks bahasa Indonesia. Kata Kunci: Jawa Ngoko, Vector Space Model PENDAHULUAN Engineering (Mao dkk, 2007), dan lain Bahasa Jawa sebagai bahasa yang paling sebagainya. Vector space model dapat juga banyak digunakan di wilayah Indonesia setelah digunakan dalam sistem temu kembali informasi bahasa indonesia, dewasa ini mulai banyak (information retrieval). Sistem temu kembali ditinggalkan oleh kebanyakan orang. Media informasi akan memberikan nilai tambah dalam offline dan media online juga kurang pecarian informasi jika keinginan user bisa mengangkat bahasa jawa sehingga terpenuhi. Penelitian ini diharapakan dapat dikhawatirkan bahasa jawa lama-kelamaan akan membuat sistem temu kembali informasi yang ditinggalkan oleh bangsa kita. Beberapa media bernilai tambah yaitu menghasilkan pencarian online berbahasa Jawa ada, namun belum informasi dengan cepat dan akurat. menggunakan atau belum menyediakan Pencarian informasi saat ini dilakukan pencarian informasi menggunakan mesin dengan menggunakan mesin pencari atau sistem pencari khusus berbahasa jawa. temu kembali informasi, user menuliskan query Implementasi Vector Space Model dapat dan mesin pencari akan menampilkan hasil dirasakan dan dinikmati pada berbagai bidang pencarian. Mesin pencari yang sudah ada dan keilmuan seperti Computational Linguistics (Erk banyak digunakan saat ini memberikan hasil dkk, 2010), Expert Systems (Kim dkk, 2010), perolehan pencarian yang banyak (banyak Medical (lopez dkk, 2010), Knowledge-Based dokumen yang terambil), sehingga diperlukan Systems (Yu dkk, 2009), Data and Knowledge waktu untuk menentukan hasil pencarian yang Rancang Bangun Information Retrieval System (IRS) Bahasa Jawa Ngoko pada Palintangan Penjebar Semangad 25 dengan Metode Vector Space Model (VSM) Jurnal Teknologi Informasi DINAMIK Volume 20, No.1, Januari 2015 : 25-35 ISSN : 0854-9524 relevan. Menentukan hasil yang relevan sesuai METODE dengan keinginan user dengan jumlah hasil Information Retrieval System dengan Vector pencarian yang banyak akan menyulitkan user. Space Model Hal ini terjadi karena dokumen yang terambil oleh sistem jumlahnya banyak, maka sistem a. Information Retrieval System (IRS) berkemungkinan menampilkan hasil pencarian Information Retrieval System menemukan yang tidak relevan. Banyaknya dokumen hasil informasi yang biasanya dalam bentuk dokumen pencarian ini membuat waktu yang dibutuhkan dari sebuah data yang tidak terstruktur dalam dalam pencarian menjadi lebih banyak dari yang bentuk teks untuk memenuhi kebutuhan diharapkan. informasi dari koleksi data yang sangat besar Perkembangan penelusuran informasi saat umumnya tersimpan dalam database computer ini menghasilkan recall yang tinggi dan (Manning, 2008). precision yang rendah. Recall yang tinggi information retrieval (IRS) merupakan diartikan bahwa dokumen yang dihasilkan dalam suatu sistem yang menemukan informasi yang penelusuran dokumen adalah banyak, sedangkan sesuai dengan kebutuhan user dari kumpulan precision rendah dapat diartikan bahwa informasi secara otomatis. Aplikasi Information dokumen yang diharapkan dapat ditemukan Retrieval System sudah digunakan dalam sedikit. banyak bidang seperti dikedokteran, perusahaan Solusi untuk mengatasi masalah ini adalah dan lain sebagainya. Salah satu aplikasi dari dengan membuat software Information Retrieval Information Retrieval System adalah mesin System (IRS) menggunakan metode Vector pencari yang dapat diterapkan diberbagai Space Model (VSM). Metode VSM dipilih bidang. Pada mesin pencari dengan Information karena cara kerja model ini efisien, mudah Retrieval System user dapat memasukkan query dalam representasi dan dapat diimplementasikan yang bebas dalam arti kata query yang sesuai pada document-matching. Software IRS basa dengan bahasa manusia dan sistem dapat jawa ngoko diharapkan menghasilkan recall menemukan dokuen yang sesuai dengan query rendah dan precision tinggi. yang ditulis oleh user. TUJUAN PENELITIAN Prinsip kerja Information Retrieval Tujuan yang ingin dicapai dalam penelitian System jika ada sebuah kumpulan dokumen dan ini adalah; seorang user yang memformulasikan sebuah pertanyaan (request atau query). Jawaban dari 1. Melestarikan bahasa Jawa agar tidak pertanyaan tersebut adalah sekumpulan dilupakan oleh generasi penerus bangsa dokumen yang relevan dan membuang dokumen khususnya orang jawa. yang tidak relevan (Salton, 1989). 2. Memberikan sumbangsih pemikiran tentang Information Retrieval System akan implementasi bahasa jawa di era teknologi mengambil salah satu dari kemungkinan informasi tersebut. Information Retrieval System dibagi 3. Mengembangankan ide kreatif tentang dalam dua komponen utama yaitu sistem perlunya mesin pencari bebahasa jawa pengindeksan (indexing) menghasilkan basis yangbisa digunakan untuk pencarian bahasa data sistem dan temu kembali merupakan jawa gabungan dari user interface dan look-up-table. Information Retrieval System didesain untuk 4. Riset Seni Teater Membuat rancang bangun menemukan dokumen atau informasi yang Information Retrieval System (IRS) Bahasa diperlukan oleh user. Jawa Ngoko dengan metode Vector Space Information Retrieval System bertujuan Model. untuk menjawab kebutuhan informasi user dengan sumber informasi yang tersedia dalam kondisi seperti sebagai berikut (Salton, 1989); 26 Rancang Bangun Information Retrieval System (IRS) Bahasa Jawa Ngoko pada Palintangan Penjebar Semangad dengan Metode Vector Space Model (VSM) Jurnal Teknologi Informasi DINAMIK Volume 20, No.1, Januari 2015 : 25-35 ISSN : 0854-9524 1) Mempresentasikan sekumpulan ide dalam Operasi yang akan digunakan dalam pencarian, sebuah dokumen menggunakan sekumpulan dan model pengolahan teks (Baeza, 1999, h.9). konsep. 2) Terdapat beberapa pengguna yang memerlukan ide, tapi tidak dapat mengidentifikasikan dan menemukannya dengan baik. 3) Information Retrieval System bertujuan untuk mempertemukan ide yang dikemukakan oleh penulis dalam dokumen dengan kebutuhan informasi pengguna yang dinyatakan dalam bentuk key word query/istilah penelusuran. Fungsi utama Information Retrieval Gambar 1. The Process of Retrieving Information (Baeza, 1999,h.10) System (Salton, 1989) 1) Mengidentifikasi sumber informasi yang c. Korpus relevan dengan minat masyarakat pengguna Proses IRS dalam aplikasinya yang ditargetkan membutuhkan database yang didalamnya 2) Menganalisis isi sumber informasi terdapat satu atau beberapa tabel yang digunakan sebagai tempat penyimpanan data (dokumen) yang akan diolah pada saat proses pencarian. 3) Merepresentasikan isi sumber informasi Penelitian dengan menggunakan database pada dengan cara tertentu yang memungkinkan aplikasinya biasanya memakai korpus untuk untuk dipertemukan dengan pertanyaan proses pembuatan tabel pendukungnya. pengguna Penelitian empiris dapat dilakukan dengan 4) Merepresentasikan pertanyaan (query) user menggunakan teks tertulis atau lisan, seperti dengan cara tertentu yang memungkinkan teks-teks dasar dari berbagai jenis sastra dan untuk dipertemukan sumber informasi yang analisis linguistik. Tapi gagasan tentang korpus terdapat dalam basis data. sebagai dasar untuk sebuah bentuk linguistic empiris berbeda dalam beberapa cara mendasar 5) Mempertemukan pernyataan pencarian dari teks-teks tertentu. dengan data yang tersimpan dalam basis d. Proses Tokenisasi data 6) Menemu-kembalikan informasi yang Proses pertama yang dilakukan dalam IRS relevan adalah proses memisahkan kata yang ada pada dokumen berdasarkan spasi kemudian 7) Menyempurnakan unjuk kerja sistem memproses kata yang telah dipisahkan tersebutk berdasarkan umpan balik yang diberikan kedalam sebuah tabel untuk dilakukan proses oleh user. berikutnya. Proses Tokenisasi merupakan b. Arsitektur Information Retrieval System proses pemisahan suatu rangkaian karakter berdasarkan karakter spasi, dan mungkin pada Proses Information Retrieval System seperti waktu yang bersamaan dilakukan juga proses pada gambar 1 menggunakan arsitektur yang penghapusan karakter tertentu, seperti tanda sederhana. Sebelum dilakukannya proses temu baca. Gambar 2 menunjukkan proses tokenisasi. kembali diperlukan pendefinisian database. Selanjutnya mengikuti tahapan proses; Dokumen-dokumen yang akan digunakan, Rancang Bangun Information Retrieval System (IRS) Bahasa Jawa Ngoko pada Palintangan Penjebar Semangad 27 dengan Metode Vector Space Model (VSM) Jurnal Teknologi Informasi DINAMIK Volume 20, No.1, Januari 2015 : 25-35 ISSN : 0854-9524 g. Proses Perhitungan VSM Vector Space Model (VSM) adalah metode untuk melihat tingkat kedekatan atau kesamaan (similarity) term dengan cara pembobotan term. Dokumen dipandang sebagi sebuah vektor yang Gambar 2. Contoh hasil proses tokenisasi memiliki magnitude (jarak) dan direction (arah). e. Proses Filtering Pada Vector Space Model, sebuah istilah direpresentasikan dengan sebuah dimensi dari Proses selanjutnya setelah dilakukan ruang vektor. Relevansi sebuah dokumen ke pemisahan kata pada dokumen adalah proses sebuah query didasarkan pada similaritas filtering. Filtering akan memproses kata hasil diantara vektor dokumen dan vektor query tokenisasi menjadi lebih sedikit dengan cara (Baeza, 1999). mengurangi kata tersebut dengan kata yang termasuk dalam stopwords. Eliminasi VSM memberikan sebuah kerangka stopwords memiliki banyak keuntungan, yaitu pencocokan parsial adalah mungkin. Hal ini akan mengurangi space pada tabel term index dicapai dengan menetapkan bobot non-biner hingga 40% atau lebih (Baeza, 1999, h.167). untuk istilah indeks dalam query dan dokumen. Bobot istilah yang akhirnya digunakan untuk menghitung tingkat kesamaan antara setiap dokumen yang tersimpan dalam sistem dan permintaan user. Dokumen yang terambil disortir dalam urutan yang memiliki kemiripan, model vektor memperhitungkan pertimbangan dokumen yang relevan dengan permintaan user. Hasilnya adalah himpunan dokumen yang terambil jauh lebih akurat (dalam arti sesuai dengan informasi yang dibutuhkan oleh user). Gambar 3. Contoh hasil proses Filtering Sebuah dokumen dj dan sebuah query q f. Proses Stemming direpresentasikan sebagai vektor t-dimensi seperti pada gambar 5. Proses Stemming digunakan untuk mengubah term yang masih melekat dalam term tersebut awalan, sisipan, dan akhiran. Selanjutnya term tersebut diproses untuk dihilangkan awalan, sisipan dan akhiran sehingga menjadi term kata dasar. Proses membuat term dasar ini mengacu kepada bahasa jawa ngoko yang benar. Contoh Stemming bisa dilihat pada gambar 4. Gambar 5. The Cosines of is adopted as sim d, q (Baeza, 1999) j Dalam VSM koleksi dokumen direpresentasikan sebagai sebuah matrik term document (atau matrik term frequency). Setiap sel dalam matrik bersesuaian dengan bobot yang diberikan dari suatu term dalam dokumen yang Gambar 4. Contoh hasil proses Stemming ditentukan. Nilai nol berarti bahwa term tersebut tidak ada dalam dokumen. Gambar 6 28 Rancang Bangun Information Retrieval System (IRS) Bahasa Jawa Ngoko pada Palintangan Penjebar Semangad dengan Metode Vector Space Model (VSM)
no reviews yet
Please Login to review.