263x Filetype PDF File size 0.37 MB Source: media.neliti.com
Jurnal Teknologi Informasi DINAMIK Volume 20, No.1, Januari 2015 : 25-35 ISSN : 0854-9524
Rancang Bangun Information Retrieval System (IRS)
Bahasa Jawa Ngoko pada Palintangan Penjebar Semangad
dengan Metode Vector Space Model (VSM)
Fatkhul Amin dan Purwatiningtyas
Fakultas Teknologi Informasi, Universitas Stikubank Semarang
Email: fatkhulamin@gmail.com, diba_ian@yahoo.com
Abstrak
Bahasa Jawa adalah bahasa daerah yang paling banyak digunakan di Indonesia yang mulai
ditinggalkan. Perlunya pelestarian bahasa jawa dalam bentuk online yang bisa diakses bagi penggunanya
sehingga akanmemudahkan dalam pencarian dokumen teks khususnya dokumen bahasa jawa ngoko.
Software IRS dirancang untuk memberikan hasil pencarian dokumen dalam jumlah yang optimal (recall
rendah) dan akurat (precision tinggi) menggunakan metode VSM, sehingga user akan mendapatkan hasil
pencarian cepat dan akurat. Metode VSM akan melakukan pembobotan tiap dokumen yang ada pada
database sehingga antar dokumen memiliki bobot yang berbeda untuk menentukan dokumen mana yang
paling mirip (similar) dengan query, dokumen dengan bobot tertinggi menempati ranking teratas dalam
hasil pencarian. Evaluasi hasil pencarian IRS dilakukan dengan uji recall dan precision. Studi kasus yang
telah dilakukan menggunakan IRS ini didapatkan hasil sistem mampu melakukan proses preprosesing
(tokenisasi, filtering, dan stemming) dengan waktu komputasi 18 detik. Sistem mampu melakukan
pencarian dokumen dan menampilkan hasil pencarian dokumen dalam waktu komputasi rata-rata 2 detik,
memiliki rata-rata recall 0,04 dan rata-rata precision 0,84. Sistem dilengkapi dengan bobot tiap dokumen
dan letakknya yang akan memudahkan user dalam pencarian dokumen teks bahasa Indonesia.
Kata Kunci: Jawa Ngoko, Vector Space Model
PENDAHULUAN Engineering (Mao dkk, 2007), dan lain
Bahasa Jawa sebagai bahasa yang paling sebagainya. Vector space model dapat juga
banyak digunakan di wilayah Indonesia setelah digunakan dalam sistem temu kembali informasi
bahasa indonesia, dewasa ini mulai banyak (information retrieval). Sistem temu kembali
ditinggalkan oleh kebanyakan orang. Media informasi akan memberikan nilai tambah dalam
offline dan media online juga kurang pecarian informasi jika keinginan user bisa
mengangkat bahasa jawa sehingga terpenuhi. Penelitian ini diharapakan dapat
dikhawatirkan bahasa jawa lama-kelamaan akan membuat sistem temu kembali informasi yang
ditinggalkan oleh bangsa kita. Beberapa media bernilai tambah yaitu menghasilkan pencarian
online berbahasa Jawa ada, namun belum informasi dengan cepat dan akurat.
menggunakan atau belum menyediakan Pencarian informasi saat ini dilakukan
pencarian informasi menggunakan mesin dengan menggunakan mesin pencari atau sistem
pencari khusus berbahasa jawa. temu kembali informasi, user menuliskan query
Implementasi Vector Space Model dapat dan mesin pencari akan menampilkan hasil
dirasakan dan dinikmati pada berbagai bidang pencarian. Mesin pencari yang sudah ada dan
keilmuan seperti Computational Linguistics (Erk banyak digunakan saat ini memberikan hasil
dkk, 2010), Expert Systems (Kim dkk, 2010), perolehan pencarian yang banyak (banyak
Medical (lopez dkk, 2010), Knowledge-Based dokumen yang terambil), sehingga diperlukan
Systems (Yu dkk, 2009), Data and Knowledge waktu untuk menentukan hasil pencarian yang
Rancang Bangun Information Retrieval System (IRS) Bahasa Jawa Ngoko pada Palintangan Penjebar Semangad 25
dengan Metode Vector Space Model (VSM)
Jurnal Teknologi Informasi DINAMIK Volume 20, No.1, Januari 2015 : 25-35 ISSN : 0854-9524
relevan. Menentukan hasil yang relevan sesuai METODE
dengan keinginan user dengan jumlah hasil Information Retrieval System dengan Vector
pencarian yang banyak akan menyulitkan user. Space Model
Hal ini terjadi karena dokumen yang terambil
oleh sistem jumlahnya banyak, maka sistem a. Information Retrieval System (IRS)
berkemungkinan menampilkan hasil pencarian Information Retrieval System menemukan
yang tidak relevan. Banyaknya dokumen hasil informasi yang biasanya dalam bentuk dokumen
pencarian ini membuat waktu yang dibutuhkan dari sebuah data yang tidak terstruktur dalam
dalam pencarian menjadi lebih banyak dari yang bentuk teks untuk memenuhi kebutuhan
diharapkan. informasi dari koleksi data yang sangat besar
Perkembangan penelusuran informasi saat umumnya tersimpan dalam database computer
ini menghasilkan recall yang tinggi dan (Manning, 2008).
precision yang rendah. Recall yang tinggi information retrieval (IRS) merupakan
diartikan bahwa dokumen yang dihasilkan dalam suatu sistem yang menemukan informasi yang
penelusuran dokumen adalah banyak, sedangkan sesuai dengan kebutuhan user dari kumpulan
precision rendah dapat diartikan bahwa informasi secara otomatis. Aplikasi Information
dokumen yang diharapkan dapat ditemukan Retrieval System sudah digunakan dalam
sedikit. banyak bidang seperti dikedokteran, perusahaan
Solusi untuk mengatasi masalah ini adalah dan lain sebagainya. Salah satu aplikasi dari
dengan membuat software Information Retrieval Information Retrieval System adalah mesin
System (IRS) menggunakan metode Vector pencari yang dapat diterapkan diberbagai
Space Model (VSM). Metode VSM dipilih bidang. Pada mesin pencari dengan Information
karena cara kerja model ini efisien, mudah Retrieval System user dapat memasukkan query
dalam representasi dan dapat diimplementasikan yang bebas dalam arti kata query yang sesuai
pada document-matching. Software IRS basa dengan bahasa manusia dan sistem dapat
jawa ngoko diharapkan menghasilkan recall menemukan dokuen yang sesuai dengan query
rendah dan precision tinggi. yang ditulis oleh user.
TUJUAN PENELITIAN Prinsip kerja Information Retrieval
Tujuan yang ingin dicapai dalam penelitian System jika ada sebuah kumpulan dokumen dan
ini adalah; seorang user yang memformulasikan sebuah
pertanyaan (request atau query). Jawaban dari
1. Melestarikan bahasa Jawa agar tidak pertanyaan tersebut adalah sekumpulan
dilupakan oleh generasi penerus bangsa dokumen yang relevan dan membuang dokumen
khususnya orang jawa. yang tidak relevan (Salton, 1989).
2. Memberikan sumbangsih pemikiran tentang Information Retrieval System akan
implementasi bahasa jawa di era teknologi mengambil salah satu dari kemungkinan
informasi tersebut. Information Retrieval System dibagi
3. Mengembangankan ide kreatif tentang dalam dua komponen utama yaitu sistem
perlunya mesin pencari bebahasa jawa pengindeksan (indexing) menghasilkan basis
yangbisa digunakan untuk pencarian bahasa data sistem dan temu kembali merupakan
jawa gabungan dari user interface dan look-up-table.
Information Retrieval System didesain untuk
4. Riset Seni Teater Membuat rancang bangun menemukan dokumen atau informasi yang
Information Retrieval System (IRS) Bahasa diperlukan oleh user.
Jawa Ngoko dengan metode Vector Space Information Retrieval System bertujuan
Model. untuk menjawab kebutuhan informasi user
dengan sumber informasi yang tersedia dalam
kondisi seperti sebagai berikut (Salton, 1989);
26 Rancang Bangun Information Retrieval System (IRS) Bahasa Jawa Ngoko pada Palintangan Penjebar Semangad
dengan Metode Vector Space Model (VSM)
Jurnal Teknologi Informasi DINAMIK Volume 20, No.1, Januari 2015 : 25-35 ISSN : 0854-9524
1) Mempresentasikan sekumpulan ide dalam Operasi yang akan digunakan dalam pencarian,
sebuah dokumen menggunakan sekumpulan dan model pengolahan teks (Baeza, 1999, h.9).
konsep.
2) Terdapat beberapa pengguna yang
memerlukan ide, tapi tidak dapat
mengidentifikasikan dan menemukannya
dengan baik.
3) Information Retrieval System bertujuan
untuk mempertemukan ide yang
dikemukakan oleh penulis dalam dokumen
dengan kebutuhan informasi pengguna yang
dinyatakan dalam bentuk key word
query/istilah penelusuran.
Fungsi utama Information Retrieval Gambar 1. The Process of Retrieving
Information (Baeza, 1999,h.10)
System (Salton, 1989)
1) Mengidentifikasi sumber informasi yang c. Korpus
relevan dengan minat masyarakat pengguna Proses IRS dalam aplikasinya
yang ditargetkan membutuhkan database yang didalamnya
2) Menganalisis isi sumber informasi terdapat satu atau beberapa tabel yang
digunakan sebagai tempat penyimpanan data
(dokumen) yang akan diolah pada saat proses pencarian.
3) Merepresentasikan isi sumber informasi Penelitian dengan menggunakan database pada
dengan cara tertentu yang memungkinkan aplikasinya biasanya memakai korpus untuk
untuk dipertemukan dengan pertanyaan proses pembuatan tabel pendukungnya.
pengguna Penelitian empiris dapat dilakukan dengan
4) Merepresentasikan pertanyaan (query) user menggunakan teks tertulis atau lisan, seperti
dengan cara tertentu yang memungkinkan teks-teks dasar dari berbagai jenis sastra dan
untuk dipertemukan sumber informasi yang analisis linguistik. Tapi gagasan tentang korpus
terdapat dalam basis data. sebagai dasar untuk sebuah bentuk linguistic
empiris berbeda dalam beberapa cara mendasar
5) Mempertemukan pernyataan pencarian dari teks-teks tertentu.
dengan data yang tersimpan dalam basis d. Proses Tokenisasi
data
6) Menemu-kembalikan informasi yang Proses pertama yang dilakukan dalam IRS
relevan adalah proses memisahkan kata yang ada pada
dokumen berdasarkan spasi kemudian
7) Menyempurnakan unjuk kerja sistem memproses kata yang telah dipisahkan tersebutk
berdasarkan umpan balik yang diberikan kedalam sebuah tabel untuk dilakukan proses
oleh user. berikutnya. Proses Tokenisasi merupakan
b. Arsitektur Information Retrieval System proses pemisahan suatu rangkaian karakter
berdasarkan karakter spasi, dan mungkin pada
Proses Information Retrieval System seperti waktu yang bersamaan dilakukan juga proses
pada gambar 1 menggunakan arsitektur yang penghapusan karakter tertentu, seperti tanda
sederhana. Sebelum dilakukannya proses temu baca. Gambar 2 menunjukkan proses tokenisasi.
kembali diperlukan pendefinisian database.
Selanjutnya mengikuti tahapan proses;
Dokumen-dokumen yang akan digunakan,
Rancang Bangun Information Retrieval System (IRS) Bahasa Jawa Ngoko pada Palintangan Penjebar Semangad 27
dengan Metode Vector Space Model (VSM)
Jurnal Teknologi Informasi DINAMIK Volume 20, No.1, Januari 2015 : 25-35 ISSN : 0854-9524
g. Proses
Perhitungan VSM
Vector Space Model (VSM) adalah metode
untuk melihat tingkat kedekatan atau kesamaan
(similarity) term dengan cara pembobotan term.
Dokumen dipandang sebagi sebuah vektor yang
Gambar 2. Contoh hasil proses tokenisasi memiliki magnitude (jarak) dan direction (arah).
e. Proses Filtering Pada Vector Space Model, sebuah istilah
direpresentasikan dengan sebuah dimensi dari
Proses selanjutnya setelah dilakukan ruang vektor. Relevansi sebuah dokumen ke
pemisahan kata pada dokumen adalah proses sebuah query didasarkan pada similaritas
filtering. Filtering akan memproses kata hasil diantara vektor dokumen dan vektor query
tokenisasi menjadi lebih sedikit dengan cara (Baeza, 1999).
mengurangi kata tersebut dengan kata yang
termasuk dalam stopwords. Eliminasi VSM memberikan sebuah kerangka
stopwords memiliki banyak keuntungan, yaitu pencocokan parsial adalah mungkin. Hal ini
akan mengurangi space pada tabel term index dicapai dengan menetapkan bobot non-biner
hingga 40% atau lebih (Baeza, 1999, h.167). untuk istilah indeks dalam query dan dokumen.
Bobot istilah yang akhirnya digunakan untuk
menghitung tingkat kesamaan antara setiap
dokumen yang tersimpan dalam sistem dan
permintaan user. Dokumen yang terambil
disortir dalam urutan yang memiliki kemiripan,
model vektor memperhitungkan pertimbangan
dokumen yang relevan dengan permintaan user.
Hasilnya adalah himpunan dokumen yang
terambil jauh lebih akurat (dalam arti sesuai
dengan informasi yang dibutuhkan oleh user).
Gambar 3. Contoh hasil proses Filtering Sebuah dokumen dj dan sebuah query q
f. Proses Stemming direpresentasikan sebagai vektor t-dimensi
seperti pada gambar 5.
Proses Stemming digunakan untuk
mengubah term yang masih melekat dalam term
tersebut awalan, sisipan, dan akhiran.
Selanjutnya term tersebut diproses untuk
dihilangkan awalan, sisipan dan akhiran
sehingga menjadi term kata dasar. Proses
membuat term dasar ini mengacu kepada bahasa
jawa ngoko yang benar. Contoh Stemming bisa
dilihat pada gambar 4.
Gambar 5. The Cosines of is adopted as sim
d, q (Baeza, 1999)
j
Dalam VSM koleksi dokumen
direpresentasikan sebagai sebuah matrik term
document (atau matrik term frequency). Setiap
sel dalam matrik bersesuaian dengan bobot yang
diberikan dari suatu term dalam dokumen yang
Gambar 4. Contoh hasil proses Stemming ditentukan. Nilai nol berarti bahwa term
tersebut tidak ada dalam dokumen. Gambar 6
28 Rancang Bangun Information Retrieval System (IRS) Bahasa Jawa Ngoko pada Palintangan Penjebar Semangad
dengan Metode Vector Space Model (VSM)
no reviews yet
Please Login to review.