Information Retrieval Pdf 179521 | 245074 Rancang Bangun Information Retrieval Sys 31977b76

Partial capture of text on file.
                   Jurnal Teknologi Informasi DINAMIK Volume 20, No.1, Januari 2015 : 25-35                                ISSN : 0854-9524 
                    
                                                                                
                                          Rancang Bangun Information Retrieval System (IRS) 
                                      Bahasa Jawa Ngoko pada Palintangan Penjebar Semangad  
                                                 dengan Metode Vector Space Model (VSM) 
                                                                                
                                                                                
                                                          Fatkhul Amin dan Purwatiningtyas 
                                           Fakultas Teknologi Informasi, Universitas Stikubank Semarang 
                                                Email: fatkhulamin@gmail.com, diba_ian@yahoo.com 
                                                                                
                                                                                
                                                                           Abstrak 
                                                                                
                               Bahasa  Jawa  adalah  bahasa  daerah  yang  paling  banyak  digunakan  di  Indonesia  yang  mulai 
                        ditinggalkan.  Perlunya pelestarian bahasa jawa dalam bentuk online yang bisa diakses bagi penggunanya 
                        sehingga  akanmemudahkan  dalam  pencarian  dokumen  teks  khususnya  dokumen  bahasa  jawa  ngoko.  
                        Software IRS dirancang untuk memberikan hasil pencarian dokumen dalam jumlah yang optimal (recall 
                        rendah) dan akurat (precision tinggi) menggunakan metode VSM, sehingga user akan mendapatkan hasil 
                        pencarian cepat dan akurat.  Metode VSM akan melakukan pembobotan tiap dokumen yang ada pada 
                        database sehingga antar dokumen memiliki bobot yang berbeda untuk menentukan dokumen mana yang 
                        paling mirip (similar) dengan query, dokumen dengan bobot tertinggi menempati ranking teratas dalam 
                        hasil pencarian.  Evaluasi hasil pencarian IRS dilakukan dengan uji recall dan precision. Studi kasus yang 
                        telah  dilakukan  menggunakan IRS  ini didapatkan hasil sistem mampu melakukan proses preprosesing 
                        (tokenisasi,  filtering,  dan  stemming)  dengan  waktu  komputasi  18  detik.  Sistem  mampu  melakukan 
                        pencarian dokumen dan menampilkan hasil pencarian dokumen dalam waktu komputasi rata-rata 2 detik, 
                        memiliki  rata-rata recall 0,04 dan rata-rata precision 0,84. Sistem dilengkapi dengan bobot tiap dokumen 
                        dan letakknya yang akan memudahkan user dalam pencarian dokumen teks bahasa Indonesia. 
                         
                        Kata Kunci: Jawa Ngoko, Vector Space Model 
                                                                                
                                                                                
                   PENDAHULUAN                                                      Engineering  (Mao  dkk,  2007),    dan  lain 
                          Bahasa Jawa sebagai bahasa yang paling                    sebagainya.    Vector  space  model  dapat  juga 
                   banyak digunakan di wilayah Indonesia setelah                    digunakan dalam sistem temu kembali informasi 
                   bahasa  indonesia,  dewasa  ini  mulai  banyak                   (information  retrieval).  Sistem  temu  kembali 
                   ditinggalkan  oleh  kebanyakan  orang.    Media                  informasi akan memberikan nilai tambah dalam 
                   offline    dan    media      online    juga     kurang           pecarian  informasi  jika  keinginan  user  bisa 
                   mengangkat          bahasa        jawa       sehingga            terpenuhi.    Penelitian  ini  diharapakan  dapat 
                   dikhawatirkan bahasa jawa lama-kelamaan akan                     membuat sistem temu kembali informasi yang 
                   ditinggalkan oleh bangsa kita.  Beberapa media                   bernilai  tambah  yaitu  menghasilkan  pencarian 
                   online  berbahasa  Jawa  ada,  namun  belum                      informasi dengan cepat dan akurat. 
                   menggunakan         atau     belum      menyediakan                     Pencarian  informasi  saat  ini  dilakukan 
                   pencarian      informasi     menggunakan         mesin           dengan menggunakan mesin pencari atau sistem 
                   pencari khusus berbahasa jawa.                                   temu kembali informasi, user menuliskan query 
                          Implementasi  Vector  Space  Model  dapat                 dan  mesin  pencari  akan  menampilkan  hasil 
                   dirasakan  dan  dinikmati  pada  berbagai  bidang                pencarian.  Mesin pencari yang sudah ada dan 
                   keilmuan seperti Computational Linguistics (Erk                  banyak  digunakan  saat  ini  memberikan  hasil 
                   dkk, 2010),  Expert Systems (Kim dkk, 2010),                     perolehan  pencarian  yang  banyak  (banyak 
                   Medical  (lopez  dkk,  2010),  Knowledge-Based                   dokumen  yang  terambil),  sehingga  diperlukan 
                   Systems (Yu dkk, 2009), Data and Knowledge                       waktu untuk menentukan hasil pencarian yang 
                           Rancang Bangun Information Retrieval System (IRS) Bahasa Jawa Ngoko pada Palintangan Penjebar Semangad        25 
                                                           dengan Metode Vector Space Model (VSM) 
                   Jurnal Teknologi Informasi DINAMIK Volume 20, No.1, Januari 2015 : 25-35                                ISSN : 0854-9524 
                    
                   relevan.  Menentukan hasil yang relevan sesuai                   METODE 
                   dengan  keinginan  user  dengan  jumlah  hasil                   Information  Retrieval  System  dengan  Vector 
                   pencarian yang banyak akan menyulitkan user.                     Space Model 
                   Hal  ini  terjadi  karena  dokumen  yang  terambil 
                   oleh  sistem  jumlahnya  banyak,  maka  sistem                   a.  Information Retrieval System (IRS) 
                   berkemungkinan  menampilkan  hasil  pencarian                           Information Retrieval System menemukan 
                   yang tidak relevan.  Banyaknya dokumen hasil                     informasi yang biasanya dalam bentuk dokumen 
                   pencarian ini membuat waktu yang dibutuhkan                      dari  sebuah  data  yang  tidak  terstruktur  dalam 
                   dalam pencarian menjadi lebih banyak dari yang                   bentuk     teks   untuk     memenuhi  kebutuhan 
                   diharapkan.                                                      informasi  dari  koleksi  data  yang  sangat  besar 
                          Perkembangan penelusuran informasi saat                   umumnya tersimpan dalam database computer 
                   ini   menghasilkan  recall  yang  tinggi  dan                    (Manning, 2008). 
                   precision  yang  rendah.  Recall  yang  tinggi                          information  retrieval  (IRS)  merupakan 
                   diartikan bahwa dokumen yang dihasilkan dalam                    suatu sistem yang menemukan  informasi yang 
                   penelusuran dokumen adalah banyak, sedangkan                     sesuai  dengan  kebutuhan  user  dari  kumpulan 
                   precision     rendah     dapat     diartikan    bahwa            informasi secara otomatis.  Aplikasi Information 
                   dokumen  yang  diharapkan  dapat  ditemukan                      Retrieval  System  sudah  digunakan  dalam 
                   sedikit.                                                         banyak bidang  seperti dikedokteran, perusahaan 
                          Solusi untuk mengatasi masalah ini adalah                 dan  lain  sebagainya.    Salah  satu  aplikasi  dari 
                   dengan membuat software Information Retrieval                    Information  Retrieval  System  adalah  mesin 
                   System  (IRS)  menggunakan  metode  Vector                       pencari  yang  dapat  diterapkan  diberbagai 
                   Space  Model  (VSM).  Metode  VSM  dipilih                       bidang.  Pada mesin pencari dengan Information 
                   karena  cara  kerja  model  ini  efisien,  mudah                 Retrieval System user dapat memasukkan query 
                   dalam representasi dan dapat diimplementasikan                   yang bebas dalam arti kata  query  yang  sesuai 
                   pada  document-matching.    Software  IRS  basa                  dengan  bahasa  manusia  dan  sistem  dapat 
                   jawa  ngoko  diharapkan  menghasilkan  recall                    menemukan dokuen yang sesuai dengan query 
                   rendah dan precision tinggi.                                     yang ditulis oleh user. 
                   TUJUAN PENELITIAN                                                       Prinsip    kerja     Information      Retrieval 
                        Tujuan yang ingin dicapai dalam penelitian                  System jika ada sebuah kumpulan dokumen dan 
                   ini adalah;                                                      seorang  user  yang  memformulasikan  sebuah 
                                                                                    pertanyaan  (request  atau  query).  Jawaban  dari 
                   1.  Melestarikan      bahasa  Jawa  agar  tidak                  pertanyaan      tersebut      adalah     sekumpulan 
                        dilupakan  oleh  generasi  penerus  bangsa                  dokumen yang relevan dan membuang dokumen 
                        khususnya orang jawa.                                       yang tidak relevan (Salton, 1989).  
                   2.  Memberikan sumbangsih pemikiran tentang                             Information      Retrieval     System      akan 
                        implementasi bahasa jawa di era teknologi                   mengambil  salah  satu  dari  kemungkinan 
                        informasi                                                   tersebut.  Information  Retrieval  System  dibagi 
                   3.  Mengembangankan  ide  kreatif  tentang                       dalam  dua  komponen  utama  yaitu  sistem 
                        perlunya  mesin  pencari  bebahasa  jawa                    pengindeksan  (indexing)  menghasilkan  basis 
                        yangbisa digunakan untuk pencarian bahasa                   data  sistem  dan  temu  kembali  merupakan 
                        jawa                                                        gabungan dari user interface dan look-up-table.  
                                                                                    Information  Retrieval  System  didesain  untuk 
                   4.  Riset Seni Teater Membuat rancang bangun                     menemukan  dokumen  atau  informasi  yang 
                        Information Retrieval System (IRS) Bahasa                   diperlukan oleh user.   
                        Jawa Ngoko dengan metode Vector Space                              Information  Retrieval  System  bertujuan 
                        Model.                                                      untuk  menjawab  kebutuhan  informasi  user 
                                                                                    dengan  sumber  informasi  yang  tersedia  dalam 
                                                                                    kondisi seperti sebagai berikut (Salton, 1989); 
                                                                                                                                            
                   26      Rancang Bangun Information Retrieval System (IRS) Bahasa Jawa Ngoko pada Palintangan Penjebar Semangad  
                                                           dengan Metode Vector Space Model (VSM) 
                   Jurnal Teknologi Informasi DINAMIK Volume 20, No.1, Januari 2015 : 25-35                                ISSN : 0854-9524 
                    
                   1)  Mempresentasikan  sekumpulan  ide  dalam                     Operasi yang akan digunakan dalam pencarian, 
                        sebuah dokumen menggunakan sekumpulan                       dan model pengolahan teks (Baeza, 1999, h.9). 
                        konsep. 
                   2)  Terdapat       beberapa       pengguna        yang 
                        memerlukan        ide,    tapi    tidak     dapat 
                        mengidentifikasikan  dan  menemukannya 
                        dengan baik. 
                   3)  Information  Retrieval  System  bertujuan 
                        untuk       mempertemukan           ide      yang 
                        dikemukakan oleh penulis dalam dokumen 
                        dengan kebutuhan informasi pengguna yang 
                        dinyatakan      dalam     bentuk     key     word 
                        query/istilah penelusuran.                                                                                            
                          Fungsi     utama     Information      Retrieval                 Gambar  1.  The Process of Retrieving 
                                                                                              Information (Baeza, 1999,h.10) 
                   System (Salton, 1989) 
                   1)  Mengidentifikasi  sumber  informasi  yang                    c.  Korpus 
                        relevan dengan minat masyarakat pengguna                           Proses       IRS       dalam       aplikasinya 
                        yang ditargetkan                                            membutuhkan        database      yang     didalamnya 
                   2)  Menganalisis        isi     sumber       informasi           terdapat    satu    atau    beberapa     tabel    yang 
                                                                                    digunakan  sebagai  tempat  penyimpanan  data 
                        (dokumen)                                                   yang  akan  diolah  pada  saat  proses  pencarian.  
                   3)  Merepresentasikan  isi  sumber  informasi                    Penelitian  dengan  menggunakan database pada 
                        dengan  cara  tertentu  yang  memungkinkan                  aplikasinya  biasanya  memakai  korpus  untuk 
                        untuk  dipertemukan  dengan  pertanyaan                     proses     pembuatan        tabel     pendukungnya.  
                        pengguna                                                    Penelitian  empiris  dapat  dilakukan  dengan 
                   4)  Merepresentasikan  pertanyaan (query)  user                  menggunakan  teks  tertulis  atau  lisan,  seperti 
                        dengan  cara  tertentu  yang  memungkinkan                  teks-teks  dasar  dari  berbagai  jenis  sastra  dan 
                        untuk dipertemukan sumber informasi yang                    analisis linguistik.  Tapi gagasan tentang korpus 
                        terdapat dalam basis data.                                  sebagai  dasar  untuk  sebuah  bentuk  linguistic 
                                                                                    empiris berbeda dalam beberapa cara mendasar 
                   5)  Mempertemukan           pernyataan      pencarian            dari teks-teks tertentu. 
                        dengan  data  yang  tersimpan  dalam  basis                 d.  Proses Tokenisasi 
                        data 
                   6)  Menemu-kembalikan             informasi       yang                  Proses pertama yang dilakukan dalam IRS 
                        relevan                                                     adalah proses memisahkan kata yang ada pada 
                                                                                    dokumen        berdasarkan       spasi      kemudian 
                   7)  Menyempurnakan           unjuk     kerja    sistem           memproses kata yang telah dipisahkan tersebutk 
                        berdasarkan  umpan  balik  yang  diberikan                  kedalam  sebuah  tabel  untuk  dilakukan  proses 
                        oleh user.                                                  berikutnya.    Proses  Tokenisasi  merupakan 
                   b.  Arsitektur Information Retrieval System                      proses  pemisahan  suatu  rangkaian  karakter 
                                                                                    berdasarkan  karakter  spasi,  dan  mungkin  pada 
                        Proses Information Retrieval System seperti                 waktu  yang  bersamaan  dilakukan  juga  proses 
                   pada  gambar  1  menggunakan  arsitektur  yang                   penghapusan  karakter  tertentu,  seperti  tanda 
                   sederhana.  Sebelum dilakukannya proses temu                     baca.  Gambar 2 menunjukkan proses tokenisasi. 
                   kembali  diperlukan  pendefinisian  database.                            
                   Selanjutnya       mengikuti       tahapan      proses; 
                   Dokumen-dokumen  yang  akan  digunakan, 
                                                                                                                                            
                           Rancang Bangun Information Retrieval System (IRS) Bahasa Jawa Ngoko pada Palintangan Penjebar Semangad        27 
                                                           dengan Metode Vector Space Model (VSM) 
                   Jurnal Teknologi Informasi DINAMIK Volume 20, No.1, Januari 2015 : 25-35                                ISSN : 0854-9524 
                    
                                                                                                  g.                     Proses 
                                                                                           Perhitungan VSM 
                                                                                           Vector Space Model (VSM) adalah metode 
                                                                                    untuk melihat tingkat kedekatan atau kesamaan 
                                                                                    (similarity) term dengan cara pembobotan term.  
                                                                                    Dokumen dipandang sebagi sebuah vektor yang 
                       Gambar  2.  Contoh hasil proses tokenisasi                   memiliki magnitude (jarak) dan direction (arah). 
                   e.   Proses Filtering                                            Pada  Vector  Space  Model,  sebuah  istilah 
                                                                                    direpresentasikan  dengan  sebuah  dimensi  dari 
                          Proses    selanjutnya     setelah    dilakukan            ruang  vektor.    Relevansi  sebuah  dokumen  ke 
                   pemisahan  kata  pada  dokumen  adalah  proses                   sebuah  query  didasarkan  pada  similaritas 
                   filtering.    Filtering  akan  memproses kata hasil              diantara  vektor  dokumen  dan  vektor  query 
                   tokenisasi  menjadi  lebih  sedikit  dengan  cara                (Baeza, 1999). 
                   mengurangi  kata  tersebut  dengan  kata  yang 
                   termasuk      dalam      stopwords.          Eliminasi                  VSM  memberikan  sebuah  kerangka 
                   stopwords  memiliki  banyak  keuntungan,  yaitu                  pencocokan  parsial  adalah  mungkin.  Hal  ini 
                   akan  mengurangi  space  pada  tabel  term  index                dicapai  dengan  menetapkan  bobot  non-biner 
                   hingga 40% atau lebih (Baeza, 1999, h.167).                      untuk istilah indeks dalam query dan dokumen.  
                                                                                    Bobot  istilah  yang  akhirnya  digunakan  untuk 
                                                                                    menghitung  tingkat  kesamaan  antara  setiap 
                                                                                    dokumen  yang  tersimpan  dalam  sistem  dan 
                                                                                    permintaan  user.  Dokumen  yang  terambil 
                                                                                    disortir dalam urutan yang memiliki kemiripan, 
                                                                                    model  vektor  memperhitungkan  pertimbangan 
                                                                                    dokumen yang relevan dengan permintaan user.  
                                                                                    Hasilnya  adalah  himpunan  dokumen  yang 
                                                                                    terambil  jauh  lebih  akurat  (dalam  arti  sesuai 
                                                                                    dengan informasi yang dibutuhkan oleh user). 
                        Gambar  3. Contoh hasil proses Filtering                           Sebuah dokumen dj dan sebuah query q 
                   f.   Proses Stemming                                             direpresentasikan     sebagai     vektor    t-dimensi 
                                                                                    seperti pada gambar 5.  
                          Proses     Stemming       digunakan       untuk 
                   mengubah term yang masih melekat dalam term 
                   tersebut     awalan,      sisipan,    dan     akhiran.  
                   Selanjutnya     term  tersebut  diproses  untuk 
                   dihilangkan      awalan,     sisipan    dan    akhiran 
                   sehingga  menjadi  term  kata  dasar.    Proses 
                   membuat term dasar ini mengacu kepada bahasa 
                   jawa ngoko yang benar.  Contoh Stemming bisa                                                                    
                   dilihat pada gambar 4. 
                                                                                     Gambar 5. The Cosines of   is adopted as sim 
                                                                                                     d, q (Baeza, 1999) 
                                                                                                      j
                                                                                           Dalam       VSM         koleksi       dokumen 
                                                                                    direpresentasikan  sebagai  sebuah  matrik  term 
                                                                                    document (atau matrik term frequency).  Setiap 
                                                                                    sel dalam matrik bersesuaian dengan bobot yang 
                                                                                    diberikan dari suatu term dalam dokumen yang 
                      Gambar  4.  Contoh hasil proses Stemming                      ditentukan.    Nilai  nol  berarti  bahwa  term 
                                                                                    tersebut tidak ada dalam dokumen.  Gambar 6 
                                                                                                                                            
                   28      Rancang Bangun Information Retrieval System (IRS) Bahasa Jawa Ngoko pada Palintangan Penjebar Semangad  
                                                           dengan Metode Vector Space Model (VSM)
The words contained in this file might help you see if this file matches what you are looking for:

...Jurnal teknologi informasi dinamik volume no januari issn rancang bangun information retrieval system irs bahasa jawa ngoko pada palintangan penjebar semangad dengan metode vector space model vsm fatkhul amin dan purwatiningtyas fakultas universitas stikubank semarang email fatkhulamin gmail com diba ian yahoo abstrak adalah daerah yang paling banyak digunakan di indonesia mulai ditinggalkan perlunya pelestarian dalam bentuk online bisa diakses bagi penggunanya sehingga akanmemudahkan pencarian dokumen teks khususnya software dirancang untuk memberikan hasil jumlah optimal recall rendah akurat precision tinggi menggunakan user akan mendapatkan cepat melakukan pembobotan tiap ada database antar memiliki bobot berbeda menentukan mana mirip similar query tertinggi menempati ranking teratas evaluasi dilakukan uji studi kasus telah ini didapatkan sistem mampu proses preprosesing tokenisasi filtering stemming waktu komputasi detik menampilkan rata dilengkapi letakknya memudahkan kata kunci p...
Related files

Share

Help

Related files

Share

Share to social media

Help

Login Area