jagomart
digital resources
picture1_Text Mining Pdf 88184 | Tm (text Summarization)


 173x       Filetype PDF       File size 0.08 MB       Source: web.ipb.ac.id


Text Mining Pdf 88184 | Tm (text Summarization)

icon picture PDF Filetype PDF | Posted on 15 Sep 2022 | 3 years ago
Partial capture of text on file.
                                                Kolokium bersama komunitas datamining Indonesia & soft-computing Indonesia, Sep’06 
                                     Text Mining dan Knowledge Discovery 
                                                             Igg Adiwijaya Ph.D. 
                                                               EMC Corporation 
                                                         Igg_adiwijaya@hotmail.com 
                      Abstract 
                      Pesatnya pengunaan dan adopsi Internet telah memacu pertumbuhan dan pertukaran informasi yang sangat 
                      pesat dibandingkan era sebelumnya. Sebagai akibatnya, jumlah informasi terus meningkat secara 
                      exponensial. Walau perkembangan ini memungkinan informasi untuk di akses penguna dengan mudah, 
                      jumlah yang terkendalikan ini telah menimbulkan isu and tantangan yang besar. Tidak hanya di Internet, 
                      jumlah informasi, terutama dalam bentuk dokumen atau text, juga di hasilkan, di koleksi, dan di konsumsi 
                      dalam jumlah yang tidak kalah besar di berbagai institusi dan perusahaan. Akses dan pengunaan akan 
                      informasi text yang tidak lagi di dominasi oleh ahli riset, spesialis analisa dan informasi, dan librarian 
                      seperti di era sebelumnya telah membuat tantangan menjadi lebih komplex.  
                       
                      Untuk e-Kolokium text mining ini, saya akan memberikan gambaran secara garis besar terhadap bidang 
                      text mining yang sedang berkembang. Didalamnya, saya akan diskusikan issue dan tantangan yang di 
                      hadapi di bidang text mining. Untuk setiap tantangan, saya akan presentasikan solusi-solusi yang telah di 
                      hasilkan oleh ahli-ahli riset di dunia dan kekurangannya. Pada akhir makalah, saya akan ulas issue dan 
                      tantangan text mining yang saya hadapi sekarang, khususnya di bidang “knowledge discovery”. 
                      1 Introduksi                                          
                                                                           librarian seperti di era sebelumnya. Pencarian 
                      Pesatnya pengunaan dan adopsi Internet telah         dan konsumsi informasi text telah menjadi 
                      memacu pertumbuhan dan pertukaran informasi          sesuatu yang umum untuk semua tipe pengguna 
                      yang sangat pesat dibandingkan era sebelumnya.       dengan kepentingan yang berbeda. 
                      Sebagai akibatnya, jumlah informasi terus             
                      meningkat secara exponensial, - lebih dari 550       Situasi saat ini telah menghasilkan 'success 
                      triliun dokumen saat ini. 7.3 juta Internet page     story' di bidang solusi dan tool untuk membantu 
                      baru tiap hari nya. Walau perkembangan ini           penguna mencari dan mengorganisasi informasi 
                      memungkinan informasi untuk di akses penguna         dalam jumlah besar, mulai dari AltaVista 
                      dengan mudah, jumlah yang terkendalikan ini          sampai Google sekarang. Dikarenakan 
                      telah menimbulkan isu and tantangan yang besar.      kemampuan penguna untuk menerima dan 
                      Tidak hanya di Internet, jumlah informasi,           mencerna informasi yang terbatas, “search 
                      terutama dalam bentuk dokumen atau text, juga        engines” disisi lain telah mempersulit kita untuk 
                      di hasilkan, di koleksi, dan di konsumsi dalam       mencerna informasi dengan cepat dan efektif. 
                      jumlah yang tidak kalah besar di berbagai            “Push technology” dan mudahnya kita 
                      institusi dan perusahaan. Sebagai contoh, survey     mendapatkan informasi melalui search engine, 
                      yang di selengarakan oleh “Database Trend and        hanya dengan menekan beberapa tombol 
                      Application” dan “QL2 Sofware” di awal tahun         komputer, telah membuat penguna terus 
                      2006 menunjukan 86% lebih informasi yang di          berlomba mengikuti informasi, perkembangan 
                      hasilkan dan dikonsumsikan oleh staff  berita, dan events yang terbaru. Informasi 
                      perusahaan besar di Amerika Utara dan Eropa          overload seperti ini adalah salah satu isu yang di 
                      adalah dalam bentuk “unstructured text”. 80-         jawab oleh Text Mining. 
                      85% dari total data di dalam database ada dalam       
                      bentuk text[2]. 80% dari knowledge di bidang         Text mining bisa dibilang subyek riset yang 
                      biology dan medical ditemukan di paper riset.        tergolong baru. text mining memberikan solusi 
                      Format file yang populer termasuk MS Word,           pada masalah-masalah dalam memproses, 
                      MS Excel, MS PPT, Email, PDF, dan Txt. Ini           mengorganisasi, dan menganalisa unstructured 
                      menunjukan akses dan pengunaan akan  text dalam jumlah besar. Dalam memberikan 
                      informasi text yang tidak lagi di dominasi oleh      solusi, text mining mengadopsi dan 
                      ahli riset, spesialis analisa dan informasi, dan     mengembangkan banyak teknik dan solusi dari 
                                                                                                                          1
                                                Kolokium bersama komunitas datamining Indonesia & soft-computing Indonesia, Sep’06 
                      bidang lain, seperti Data Mining, Information        complex dan tidak lengkap, arti yang tidak jelas 
                      Retrieval,  Statistik dan Matematik, Machine         dan tidak standard, dan bahasa yang berbeda 
                      Learning, Linguistic, Natural Language  ditambah translasi yang tidak akurat. 
                      processing, dan Visualization. Kegiatan riset        Dikarenakan structured data ditujukan agar 
                      untuk text mining terdiri dari ekstraksi dan         mudah di proses komputer secara automatic, 
                      penyimpanan text, “preprocessing” akan konten        pre-process data di data mining jauh lebih 
                      text, pengumpulan data statistik dan indexing,       mudah dilakukan dari pada pada unstructured 
                      analisa konten, dan presentasi. Organisasi e-        text. Text di ciptakan bukan untuk di gunakan 
                      Kolokium ini adalah sebagai berikut. Sesi 2          oleh mesin, tapi untuk dikonsumsi manusia 
                      akan mendiskusikan definisi dan tujuan text          langsung. Karena itu, pada umumnya “Natural 
                      timing yang lebih dalam. Sub-aktivitas text          Language Processor” digunakan untuk 
                      mining yang berbeda di jabarkan di sesi ke 3. Di     memproses unstructured text. Hearst [1] 
                      sesi ke 4, saya akan diskusikan riset saya di        mempertanyakan pengunaan kata ‘mining’ di 
                      bidang “Knowledge Discovery” dan Integrasi.          data mining dan text mining. Kata ‘mining’ 
                      Sesi 5 adalah sesi penutup.                          memberikan arti dimana fakta-fakta atau relasi-
                                                                           relasi baru dihasilkan dari proses me-‘mining’ 
                                                                           data. Dia mengklaim bahwa aktivitas data 
                      2 Text Mining: Definisi                              mining lebih memfocuskan pada penemuan 
                      Apa sih arti text mining yang sebenarnya?            trend dan pattern yang sebenarnya sudah ada. 
                      Definisi akan text mining sudah sering di            Sedangkan ahli text mining yang lain 
                      berikan oleh banyak ahli riset dan praktisi [1, 2,   beranggapan bahwa text mining adalah proses 
                      3]. Seperti hal nya data mining, text mining         penemuan kembali relasi dan fakta yang 
                      adalah proses penemuan akan informasi atau           terkubur didalam text, dan tidak harus baru. 
                      trend baru yang sebelumnya tidak terungkap            
                      dengan memproses dan menganalisa data dalam          Ulasan di berikutnya sedikit mengikuti definisi 
                      jumlah besar. Dalam menganalisa sebagian atau        text mining oleh Hearst. Seperti di sebutkan 
                      keseluruhan unstructured text, text mining           sebelumnya, Text mining telah mengadopsi 
                      mencoba untuk mengasosiasikan satu bagian            teknik yang di gunakan di bidang natural 
                      text dengan yang lainnya berdasarkan aturan-         language processing dan computational 
                      aturan tertentu. Hasil yang di harapkan adalah       linguistics. Walaupun teknik di computational 
                      informasi baru atau “insight” yang tidak             linguistics bisa dibilang maju dan cukup akurat 
                      terungkap jelas sebelumnya. Wikipedia [37]           untuk mengekstrak informasi, tujuan text mining 
                      mendefinisikan text mining sebagai berikut.          bukan hanya mengekstrak informasi. Melainkan 
                      “Text mining, also known as intelligent text         untuk menemukan pattern dan informasi baru 
                      analysis, text data mining , unstructured data       yang belum terungkapkan [4], yang sulit 
                      management, or knowledge discovery in text …,        ditemukan tanpa analisa yang dalam. Walau 
                      refers generally to the process of extracting        kemampuan komputer untuk mencapai 
                      interesting and non-trivial information and          kemampuan untuk memproses text seperti 
                      knowledge (usually converted to metadata             manusia sangat sulit, bila tidak mustahil, telah 
                      elements) from unstructured text (i.e. free text)    banyak teknik-teknik baru di computational 
                      stored in electronic form.”                          linguistics yang bisa membantu text mining 
                                                                           untuk mencerna text lebih jauh lagi.  
                      Seperti halnya data mining, text mining juga          
                      menghadapi masalah yang sama, termasuk               Sering kali penguna search engine di Internet 
                      jumlah data yang besar, dimensi yang tinggi,         menganggap search engine sebagai salah satu 
                      data dan struktur yang terus berubah, dan data       implementasi text mining. Andil utama search 
                      “noise.” Berbeda dengan data mining yang             engine hanyalah menyingkirkan text yang tidak 
                      utamanya memproses structured data, data yang        memiliki kata-kunci yang di cari pengunna. Dan 
                      digunakan text mining pada umumnya dalam             lagi penguna search engine mengetahui 
                      bentuk unstructured, atau minimal semi-              sebelumnya text seperti apa yang hendak dia 
                      structured, text. Akibatnya, text mining  cari. Bisa dibilang kalau pencarian seperti ini 
                      mempunyai tantangan tambahan yang tidak di           termasuk dalam “Information Retrieval.” Focus 
                      temui di data mining, seperti struktur text yang     information retreieval adalah menemukan 
                                                                                                                          2
                                               Kolokium bersama komunitas datamining Indonesia & soft-computing Indonesia, Sep’06 
                     dokumen atau text yang memenuhi kriteria            bandingkan dan di analisa guna memberikan 
                     pencari. Text mining lebih memfocuskan pada         hasil trend yang berarti.  
                     relasi dan co-existence dari satu dokumen            
                     dengan yang lainnya. Walaupun text mining           Untuk technical working paper, documentasi, 
                     lebih dari information retrieval, text mining       dan software specifikasi dokumen, text mining 
                     telah mengadopsi information retrieval untuk        bisa di gunakan untuk mengekstrak software 
                     menyaring dan mengurangi jumlah informasi           requirement dari spesifikasi dokumen secara 
                     untuk diproses selanjutnya. Methode statistik       otomatis atau mendeteksi ke kurangan antara 
                     juga sudah mulai sering di gunakan dan di           source code dan documentasinya secara 
                     adopsi di computational linguistics dan  otomatis. For web pages, text mining bisa di 
                     information retrieval yang nanti nya bisa           gunakan untuk menganalisa website perusahaan, 
                     memberikan tool yang lebih baik dan akurat          structur websitenya, perbandingan website 
                     untuk text mining.                                  content yang satu dengan site yang lain. Masih 
                                                                         banyak lagi aplikasi text mining yang di 
                     Banyak juga ahli riset yang menkategorikan          butuhkan. 
                     document categorization sebagai text mining.         
                     Walau kategorisasi dokumen dapat memberikan 
                     label dan kesimpulan yang akurat pada  3. Proses Text Mining 
                     dokumen-dokumen tertentu, ini tidak Proses text mining mencakup beberapa sub-task, 
                     menghasilkan fakta-fakta atau relasi yang baru.     seperti information retrieval, categorization, 
                     Tetapi bilamana label-label atau kesimpulan-        POS tagging, Clustering, dan lainnya, yang bisa 
                     kesimpulan yang di hasilkan di analisa dan di       di katergorikan kedalam framework 
                     korelasikan lebih lanjut, ini bisa menghasilkan     “Knowledge Discovery in Databases” (KDD) 
                     fakta dan relasi baru antara group-group            [5], yang tidak lain adalah proses 
                     dokumen yang berbeda. Kegiatan seperti ini bisa     mengidentifikasikan pattern di dalam data yang 
                     di masukan dalam text mining.                       benar, unik, berguna, dan dimengerti. KDD 
                     2.1 Aplikasi text mining                            proses interaktif, bisa berulang, dan terdiri dari 
                                                                         step Selection, Preprocessing, Transformation, 
                     Aplikasi text mining bisa di bagi berdasarkan       Data Mining, dan Interpretation/Evaluation. 
                     tipe unstructured text yang di proses. Untuk        Dalam sesi ini, proses dan kegiatan text mining 
                     ustructured text dalam bentuk emails, intant        yang beragam akan saya coba assosiasikan 
                     messages, dan blogs, pada umumnya penguna           dengan KDD step dan ulas secara singkat. 
                     ingin mencari atau “mine” informasi mengenai         
                     orang (seperti email pengirim, alamat, nama 
                     lengkap, dll), perusahaan (seperti nama lengkap     3.1 Selection 
                     dan lokasi), organisasi, dan kejadian-kejadian      KDD Selection mencakup penseleksian data set 
                     (seperti penemuan baru, pengumuman penting,         dan sample. Focus nya ada pada tipe discovery 
                     dll). Untuk berita dari berbagai sumber, text       yang ingin di lakukan. Activitas text mining 
                     mining bisa di gunakan untuk membandingkan          yang bisa masuk dalam phase ini termasuk 
                     berita yang sama atau berbeda yang berasal dari     Information Retrieval, Categorization, dan 
                     sumber yang berbeda, mungkin dengan bahasa          Clustering. Tujuan information retrieval adalah 
                     yang berbeda. Lebih jauh lagi adalah analisa dan    untuk mengubah unstructured text menjadi 
                     organisasi isi berita berdasarkan waktu publikasi   structured data atau format yang mudah untuk di 
                     (atau “temporal analysis”). Text mining juga        proses lebih lanjut nantinya. Contonya, email 
                     bisa membantu untuk proses “deduplication” di       body di proses secara automatic untuk 
                     sini. Untuk buku-buku dan artikel-artikel  mendapatkan nama, email address, alamat, 
                     science, text mining di butuhkan untuk  telephone, dan information yang relevan lainnya. 
                     mendeteksi trend di bidang riset tertentu. Salah    Sudah banyak teknik information retrieval untuk 
                     satu cara yang bisa di lakukan adalah dengan        berbagai domain. Freitag et. al. [6] mengadopsi 
                     memonitor jumlah publikasi untuk bidang riset       wrapper teknik, dengan extraction dan engine 
                     tertentu untuk jangka waktu tertentu. Hasil-hasil   rule, to perform information retreival untuk 
                     untuk bidang riset yang berbeda bisa di             bagian tertentu di dalam unstructured text. 
                                                                         Wrapper mempunyai kemampuan mesin 
                                                                                                                       3
                                               Kolokium bersama komunitas datamining Indonesia & soft-computing Indonesia, Sep’06 
                     learning. Banyak teknik-teknik information          Disambiguation adalah activitas untuk 
                     retrieval untuk web pages telah di propose oleh     menentukan arti atau sense akan kata-kata yang 
                     beberapa ahli riset, seperti Eikvil [7] dan         tidak jelas atau ambiguos. Kata ‘Cold’ adalah 
                     Cunningham [8].                                     contoh yang mudah. Cold bisa berarti suhu yang 
                                                                         dingin, atau bisa juga berarti penyakit “flu” 
                     KDD Categorization memfocuskan pada proses          tergantung akan kontex yang dibicarakan. 
                     peng-“assign”-an documen secara otomatis            Disambiguation cocok sebagai “intermediate” 
                     terhadap koleksi class yang telah disiapkan         step untuk selanjutnya di teruskan ke machine 
                     sebelumnya. Teknik categorization yang populer      learning, information extraction, term clustering, 
                     untuk text mining adalah mengadopsi  atau spelling correction. Dictionary atau training 
                     information retrieval atau machine learning.        rule bisa digunakan sebagai solusi terhadap 
                     Sub-activitas text categorization mencakup          disambiguation. Manning et.al. [23] 
                     content representation, seleksi fitur, extraksi     memberikan survey akan riset pada 
                     fitur, dan pengunaan machine learning untuk         disambiguation. 
                     adaptasi pengklasifikasian secara semi-otomatis.     
                     Sebagian dari peneliti di sub-activitas 
                     categorization termasuk [10, 11, 12, 13, 14, 15].   3.3 Transformation 
                     Survey akan pengunaan machine learning untuk        Tranformation step bertujuan untuk menemukan 
                     text categorization dapat di simak di Sebastiani    fitur-fitur yang tersimpan di dalam data yang 
                     [9].                                                penting berdasarkan kebutuhan yang diperlukan. 
                                                                         Proses ini juga bertujuan untuk mengurangi 
                     Tujuan Clustering adalah untuk memisahkan           jumlah variabel dan data yang tidak terlalu di 
                     sekumpulan dokumen kedalam beberapa group           perlukan. Disambiguation dan Term Clustering 
                     atau kluster dengan menilai kemiripan antar         termasuk dalam kategori ini. Disambiguation 
                     dokumen dari segi kontent. Subactivitas  telah di jelaskan sebelumnya. Sedangkan Term 
                     clustering termasuk representasi dokumen,  Clustering adalah activitas untuk menciptakan 
                     penurunan dimensi, pengunaan cluster algorithm,     model yang bisa digunakan untuk meng-index 
                     dan evaluasi. Riset di text clustering ini sudah    dokumen pada tahap yang berbeda. Tehnik 
                     banyak dikerjakan, termasuk oleh [16, 17, 18,       disini termasuk pembentukan thesaurus atau 
                     19].                                                ontology secara otomatis dan mengunakan index 
                                                                         semantic. Thesaurus atau ontology terdiri dari 
                     3.2 Preprocessing                                   konsep atau terminology dan relationship antar 
                                                                         konsep. Riset awal di term clustering di mulai 
                     KDD Preprocessing memfocuskan pada data             dari information retrieval. Teknik untuk 
                     cleaning & cleansing, termasuk menghilangkan        document clustering sering kali di pakai untuk 
                     noise di data, atau mengadaptasi noise, dan         term clustering [26 and 23]. 
                     mengatasi informasi yang hilang atau tidak           
                     komplit. Text mining activitas seperti POS (Part    Saya sendiri melakukan riset di Automatic 
                     of Speech) Tagging dan Disambiguation bisa          Ontology Integration. Tambah lengkap kosa-
                     dimasukan dalam phase KDD preprocessing.            kata dan relationship antar kata, tambah lebih 
                     POS Tagging bisa dikatakan sebagai aktivitas        akurat hasil dari transformation activitas. 
                     yang tujuannya memberikan label pada setiap         Idealnya kita memerlukan ontology selengkap 
                     kata dalam kalimat dan mengasosiasikan dengan       mungkin. Tapi kadang ontology yang tersedia 
                     “speech” yang relevan. Tambah banyak tag            sangat terbatas. Salah satu cara untuk 
                     dipakai untuk label, tambah complex dan rendah      mendapatkan ontology yang lebih lengkap 
                     performance. Beberapa teknik POS Tagging            adalah dengan mengabungkan ontology dari 
                     telah di kemukakan, termasuk Markov Models          berbagai sumber untuk domain yang sama atau 
                     oleh [20], Hidden markov Models oleh [21], dan      berhubungan. Contohnya, medical ontology. 
                     Transformation-based [22]. Manning et.al. [23]      Medical ontology versi Inggris bisa di dapat  
                     survey memberikan ulasan luas aka POS               dari MeSH (Medical Subject Heading), 
                     Tagging.                                            SNOMED, UMLS, dan yang lainnya. Tantangan 
                                                                         yang dihadapi disini adalah menyediakan 
                                                                         mekanisme integrasi yang otomatis, atau 
                                                                                                                       4
The words contained in this file might help you see if this file matches what you are looking for:

...Kolokium bersama komunitas datamining indonesia soft computing sep text mining dan knowledge discovery igg adiwijaya ph d emc corporation hotmail com abstract pesatnya pengunaan adopsi internet telah memacu pertumbuhan pertukaran informasi yang sangat pesat dibandingkan era sebelumnya sebagai akibatnya jumlah terus meningkat secara exponensial walau perkembangan ini memungkinan untuk di akses penguna dengan mudah terkendalikan menimbulkan isu and tantangan besar tidak hanya terutama dalam bentuk dokumen atau juga hasilkan koleksi konsumsi kalah berbagai institusi perusahaan akan lagi dominasi oleh ahli riset spesialis analisa librarian seperti membuat menjadi lebih komplex e saya memberikan gambaran garis terhadap bidang sedang berkembang didalamnya diskusikan issue hadapi setiap presentasikan solusi dunia kekurangannya pada akhir makalah ulas sekarang khususnya introduksi pencarian sesuatu umum semua tipe pengguna kepentingan berbeda dari situasi saat menghasilkan success triliun juta...

no reviews yet
Please Login to review.