173x Filetype PDF File size 0.08 MB Source: web.ipb.ac.id
Kolokium bersama komunitas datamining Indonesia & soft-computing Indonesia, Sep’06 Text Mining dan Knowledge Discovery Igg Adiwijaya Ph.D. EMC Corporation Igg_adiwijaya@hotmail.com Abstract Pesatnya pengunaan dan adopsi Internet telah memacu pertumbuhan dan pertukaran informasi yang sangat pesat dibandingkan era sebelumnya. Sebagai akibatnya, jumlah informasi terus meningkat secara exponensial. Walau perkembangan ini memungkinan informasi untuk di akses penguna dengan mudah, jumlah yang terkendalikan ini telah menimbulkan isu and tantangan yang besar. Tidak hanya di Internet, jumlah informasi, terutama dalam bentuk dokumen atau text, juga di hasilkan, di koleksi, dan di konsumsi dalam jumlah yang tidak kalah besar di berbagai institusi dan perusahaan. Akses dan pengunaan akan informasi text yang tidak lagi di dominasi oleh ahli riset, spesialis analisa dan informasi, dan librarian seperti di era sebelumnya telah membuat tantangan menjadi lebih komplex. Untuk e-Kolokium text mining ini, saya akan memberikan gambaran secara garis besar terhadap bidang text mining yang sedang berkembang. Didalamnya, saya akan diskusikan issue dan tantangan yang di hadapi di bidang text mining. Untuk setiap tantangan, saya akan presentasikan solusi-solusi yang telah di hasilkan oleh ahli-ahli riset di dunia dan kekurangannya. Pada akhir makalah, saya akan ulas issue dan tantangan text mining yang saya hadapi sekarang, khususnya di bidang “knowledge discovery”. 1 Introduksi librarian seperti di era sebelumnya. Pencarian Pesatnya pengunaan dan adopsi Internet telah dan konsumsi informasi text telah menjadi memacu pertumbuhan dan pertukaran informasi sesuatu yang umum untuk semua tipe pengguna yang sangat pesat dibandingkan era sebelumnya. dengan kepentingan yang berbeda. Sebagai akibatnya, jumlah informasi terus meningkat secara exponensial, - lebih dari 550 Situasi saat ini telah menghasilkan 'success triliun dokumen saat ini. 7.3 juta Internet page story' di bidang solusi dan tool untuk membantu baru tiap hari nya. Walau perkembangan ini penguna mencari dan mengorganisasi informasi memungkinan informasi untuk di akses penguna dalam jumlah besar, mulai dari AltaVista dengan mudah, jumlah yang terkendalikan ini sampai Google sekarang. Dikarenakan telah menimbulkan isu and tantangan yang besar. kemampuan penguna untuk menerima dan Tidak hanya di Internet, jumlah informasi, mencerna informasi yang terbatas, “search terutama dalam bentuk dokumen atau text, juga engines” disisi lain telah mempersulit kita untuk di hasilkan, di koleksi, dan di konsumsi dalam mencerna informasi dengan cepat dan efektif. jumlah yang tidak kalah besar di berbagai “Push technology” dan mudahnya kita institusi dan perusahaan. Sebagai contoh, survey mendapatkan informasi melalui search engine, yang di selengarakan oleh “Database Trend and hanya dengan menekan beberapa tombol Application” dan “QL2 Sofware” di awal tahun komputer, telah membuat penguna terus 2006 menunjukan 86% lebih informasi yang di berlomba mengikuti informasi, perkembangan hasilkan dan dikonsumsikan oleh staff berita, dan events yang terbaru. Informasi perusahaan besar di Amerika Utara dan Eropa overload seperti ini adalah salah satu isu yang di adalah dalam bentuk “unstructured text”. 80- jawab oleh Text Mining. 85% dari total data di dalam database ada dalam bentuk text[2]. 80% dari knowledge di bidang Text mining bisa dibilang subyek riset yang biology dan medical ditemukan di paper riset. tergolong baru. text mining memberikan solusi Format file yang populer termasuk MS Word, pada masalah-masalah dalam memproses, MS Excel, MS PPT, Email, PDF, dan Txt. Ini mengorganisasi, dan menganalisa unstructured menunjukan akses dan pengunaan akan text dalam jumlah besar. Dalam memberikan informasi text yang tidak lagi di dominasi oleh solusi, text mining mengadopsi dan ahli riset, spesialis analisa dan informasi, dan mengembangkan banyak teknik dan solusi dari 1 Kolokium bersama komunitas datamining Indonesia & soft-computing Indonesia, Sep’06 bidang lain, seperti Data Mining, Information complex dan tidak lengkap, arti yang tidak jelas Retrieval, Statistik dan Matematik, Machine dan tidak standard, dan bahasa yang berbeda Learning, Linguistic, Natural Language ditambah translasi yang tidak akurat. processing, dan Visualization. Kegiatan riset Dikarenakan structured data ditujukan agar untuk text mining terdiri dari ekstraksi dan mudah di proses komputer secara automatic, penyimpanan text, “preprocessing” akan konten pre-process data di data mining jauh lebih text, pengumpulan data statistik dan indexing, mudah dilakukan dari pada pada unstructured analisa konten, dan presentasi. Organisasi e- text. Text di ciptakan bukan untuk di gunakan Kolokium ini adalah sebagai berikut. Sesi 2 oleh mesin, tapi untuk dikonsumsi manusia akan mendiskusikan definisi dan tujuan text langsung. Karena itu, pada umumnya “Natural timing yang lebih dalam. Sub-aktivitas text Language Processor” digunakan untuk mining yang berbeda di jabarkan di sesi ke 3. Di memproses unstructured text. Hearst [1] sesi ke 4, saya akan diskusikan riset saya di mempertanyakan pengunaan kata ‘mining’ di bidang “Knowledge Discovery” dan Integrasi. data mining dan text mining. Kata ‘mining’ Sesi 5 adalah sesi penutup. memberikan arti dimana fakta-fakta atau relasi- relasi baru dihasilkan dari proses me-‘mining’ data. Dia mengklaim bahwa aktivitas data 2 Text Mining: Definisi mining lebih memfocuskan pada penemuan Apa sih arti text mining yang sebenarnya? trend dan pattern yang sebenarnya sudah ada. Definisi akan text mining sudah sering di Sedangkan ahli text mining yang lain berikan oleh banyak ahli riset dan praktisi [1, 2, beranggapan bahwa text mining adalah proses 3]. Seperti hal nya data mining, text mining penemuan kembali relasi dan fakta yang adalah proses penemuan akan informasi atau terkubur didalam text, dan tidak harus baru. trend baru yang sebelumnya tidak terungkap dengan memproses dan menganalisa data dalam Ulasan di berikutnya sedikit mengikuti definisi jumlah besar. Dalam menganalisa sebagian atau text mining oleh Hearst. Seperti di sebutkan keseluruhan unstructured text, text mining sebelumnya, Text mining telah mengadopsi mencoba untuk mengasosiasikan satu bagian teknik yang di gunakan di bidang natural text dengan yang lainnya berdasarkan aturan- language processing dan computational aturan tertentu. Hasil yang di harapkan adalah linguistics. Walaupun teknik di computational informasi baru atau “insight” yang tidak linguistics bisa dibilang maju dan cukup akurat terungkap jelas sebelumnya. Wikipedia [37] untuk mengekstrak informasi, tujuan text mining mendefinisikan text mining sebagai berikut. bukan hanya mengekstrak informasi. Melainkan “Text mining, also known as intelligent text untuk menemukan pattern dan informasi baru analysis, text data mining , unstructured data yang belum terungkapkan [4], yang sulit management, or knowledge discovery in text …, ditemukan tanpa analisa yang dalam. Walau refers generally to the process of extracting kemampuan komputer untuk mencapai interesting and non-trivial information and kemampuan untuk memproses text seperti knowledge (usually converted to metadata manusia sangat sulit, bila tidak mustahil, telah elements) from unstructured text (i.e. free text) banyak teknik-teknik baru di computational stored in electronic form.” linguistics yang bisa membantu text mining untuk mencerna text lebih jauh lagi. Seperti halnya data mining, text mining juga menghadapi masalah yang sama, termasuk Sering kali penguna search engine di Internet jumlah data yang besar, dimensi yang tinggi, menganggap search engine sebagai salah satu data dan struktur yang terus berubah, dan data implementasi text mining. Andil utama search “noise.” Berbeda dengan data mining yang engine hanyalah menyingkirkan text yang tidak utamanya memproses structured data, data yang memiliki kata-kunci yang di cari pengunna. Dan digunakan text mining pada umumnya dalam lagi penguna search engine mengetahui bentuk unstructured, atau minimal semi- sebelumnya text seperti apa yang hendak dia structured, text. Akibatnya, text mining cari. Bisa dibilang kalau pencarian seperti ini mempunyai tantangan tambahan yang tidak di termasuk dalam “Information Retrieval.” Focus temui di data mining, seperti struktur text yang information retreieval adalah menemukan 2 Kolokium bersama komunitas datamining Indonesia & soft-computing Indonesia, Sep’06 dokumen atau text yang memenuhi kriteria bandingkan dan di analisa guna memberikan pencari. Text mining lebih memfocuskan pada hasil trend yang berarti. relasi dan co-existence dari satu dokumen dengan yang lainnya. Walaupun text mining Untuk technical working paper, documentasi, lebih dari information retrieval, text mining dan software specifikasi dokumen, text mining telah mengadopsi information retrieval untuk bisa di gunakan untuk mengekstrak software menyaring dan mengurangi jumlah informasi requirement dari spesifikasi dokumen secara untuk diproses selanjutnya. Methode statistik otomatis atau mendeteksi ke kurangan antara juga sudah mulai sering di gunakan dan di source code dan documentasinya secara adopsi di computational linguistics dan otomatis. For web pages, text mining bisa di information retrieval yang nanti nya bisa gunakan untuk menganalisa website perusahaan, memberikan tool yang lebih baik dan akurat structur websitenya, perbandingan website untuk text mining. content yang satu dengan site yang lain. Masih banyak lagi aplikasi text mining yang di Banyak juga ahli riset yang menkategorikan butuhkan. document categorization sebagai text mining. Walau kategorisasi dokumen dapat memberikan label dan kesimpulan yang akurat pada 3. Proses Text Mining dokumen-dokumen tertentu, ini tidak Proses text mining mencakup beberapa sub-task, menghasilkan fakta-fakta atau relasi yang baru. seperti information retrieval, categorization, Tetapi bilamana label-label atau kesimpulan- POS tagging, Clustering, dan lainnya, yang bisa kesimpulan yang di hasilkan di analisa dan di di katergorikan kedalam framework korelasikan lebih lanjut, ini bisa menghasilkan “Knowledge Discovery in Databases” (KDD) fakta dan relasi baru antara group-group [5], yang tidak lain adalah proses dokumen yang berbeda. Kegiatan seperti ini bisa mengidentifikasikan pattern di dalam data yang di masukan dalam text mining. benar, unik, berguna, dan dimengerti. KDD 2.1 Aplikasi text mining proses interaktif, bisa berulang, dan terdiri dari step Selection, Preprocessing, Transformation, Aplikasi text mining bisa di bagi berdasarkan Data Mining, dan Interpretation/Evaluation. tipe unstructured text yang di proses. Untuk Dalam sesi ini, proses dan kegiatan text mining ustructured text dalam bentuk emails, intant yang beragam akan saya coba assosiasikan messages, dan blogs, pada umumnya penguna dengan KDD step dan ulas secara singkat. ingin mencari atau “mine” informasi mengenai orang (seperti email pengirim, alamat, nama lengkap, dll), perusahaan (seperti nama lengkap 3.1 Selection dan lokasi), organisasi, dan kejadian-kejadian KDD Selection mencakup penseleksian data set (seperti penemuan baru, pengumuman penting, dan sample. Focus nya ada pada tipe discovery dll). Untuk berita dari berbagai sumber, text yang ingin di lakukan. Activitas text mining mining bisa di gunakan untuk membandingkan yang bisa masuk dalam phase ini termasuk berita yang sama atau berbeda yang berasal dari Information Retrieval, Categorization, dan sumber yang berbeda, mungkin dengan bahasa Clustering. Tujuan information retrieval adalah yang berbeda. Lebih jauh lagi adalah analisa dan untuk mengubah unstructured text menjadi organisasi isi berita berdasarkan waktu publikasi structured data atau format yang mudah untuk di (atau “temporal analysis”). Text mining juga proses lebih lanjut nantinya. Contonya, email bisa membantu untuk proses “deduplication” di body di proses secara automatic untuk sini. Untuk buku-buku dan artikel-artikel mendapatkan nama, email address, alamat, science, text mining di butuhkan untuk telephone, dan information yang relevan lainnya. mendeteksi trend di bidang riset tertentu. Salah Sudah banyak teknik information retrieval untuk satu cara yang bisa di lakukan adalah dengan berbagai domain. Freitag et. al. [6] mengadopsi memonitor jumlah publikasi untuk bidang riset wrapper teknik, dengan extraction dan engine tertentu untuk jangka waktu tertentu. Hasil-hasil rule, to perform information retreival untuk untuk bidang riset yang berbeda bisa di bagian tertentu di dalam unstructured text. Wrapper mempunyai kemampuan mesin 3 Kolokium bersama komunitas datamining Indonesia & soft-computing Indonesia, Sep’06 learning. Banyak teknik-teknik information Disambiguation adalah activitas untuk retrieval untuk web pages telah di propose oleh menentukan arti atau sense akan kata-kata yang beberapa ahli riset, seperti Eikvil [7] dan tidak jelas atau ambiguos. Kata ‘Cold’ adalah Cunningham [8]. contoh yang mudah. Cold bisa berarti suhu yang dingin, atau bisa juga berarti penyakit “flu” KDD Categorization memfocuskan pada proses tergantung akan kontex yang dibicarakan. peng-“assign”-an documen secara otomatis Disambiguation cocok sebagai “intermediate” terhadap koleksi class yang telah disiapkan step untuk selanjutnya di teruskan ke machine sebelumnya. Teknik categorization yang populer learning, information extraction, term clustering, untuk text mining adalah mengadopsi atau spelling correction. Dictionary atau training information retrieval atau machine learning. rule bisa digunakan sebagai solusi terhadap Sub-activitas text categorization mencakup disambiguation. Manning et.al. [23] content representation, seleksi fitur, extraksi memberikan survey akan riset pada fitur, dan pengunaan machine learning untuk disambiguation. adaptasi pengklasifikasian secara semi-otomatis. Sebagian dari peneliti di sub-activitas categorization termasuk [10, 11, 12, 13, 14, 15]. 3.3 Transformation Survey akan pengunaan machine learning untuk Tranformation step bertujuan untuk menemukan text categorization dapat di simak di Sebastiani fitur-fitur yang tersimpan di dalam data yang [9]. penting berdasarkan kebutuhan yang diperlukan. Proses ini juga bertujuan untuk mengurangi Tujuan Clustering adalah untuk memisahkan jumlah variabel dan data yang tidak terlalu di sekumpulan dokumen kedalam beberapa group perlukan. Disambiguation dan Term Clustering atau kluster dengan menilai kemiripan antar termasuk dalam kategori ini. Disambiguation dokumen dari segi kontent. Subactivitas telah di jelaskan sebelumnya. Sedangkan Term clustering termasuk representasi dokumen, Clustering adalah activitas untuk menciptakan penurunan dimensi, pengunaan cluster algorithm, model yang bisa digunakan untuk meng-index dan evaluasi. Riset di text clustering ini sudah dokumen pada tahap yang berbeda. Tehnik banyak dikerjakan, termasuk oleh [16, 17, 18, disini termasuk pembentukan thesaurus atau 19]. ontology secara otomatis dan mengunakan index semantic. Thesaurus atau ontology terdiri dari 3.2 Preprocessing konsep atau terminology dan relationship antar konsep. Riset awal di term clustering di mulai KDD Preprocessing memfocuskan pada data dari information retrieval. Teknik untuk cleaning & cleansing, termasuk menghilangkan document clustering sering kali di pakai untuk noise di data, atau mengadaptasi noise, dan term clustering [26 and 23]. mengatasi informasi yang hilang atau tidak komplit. Text mining activitas seperti POS (Part Saya sendiri melakukan riset di Automatic of Speech) Tagging dan Disambiguation bisa Ontology Integration. Tambah lengkap kosa- dimasukan dalam phase KDD preprocessing. kata dan relationship antar kata, tambah lebih POS Tagging bisa dikatakan sebagai aktivitas akurat hasil dari transformation activitas. yang tujuannya memberikan label pada setiap Idealnya kita memerlukan ontology selengkap kata dalam kalimat dan mengasosiasikan dengan mungkin. Tapi kadang ontology yang tersedia “speech” yang relevan. Tambah banyak tag sangat terbatas. Salah satu cara untuk dipakai untuk label, tambah complex dan rendah mendapatkan ontology yang lebih lengkap performance. Beberapa teknik POS Tagging adalah dengan mengabungkan ontology dari telah di kemukakan, termasuk Markov Models berbagai sumber untuk domain yang sama atau oleh [20], Hidden markov Models oleh [21], dan berhubungan. Contohnya, medical ontology. Transformation-based [22]. Manning et.al. [23] Medical ontology versi Inggris bisa di dapat survey memberikan ulasan luas aka POS dari MeSH (Medical Subject Heading), Tagging. SNOMED, UMLS, dan yang lainnya. Tantangan yang dihadapi disini adalah menyediakan mekanisme integrasi yang otomatis, atau 4
no reviews yet
Please Login to review.