147x Filetype PDF File size 0.65 MB Source: openlibrary.telkomuniversity.ac.id
ISSN : 2355-9365 e-Proceeding of Engineering : Vol.1, No.1 Desember 2014 | Page 755 PENGENALAN KARAKTER HURUF HANGUL KOREA MENGGUNAKAN RANDOM FOREST Abdullah Imaduddin Tjokorda Agung Budi W. ST., MT. abdimaduddin@gmail.com cokagung2001@gmail.com Abstrak Seiring berkembangnya teknologi informasi, rasa keingintahuan masyarakat terhadap budaya dan bahasa dari negara lain meningkat. Negara Korea adalah salah satu negara yang kebudayaannya sedang banyak diminati. Bahasa Korea ditulis menggunakan huruf hangul. Optical character recognition (OCR) adalah salah satu solusi untuk mempermudah dalam pengenalan karakter huruf hangul. Berbagai metode seperti ANN dan SVM umum digunakan pada OCR, namun keduanya memerlukan waktu training yang lama. Random Forest digunakan sebagai metode alternatif dalam pengenalan karakter huruf Hangul Korea pada Tugas Akhir ini. Random Forest dapat menerima berbagai jenis input data dan menghasilkan nilai akurasi yang bagus. Hasil pengujian random forest dengan 10-tree dengan esktraksi ciri projection based mampu mengklarifikasi silabel huruf hangul berdasarkan KS5602 hingga 99%. Kata Kunci : Optical Optical Character Recognition (OCR), pengenalan huruf Hangul, Random Forest, Projection Based Feature Extraction I. Pendahuluan bahasa lokal dengan baik. Salah satu negara Seiring dengan perkembangan yang menggunakan sistem penulisan yang teknologi dan informasi yang pesat berbeda adalah negara Korea. diseluruh penjuru dunia, rasa keingintahuan Negara Korea, terutama Korea masyarakat terhadap budaya dan bahasa dari Selatan, memiliki daya tarik yang kuat pada negara lainpun ikut meningkat. Banyak beberapa tahun terakhir. Korean Wave negara yang dalam penulisan huruf membuat masyarakat asing tertarik untuk bahasanya tidak menggunakan huruf mengenali budaya Korea lebih mendalam. romawi, melainkan menggunakan bentuk Pengetahuan budaya Korea Selatan dapat huruf lainnya. Adanya perbedaan penulisan ditemukan pada berbagai macam literatur, huruf ini mempersulit masyarakat luar termasuk tulisan-tulisan yang terdapat pada dalam proses pembelajaran budaya dan media Internet. Tidak terlepas keharusan bahasa negara tersebut. Agar masyarakat membaca literatur dalam bahasa Korea jika luar dapat mempelajari budaya negara yang masyarakat ingin mengenali budaya Korea memiliki sistem penulisan huruf yang secara lebih mendalam. Oleh karenanya, berbeda, maka masyarakat terpaksa masyarakat asing tentunya diharuskan memiliki dan memahami pengetahuan tata memiliki kemampuan untuk dapat membaca dan memahami literatur yang tertulis dalam ISSN : 2355-9365 e-Proceeding of Engineering : Vol.1, No.1 Desember 2014 | Page 756 hangul guna mempelajari budaya Korea gambar mengalami perubahan yang tajam Selatan secara lebih mendalam. biasanya diatur dalam satu set segmen garis Google Translate adalah sebuah alat melengkung disebut tepi. Masalah yang bantu yang dapat mengartikan tulisan hangul sama untuk menemukan diskontinuitas pada Korea yang tertulis dalam media elektronik sinyal 1D dikenal sebagai deteksi langkah dan kedalam bahasa lain, seperti bahasa masalah menemukan diskontinuitas sinyal Indonesia ataupun bahasa Inggris. Kendala dari waktu ke waktu dikenal sebagai deteksi yang dihadapi adalah ketika suatu literatur perubahan. Deteksi tepi adalah alat yang ingin dibaca tidaklah tertulis pada media fundamental dalam pengolahan citra, visi elektronik, melainkan pada media cetak, mesin dan visi komputer, khususnya di seperti buku, surat kabar, dan majalah. bidang fitur deteksi dan ekstraksi fitur[11]. Pengenalan Karakter Optik atau Metode Edge Detection yang paling lebih dikenal dengan Optical Character kuat yang sering digunakan adalah metode Recognition (OCR) merupakan sebuah Canny. Metode Canny berbeda dari metode solusi yang dapat digunakan dalam pendeteksian tepi lain karena menggunakan mengenali karakter huruf dari sebuah dua ambang batas yang berbeda (untuk gambar yang kemudian dikeluarkan kembali mendeteksi tepi kuat dan lemah). Metode dalam bentuk teks[2]. Banyak penelitian Canny memiliki sebuah treshold yang OCR yang sudah dilakukan dalam memisahkan antara garis tepi lemah dan pengenalan huruf Hangul, yang kemudian garis tepi kuat. Setelah garis tepi kuat dan diterapkan menjadi sebuah aplikasi. Tingkat garis tepi lemah terdeteksi, metode akan pengenalan rata-rata pada berbagai menelusuri ulang garis-garis yang terdeteksi penelitian terkait sudah sangat tinggi. Meski dengan ambang batas lemah. Jika garis demikian, masih terdapat kesalahan yang tersebut terhubung dengan garis yang ditemui dalam pengenalan huruf Hangul terdeteksi dengan ambang batas kuat, maka Korea. Kesalahan pengenalan pada garis-garis lemah tersebut akan dimasukkan umumnya disebabkan oleh banyaknya kedalam output akhir. Oleh karena itu, susunan kombinasi huruf Hangul yang metode ini lebih rentan terhadap noise tersedia yang mengakibatkan sulitnya proses dibandingkan dengan metode Edge segmentasi huruf. Jumlah suku kata yang Detection yang lain, dan lebih mungkin dapat dibentuk dari kombinasi huruf hangul untuk mendeteksi tepi lemah dengan benar. mencapai 11172 karakter, namun hanya 2350 suku kata yang digunakan pada B. Reverse Edge Detection penulisan sehari-hari[7]. Metode yang Metode reverse edge detection, pada umum digunakan pada pengenalan huruf dasarnya memiliki alur proses yang sama hangul adalah metode template dengan metode edge detection. Tujuan matching[2][8]. penggunaan metode ini adalah untuk mengurangi noise yang terdapat pada II. Dasar teori gambar. Salt & pepper adalah salah satu A. Edge Detection jenis noise yang biasa ditemukan pada suatu Deteksi tepi adalah nama untuk satu gambar. Posisi pixel-pixel noise tersebut set metode matematika yang bertujuan untuk tersebar pada seluruh permukaan gambar. mengidentifikasi titik-titik dalam gambar Pada reverse edge detection, digital di mana kecerahan gambar perubahan program akan mendeteksi nilai pixel hitam tajam atau, dalam kata lain, memiliki mulai dari kiri atas sampai kanan bawah. diskontinuitas. Titik-titik di mana kecerahan Ketika ditemukan pixel berwarna hitam, ISSN : 2355-9365 e-Proceeding of Engineering : Vol.1, No.1 Desember 2014 | Page 757 maka akan dilakukan pengecekan terhadap dibangun menggunakan proses pelatihan data pixel-pixel tetangganya. Jika ditemukan pada setiap node. Algoritma learning pada decision tree akan memilih salah satu atribut adanya pixel hitam yang berketetanggaan, dari dataset yang telah memenuhi kriteria maka pixel tersebut tetap dimasukkan tertentu. Node turunan akan dibuat dengan kedalam gambar akhir. Namun, ketika tidak memecah sampel data training yang telah ada berdasarkan nilai atribut yang telah ditemukan pixel hitam yang ditentukan. Proses ini akan terus berulang berketetanggaan, maka pixel tersebut akan sampai suatu kondisi terpenuhi, atau dieliminasi dari gambar akhir. sebanyak jumlah yang sudah ditentukan, misal sebanyak x kali atau sebanyak jumlah data sampel yang tersedia[3]. C. Projection Based Feature Extraction Pada decision tree klasifikasi dilakukan Projection histograms diperkenalkan dengan menelusuri node mulai dari root pada tahun 1956 oleh Glauberman dalam sampai ke node-leaf, sesuai dengan kondisi atribut pada tiap node. Selain untuk klasifikasi, sistem hardware OCR. Metode ini bekerja decision tree juga memiliki varian untuk dengan melakukan perhitungan sederhana memecahkan masalah regresi, yang biasa terhadap pixel-pixel hitam yang berada pada disebut Regression Tree. suatu baris. Baris yang digunakan dapat E. Random Forest berupa horizontal ataupun vertical. Random forest adalah algoritma Belakangan ini, teknik ini banyak digunakan klasifikasi yang menggunakan ensemble untuk segmentasi baris, kata, dan learning. Random forest dikembangkan oleh karakter[10]. Leo Breiman dan Adele Cutler. Random forest didasarkan pada sebuah ide untuk Untuk setiap baris dan kolom pada membentuk suatu kumpulan dari decision gambar, akan dihitung jumlah pixel hitam tree dengan variansi yang dapat diatur[1]. yang terdapat pada baris dan kolom tersebut. Ensemble adalah pendekatan divide and conquer yang digunakan untuk Pada penelitian ini, peneliti akan meningkatkan kinerja. Prinsip utama di menyimpan data histogram gambar yang balik metode ensemble adalah bahwa berukuran 30x30 pixel dalam bentuk vektor kelompok “weak-learner” dapat dikumpulkan dan membentuk sebuah dengan ukuran 1x60. Dimana kolom 1-30 “strong-learner”. Runtimes Random Forest berisikan data jumlah pixel hitam untuk cukup cepat, dan mampu menangani data baris 1-30 dan kolom 31-60 berisikan data yang tidak seimbang dan tidak lengkap. jumlah pixel hitam untuk kolom 1-30. Kelemahan Random Forest pada regresi tidak dapat memprediksi nilai yang diluar jangkauan pada data training., dan memiliki kemungkinan melakukan over-fit pada data yang memiliki sangat banyak noise. D. Decision Tree Decision Tree atau Pohon Keputusan adalah Tidak seperti decision tree yang sebuah metode learning yang menggunakan cenderung sulit diimplementasikan pada struktur pohon (tree), dimana informasi data dengan variansi yang tinggi, random mengenai prediksi yang dilakukan tersimpan forest memberikan nilai rata-rata untuk pada setiap node-leaf tree. Pohon keputusan menemukan titik balance pada data-data ISSN : 2355-9365 e-Proceeding of Engineering : Vol.1, No.1 Desember 2014 | Page 758 tersebut. Random Forest tahan terhadap 1. Pengujian Akurasi Sistem Terhadap Data noise yang terdapat pada data. Latih Algoritma training untuk Random 2. Pengujian Akurasi Pengenalan Sistem Forest adalah dengan menggunakan Terhadap Data Uji dengan Noise Bootstrap Aggregating (Bagging). Proses 3. Pengujian Akurasi Pengenalan Sistem latih dilakukan dengan mengambil satu set Terhadap Data Uji dengan Font Asing data latih yang kemudian akan dimasukkan kedalam suatu tree. Pemilihan atribut dalam B. Hasil Pengujian Hasil dari pengujian skenario pertama setiap kali sebuah node akan dipecah diambil secara acak. Bagging melakukan adalah nilai akurasi dari masing-masing pemilihan sample berulang kali, dengan pengujian, yang dijelaskan pada Tabel 1 dan penggantian. Jumlah data latih yang Tabel 2 dibawah ini. diberikan pada setiap pohon akan berjumlah sama. Kolom data yang digunakan pada Tabel 1: Nilai Akurasi Berdasarkan suatu node akan ditentukan nilai treshold Pengujian Skenario I dengan 5-tree nya menggunakan gini index[5]. = 1 − � 2 =1 |�� | |�� | 1 ( ) 2 ( ) Uji Metode Dikenali Akurasi = �� + �� | | 1 | | 2 �� �� 1 - Vectorization 2219 94.43% 2 - Vectorization 2188 93.11% m adalah jumlah kelas, sedangkan 3 - Vectorization 2190 93.19% Pi adalah rasio jumlah data yang diberi label Projection kelas i dalam D. Gini index menghasilkan 4 - Based 2209 94.00% Projection binary split untuk setiap atribut. Perhitungan nilai Gini index binary split dimulai dengan 5 - Based 2211 94.09% Projection membagi data D menjadi 2 kelompok data D1 dan D2. Nilai Gini D dihitung dengan 6 - Based 2173 92.47% menjumlahkan nilai Gini setiap partisi yang Edge sudah diberi bobot. Untuk nilai Gini diskrit, 7 Detection Vectorization 2188 93.11% setiap subset nilai dari atribuat akan Edge dipertimbangkan untuk dijadikan nilai split 8 Detection Vectorization 2187 93.06% pada suatu label. Split yang menghasilkan Edge nilai Gini terkecil akan dipilih sebagai split 9 Detection Vectorization 2143 91.19% Edge Projection treshold sebuah node. 10 Detection Based 2204 93.79% Edge Projection 11 Detection Based 2208 93.96% III. Perancangan Sistem Edge Projection Detection Based A. Skenario Pengujian 12 2183 92.89% Reverse Pengujian penelitian ini dilakukan dengan Edge 7050 data latih dan 25850 data uji yang akan 13 Detection Vectorization 978 41.62% digunakan tergantung pada skenario Reverse pengujian. Pengujian sistem dibagi menjadi Edge 3 skenario yang kemudian akan 14 Detection Vectorization 383 16.30% direpresentasikan sesuai metode yang Reverse Edge digunakan pada pembentukan random forest Pengujian sistem dibagi menjadi 3 skenario, 15 Detection Vectorization 307 13.06% yaitu: 16 Reverse Projection 2164 92.09%
no reviews yet
Please Login to review.