146x Filetype PDF File size 1.03 MB Source: upload.wikimedia.org
Laporan Perkembangan Proyek OCR Aksara Jawa Tahap II Oleh Aditya Wikan Mahastama Universitas Kristen Duta Wacana Yogyakarta 2018 Laporan Perkembangan Proyek OCR Aksara Jawa Tahap : II Pelaksana : Aditya Wikan Mahastama (Pak Mahas) Batas Waktu : 31 Oktober 2018 Penyerahan Laporan : 21 November 2018 (karena Pak Mahas ditugaskan ke Belanda) A. Perkembangan Proyek Tahapan proyek telah mencapai sebagian kemajuan seperti yang disyaratkan sebagai milestone Tahap II untuk pekerjaan pelaksana, meliputi: 1. Pemeliharaan Server Persiapan server Google Cloud untuk sementara ditunda karena hingga tahap ini belum membutuhkan uji server. 2. Pengembangan Perangkat Lunak Pada pertengahan bulan September 2018, mengikuti kondisi bahasa pemrograman yang digunakan oleh voluntir penelitian (Samuel dan Ofri) yang terkait dengan sistem operasi yang mereka gunakan, maka versi Python yang digunakan untuk pengembangan perangkat lunak disesuaikan menjadi Python 3.6, tercermin dari kode program yang mulai menggunakan awalan 3 (3kodexx.py) pada penyimpanan Google Drive. Kode program mengalami sejumlah penyesuaian agar dapat berjalan di Python 3.6. Kemajuan yang telah berhasil dicapai pada tahap ini adalah: Perbaikan segmentasi karakter. Segmentasi aksara Jawa telah mengalami penyempurnaan yang jauh pada tahap II ini, meliputi deteksi baris tiga pass untuk mendapatkan baris-baris aksara Jawa, dengan: 1. Pass pertama bertujuan mendapatkan baris-baris kasar teks menggunakan Projection Profile Cutting (PPC). 2. Pass ke dua uji statistik volume baris hasil pass pertama menggunakan kuartil setiap baris, di mana baris yang volumenya melebihi kuartil atas dianggap sebagai baris utama (baris di mana aksara nglegena berada) 3. Pass ke tiga adalah merging dan splitting di mana (1) baris-baris yang bukan merupakan baris utama dilihat posisinya (atas atau bawah) terhadap baris utama untuk disatukan dengan baris utama terdekat, dan (2) memisahkan “baris” hasil pass ke dua yang ternyata memiliki dua baris utama. Setelah deteksi baris selesai, dilanjutkan dengan deteksi karakter (aksara) pada setiap baris, dengan pendekatan PPC juga tetapi secara horisontal. Hasilnya berupa aksara-aksara terpisah yang masing-masing berupa aksara nglegena beserta sandhangan dan pasangannya. Dalam diskusi Tim Trawaca bersama Pak Biyanto, Ibu Raisha dan Ibu Apri (pakar Bahasa Jawa), sempat muncul pertanyaan apakah tidak akan terlalu banyak variasi yang harus dicocokkan untuk pengenalan jika setiap karakter memuat pasangan dan sandhangan, dalam penelitian tahun ini target kami adalah melihat apakah perlu breakdown lebih jauh menjadi segmentasi aksara nglegena, sandhangan dan pasangan, serta menyimpan relasinya. Contoh tahapan segmentasi dan hasil akhir segmentasi dapat dilihat pada Gambar 1 dan Gambar 2. Gambar 1. Proses segmentasi. Angka merah: Pass 1, Biru tua: Pass 2, Cyan: Pass 3, Coklat: Segmentasi horisontal Gambar 2. Hasil akhir segmentasi karakter hingga saat ini. Angka besar: Nomor baris (dimulai dari 0), angka kecil: nomor karakter pada baris (dimulai dari 0)
no reviews yet
Please Login to review.