Citation
Omar, Khairuddin
(2000)
Pengecaman Tulisan Tangan Teksjawi Menggunakan Pengkelas Multiaras.
Doctoral thesis, Universiti Putra Malaysia.
Abstract
Pengecaman tulisan tangan teks Jawi adalah satu tugas yang sangat mencabar
di dalam bidang Pengecaman Aksara Optik (PAO) disebabkan Jawi adalah satu
tulisan jenis bersambung. Tesis ini mengenegahkan teknik untuk memperbaiki kadar
pengecaman teks Jawi tulisan tangan. Skema barn yang lebih cekap untuk
prapemprosesan, penemberengan, penyarian fitur dan pemonnalan aksara, dan
pengkelasan telah direka untuk memenuhi objektif tersebut. Dntuk prapemprosesan,
kaedah pembetulan pencongan dan erotan menggunakan kaedah histogram orientasi
cerunan (HOC) yang asalnya digunakan untuk dokumen Latin telah dimasukkan
sebagai satu daripada modul prapemprosesan. Satu skema barn untuk
penemberengan telah diperkenalkan. Ia berasaskan kepada gabungan kaedah unjuran
profail histogram dan penentuan titik tembereng ubah suai (PIT) membentuk
kaedah penentuan titik tembereng (PTT). Fitur-fitur disarikan daripada aksara yang
telah ditemberengkan menggunakan tiga jenis fitur. Fitur-fitur ini ialah struktur,
fitur Momen Tak-berubah (MTB) dan Taburan Pilrsel Hitam (TPH). Algoritma
penyingkiran bahagian sekunder aksara Jawi (seperti titik-titik, A" " dan maddah)
juga telah diperkenalkan supaya dapat mengelakkan daripada salah cam sekunder ini.Ia perlu dipisahkan terlebih dahulu sebelum melalui proses p'engecaman. Hal ini
dapat mengurangkan bilangan kelas aksara Jawi daripada 124 kepada 60. Sebanyak
200 sampel setiap kelas aksara Jawi telah diujikan untuk tujuan pengkelasan. Dua
aras sistem pengkelasan terdiri daripada Pengkelas Kumpulan berasaskan Ukuran
Keserupaan (PKUK) dan Pengkelas berganda Genetik-Perambat-balik (PGPB). Di
aras pertama, PKUK menggunakan fitur struktur dan MTB untuk mengelompokkan
kesemua aksara. Tujuh jenis primitif diperoleh menggunakan fitur struktur, dan
proses pengelompokan berdasarkan kepada jenis primitif ini. Fitur MTB digunakan
untuk mengirakan ukuran keserupaan dan kemudian menentukan kadar pengkelasan
untuk setiap kumpulan. Setelah kesemua sampel aksara telah dikelompokkan, PGPB
digunakan untuk mengkelaskan setiap aksara dalam kumpulan masing-masing dan
dilarikan secara berasingan. Kelas aksara yang terbanyak ialah 14 aksara. Di aras
kedua, PGPB dilaksanakan dalam dua peringkat iaitu peringkat pembelajaran, dan
peringkat ujian. Di peringkat pembelajaran, pengkelasan ini menggunakan fitur MTB
dan TPH, manakala di peringkat ujian pengkelas ini menggunakan maklumat
tambahan iaitu maklumat yang diperoleh ketika menyingkirkan juzuk sekunder, dan
di samping fitur MTB serta TPH. Pemecahan masalah ini kepada dua aras telah
mengurangkan masa pembelajaran yang diambil oleh pengkelas dan beIjaya
menambah kadar pengecaman. Tesis ini membicarakan secara terperinci setiap
algoritma dan prestasinya terhadap sampel yang digunakan didalam ujikaji.
Perbandingan juga dibuat terhadap kaedah pengawalan pemberat PB menggunakan
pendekatan Sifar, Rawak, serta Rawak Nguyen-Widrow, di samping pendekatan
ubah suai AG. Prestasi menggunakan AG (ubah suai) memberikan hasil pengkelasan
yang dijanjikan.
Download File
Additional Metadata
Actions (login required)
|
View Item |