Ilustrasi OCR
FreeImages
Pada era transformasi digital, kebutuhan akan ekstraksi data dan analisis yang efisien belum pernah lebih kritis. Teknologi Optical Character Recognition (OCR) adalah perubahan game-changer dalam hal ini, merevolusi cara kita memproses dan mengelola sejumlah besar data teks dalam gambar. Dalam panduan komprehensif ini, kita akan menjelajahi teknologi OCR, aplikasinya, dan bagaimana memanfaatkannya dengan cara yang paling efektif.
Apa Itu OCR?
Misalnya Anda sedang meneliti sejarah ilmu sihir dan memiliki buku agama abad ke-17 yang berisi 5.000 kata. Apa yang akan Anda lakukan?
Anda bisa membaca buku tersebut dan membuat catatan tentang referensi ilmu sihir, tetapi itu akan memakan waktu yang sangat lama. Sebuah pilihan yang lebih baik adalah menggunakan Optical Character Recognition, atau OCR, untuk mengubah buku fisik menjadi buku digital yang bisa Anda cari dengan sentuhan tombol.
Itu hanyalah salah satu contoh bagaimana teknologi menakjubkan ini digunakan untuk menerjemahkan konten ke dalam format yang dapat dimengerti oleh komputer dan bisa Anda ubah-ubah.
Pernahkah Anda bertanya-tanya bagaimana kantor pos dapat memecahkan tulisan Anda yang buruk tangan dan mengantar surat yang Anda kirim kepada orang yang tepat? Itu adalah OCR.
Teknologi ini memiliki banyak penggunaan, mulai dari menemukan faktur tertentu di antara ribuan tanpa harus menyortir tumpukan kertas hingga mengotomatisasi entri data dengan mengenali informasi pada faktur dan menyalinnya ke spreadsheet. Ini memungkinkan bisnis untuk membuat arsip pengetahuan yang sepenuhnya dapat dicari, menyederhanakan operasi dan meningkatkan efisiensi. Ini juga mengurangi kemungkinan kesalahan manusia.
Baru-baru ini, teknologi OCR digunakan untuk mengidentifikasi tanda-tanda jalan di mobil otonom — serta membaca nomor plat kendaraan oleh kamera pengumpulan tol.
Teknologi ini berasal dari awal abad ke-20, ketika Emanuel Goldberg mengembangkan mesin yang dapat membaca karakter cetak dan mengonversinya menjadi kode telegraf.
Dengan munculnya komputer digital pada tahun 1950-an dan 1960-an, teknologi OCR digunakan untuk mendigitalkan dan memproses materi cetak, seperti cek bank.
Yann LeCun, ilmuwan kecerdasan buatan utama di Meta dan kepala Facebook AI Research, pertama kali mengembangkan model AI … [..] bahwa dapat mengenali angka yang ditulis tangan – dasar bagi sistem OCR saat ini. (Foto oleh Kevin Dietech/Getty Images)
Getty Images
Terakhir, pada tahun 1980-an dan awal tahun 1990-an, peneliti AI Yann LeCun mengembangkan jaringan saraf konvulsional (CNN) yang bahkan dapat membaca teks tulisan tangan. Karyanya meletakkan dasar bagi banyak aplikasi AI modern, termasuk dalam OCR.
Bagaimana Cara Kerja OCR?
Langkah pertama dalam proses OCR adalah akuisisi gambar, di mana scanner menangkap teks dari dokumen fisik dan mengonversinya menjadi gambar hitam dan putih.
Langkah berikutnya adalah membersihkan gambar dengan menghapus noda gambar digital, kotak, dan garis serta melaraskan teks.
Program perangkat lunak OCR kemudian menganalisis gambar yang telah diproses dan mengidentifikasi karakter yang ada dalam teks. Ini dapat dilakukan menggunakan salah satu dari dua algoritma: pengenalan pola atau ekstraksi fitur.
Pengenalan pola bekerja dengan membandingkan gambar teks dalam dokumen yang discan, karakter demi karakter, dengan database karakter yang mungkin. Jika sistem mencocokkan teks kata demi kata, itu disebut pengenalan kata optik. Metode ini cocok untuk gambar yang discan dari dokumen yang diketik dalam font yang diketahui.
Ekstraksi fitur, di sisi lain, memecah karakter menjadi fitur-fitur seperti garis, lingkaran tertutup, dan perpotongan garis. Kemudian menggunakan fitur-fitur ini untuk menemukan padanan terbaik di antara karakter-karakter yang berbeda dalam database. Metode ini lebih maju dan dapat mengenali karakter dalam berbagai font dan gaya tulisan tangan.
Setelah mesin OCR mengidentifikasi karakter-karakter itu, ia mengonversi data menjadi file komputer yang dapat disharing, dicari, disunting, dan disalin. Beberapa sistem OCR dapat membuat file PDF yang dijelaskan yang mencakup versi asli dan setelah versi dokumen yang discan. Lainnya dapat menerjemahkan teks ke bahasa lain atau membacanya secara terbuka.
Ada beberapa cara untuk menyempurnakan output dari proses OCR. Misalnya, menggunakan kamus komputer untuk mengonversi kata-kata yang tidak jelas menjadi versi yang benar, teknik seperti fitur otomatis ejaan yang ada pada banyak perangkat.
Batasan-batasan OCR
Tentu saja, OCR tidak 100% akurat dan kesalahan bisa terjadi dalam proses ekstraksi teks. Hal-hal seperti kualitas gambar buruk, format yang kompleks, font yang mewah, dll. dapat memengaruhi akurasi. Elemen non-teks — seperti gambar, diagram, logo, tanda tangan dll. — dalam dokumen diabaikan oleh OCR jika mereka tidak berisi teks yang dapat diinterpretasi. Sementara itu, mengekstrak teks dari koleksi dokumen yang besar melalui OCR dapat menjadi memakan waktu dan mahal tanpa otomatisasi. Volume yang tinggi mungkin memerlukan manajemen alur kerja tambahan.
Jenis-jenis OCR Apa Saja?
Potongan dari OCR adalah Optical Mark Recognition, yang dapat mengidentifikasi logo, watermark, dan simbol lain dalam dokumen. Hal ini umum digunakan untuk membaca kotak centang atau mengisi balon dalam survei, tes, atau pemungutan suara
Intelligent Character Recognition adalah bentuk lanjutan dari OCR yang digunakan untuk mengenali dan mendigitalkan teks tulisan tangan. Ini sering menggunakan teknik pembelajaran mesin untuk meningkatkan akurasinya dari waktu ke waktu.
Optical Word Recognition berfokus pada mengenali kata-kata keseluruhan alih-alih karakter-karakter individual. Ini sangat berguna dalam mengenali jenis teks tertentu yang distilasi.
Intelligent Word Recognition mirip dengan ICR tetapi beroperasi pada tingkat kata, mengenali kata-kata tulisan tangan alih-alih karakter-karakter individual.
Aplikasi Potensial untuk OCR Apa Saja?
Teknologi ini telah membuka arsip global dan membawa naskah-naskah kuno yang sudah terlupakan dalam jangkauan siapa pun dengan perangkat terhubung internet. Lihatlah Google Books atau Project Gutenberg, misalnya.
Industri perbankan menggunakan OCR untuk memproses dokumen kredit, deposit cek, dan menangani transaksi keuangan lainnya. Rumah sakit menggunakan OCR untuk mengelola catatan pasien dan pembayaran asuransi. Perusahaan logistik menggunakan OCR untuk melacak label paket, faktur, dan struk.
Meski alat OCR berbayar menawarkan akurasi tertinggi dan kemampuan untuk menangani teks dalam jumlah besar, ada banyak alat OCR gratis yang tersedia di internet. Misalnya, Google Drive memiliki fitur OCR yang dapat Anda gunakan untuk mengonversi gambar menjadi teks. Jika Anda perlu menggunakan OCR secara berkala, ada juga layanan berbayar yang lebih akurat, seperti Adobe Acrobat Pro atau Nitro PDF Pro.
Bagaimana Keterkaitan OCR dengan Hari Ini?
Saat AI yang generatif melanda ekonomi, Large Language Models (LLMs) seperti ChatGPT membutuhkan lautan teks yang terdigitalisasi untuk pelatihan — model-model tersebut pada dasarnya ‘membaca’ teks tersebut, mempelajari hubungan antara kata-kata dan menyerap pengetahuan yang terkandung di dalamnya.
LLM awalnya dilatih terutama pada teks yang telah ada dalam format digital di internet. Tetapi teks digital dari proses OCR juga dapat digunakan untuk melatih LLM dan sistem kecerdasan buatan yang besar lainnya. Perusahaan yang membangun LLM khusus menggunakan OCR untuk mengonversi panduan teknis dan materi cetak lainnya menjadi teks terdigitalisasi untuk melatih atau menyempurnakan model-model mereka.
Kesimpulan
OCR telah menjadi teknologi yang tak tergantikan untuk mendigitalisasi, mengarsipkan, memproses, dan membagikan sejumlah besar informasi teks, memungkinkan otomatisasi entri data yang sebelumnya manual sambil juga membuka akses ke dokumen-dokumen sejarah yang diarsipkan dan memperkaya sistem AI yang semakin kuat.
Meski tidak ada teknologi yang sempurna, alat-alat OCR saat ini menawarkan efisiensi, penghematan biaya, dan kenyamanan baik untuk pemrosesan data bisnis dalam skala besar maupun kebutuhan pencatatan pribadi. Saat teknologi terus berkembang, OCR berjanji untuk lebih memecahkan batasan-batasan aksesibilitas dan merevolusi cara kita berinteraksi dengan sejumlah besar teks di sekeliling kita.