OCR (optical character recognition)
OCR (nhận dạng ký tự quang học) là gì?
OCR là việc sử dụng công nghệ để phân biệt các ký tự văn bản được in hoặc viết tay bên trong hình ảnh kỹ thuật số của tài liệu vật lý, chẳng hạn như tài liệu giấy được quét. Quá trình cơ bản của OCR bao gồm việc kiểm tra văn bản của tài liệu và dịch các ký tự thành mã có thể được sử dụng để xử lý dữ liệu. OCR đôi khi còn được gọi là nhận dạng văn bản.
Hệ thống OCR được tạo thành từ sự kết hợp giữa phần cứng và phần mềm được sử dụng để chuyển đổi tài liệu vật lý thành văn bản có thể đọc được bằng máy. Phần cứng, chẳng hạn như máy quét quang học hoặc bảng mạch chuyên dụng, được dùng để sao chép hoặc đọc văn bản trong khi phần mềm thường xử lý quy trình xử lý nâng cao. Phần mềm cũng có thể tận dụng trí tuệ nhân tạo (AI) để triển khai các phương pháp nhận dạng ký tự thông minh (ICR) tiên tiến hơn, như xác định ngôn ngữ hoặc kiểu chữ viết tay.
Quy trình OCR được sử dụng phổ biến nhất để biến các tài liệu lịch sử hoặc pháp lý bản cứng thành PDF. Sau khi được đưa vào bản sao mềm này, người dùng có thể chỉnh sửa, định dạng và tìm kiếm tài liệu như thể tài liệu được tạo bằng trình xử lý văn bản.
Cách nhận dạng ký tự quang học hoạt động
Bước đầu tiên của OCR là sử dụng máy quét để xử lý dạng vật lý của tài liệu. Sau khi tất cả các trang được sao chép, phần mềm OCR sẽ chuyển đổi tài liệu thành phiên bản hai màu hoặc đen trắng. Hình ảnh quét hoặc bitmap được phân tích các vùng sáng và tối, trong đó vùng tối được xác định là ký tự cần được nhận dạng và vùng sáng được xác định là nền.
Các vùng tối sau đó được xử lý thêm để tìm các chữ cái hoặc chữ số. Các chương trình OCR có thể khác nhau về kỹ thuật nhưng thường liên quan đến việc nhắm mục tiêu một ký tự, từ hoặc khối văn bản tại một thời điểm. Các ký tự sau đó được xác định bằng một trong hai thuật toán
- Nhận dạng mẫu. Các chương trình OCR được cung cấp các ví dụ về văn bản ở nhiều phông chữ và định dạng khác nhau, sau đó dùng để so sánh và nhận dạng các ký tự trong tài liệu được quét.
- Phát hiện tính năng. Các chương trình OCR áp dụng các quy tắc liên quan đến đặc điểm của một chữ cái hoặc số cụ thể để nhận dạng các ký tự trong tài liệu được quét. Các đặc điểm có thể bao gồm số lượng đường góc, đường chéo hoặc đường cong trong một ký tự để so sánh. Ví dụ: chữ in hoa “A” có thể được lưu dưới dạng hai đường chéo gặp nhau với một đường ngang ở giữa.
Khi một ký tự được xác định, ký tự đó sẽ được chuyển đổi thành mã ASCII mà hệ thống máy tính có thể sử dụng để xử lý các thao tác tiếp theo. Người dùng nên sửa các lỗi cơ bản, hiệu đính và đảm bảo xử lý đúng cách các bố cục phức tạp trước khi lưu tài liệu để sử dụng sau này.
Các trường hợp sử dụng nhận dạng ký tự quang học
OCR có thể được sử dụng cho nhiều ứng dụng khác nhau, bao gồm những ứng dụng sau:
- Quét tài liệu đã in thành các phiên bản có thể chỉnh sửa bằng trình xử lý văn bản, như Microsoft Word hoặc Google Docs.
- Lập chỉ mục tài liệu in cho công cụ tìm kiếm.
- Tự động nhập, trích xuất và xử lý dữ liệu.
- Giải mã tài liệu thành văn bản có thể đọc to cho người dùng khiếm thị hoặc mù.
- Lưu trữ thông tin lịch sử, chẳng hạn như báo, tạp chí hoặc danh bạ, ở dạng có thể tìm kiếm được.
- Gửi séc điện tử mà không cần giao dịch viên ngân hàng.
- Đưa các văn bản pháp luật quan trọng đã được ký vào cơ sở dữ liệu điện tử.
- Nhận dạng văn bản, chẳng hạn như biển số xe, bằng máy ảnh hoặc phần mềm.
- Sắp xếp thư để gửi thư.
- Dịch các từ trong hình ảnh sang một ngôn ngữ cụ thể.
Lợi ích của việc nhận dạng ký tự quang học
Những ưu điểm chính của công nghệ OCR như sau:
- Tiết kiệm thời gian;
- Giảm lỗi;
- Giảm thiểu nỗ lực;
- Và cho phép thực hiện các hành động không thể thực hiện được bằng bản sao vật lý, chẳng hạn như nén vào tệp ZIP, đánh dấu từ khóa, kết hợp vào trang web và đính kèm vào email.
Trong khi việc chụp ảnh tài liệu cho phép chúng được lưu trữ kỹ thuật số, OCR cung cấp chức năng bổ sung để có thể chỉnh sửa và tìm kiếm các tài liệu đó.