1.

Bạn đang xem: Tesseract là gì

Giới thiệu về TESSERACT OCR

OCR – Optical Character Recognition trợ thì dịch là thừa nhận dạng kí từ quang quẻ học, nôm na hiểu thì đây là nghệ thuật góp nhấn dạng những cam kết tự trên một bức ảnh, về định nghĩa rõ ràng hơn thế thì những chúng ta có thể coi trên wiki:https://en.wikipedia.org/wiki/Optical_character_recognitionTESSERACT OCR là 1 trong thỏng viện open source dấn dạng chữ viết được cải tiến và phát triển vày google, nó hỗ trợ không ít nển tảng Mac,Windows,iOS,Android…Bài viết tiếp sau đây vẫn lí giải đầy đủ fan phương pháp intergrade tesseract vào trong game android studio project. Hiện tại thì trong apk sdk vẫn cung cấp api dìm dạng chữ viết, tuy nhiên số lượng ngữ điệu được hỗ trợ rất hiếm, đa số là những ngôn từ có bắt đầu latinch, ví như Anh, Pháp,Ý… Vậy so với các ngôn từ nlỗi giờ Việt, tiếng Nhật, giờ đồng hồ Trung thì sao. Câu trả lời là TESSERACT OCR để giúp bọn họ thực hiện điều đó.tesseract-android-tools là repo bằng lòng của thử viện này, mặc dù để thực hiện được nó, thì họ bắt buộc từ bỏ build lại thỏng viện qua 1 loạt commvà, nói chung là phức hợp.Ttốt vào kia ta rất có thể sử dụng một repo khác rmtheis/tess-two, repo này fork từ bỏ tesseract-android-tools, tuy vậy tác giả vẫn thêm một số trong những tiện ích vào đó, và câu hỏi intergrade vào android studio project cũng trọn vẹn dễ dàng và đơn giản.

Đang xem: Tesseract ocr là gì

Vậy giờ bọn họ đã thao tác với rmtheis/tess-two.

2.

Xem thêm: Nghĩa Của Từ Manipulate Là Gì ? Nghĩa Của Từ Manipulate Trong Tiếng Việt

Sử dụng rmtheis/tess-two

Step 1. Tạo apk project, ví dụ là tesseractdemoStep 2: thêm dependency của vào tệp tin build.gradle trong thư mục appVào rmtheis/tess-two, copy đoạn mã sau compile “com.rmtheis:tess-two:6.3.0” từ bây giờ file build.gradle đang vào hệt như sau:

*

Vào Build-> Make Project, giả dụ không tồn tại lỗi thì câu hỏi intergrade thư viện vào project vẫn thành công xuất sắc.Step 3: Download trainned data – hoàn toàn có thể gọi là tập dữ liệu này đã có được “học”, mỗi ngôn từ gồm một tài liệu tệp tin học tập riêng biệt.Vào rmtheis/tess-two, tìm về địa điểm trained data file , đây là chỗ chứa tất cả những tập dữ liệu đã có học tương ứng cùng với các ngữ điệu. lấy ví dụ như giờ bạn có nhu cầu dìm dạng mang lại giờ đồng hồ việt,download file vie.traineddata .Step 4: Sử dụng api, tạo ra một tệp tin OcrManager.java

dataPath: *.traineddata có thể được lưu lại ở internal hoặc external storage, tuy vậy *.traineddata phải bên trong vào một tlỗi mục được lấy tên là tessdata , giá trị của dataPath sẽ đề nghị đường dẫn đến tlỗi mục phụ thân của thư mục tessdata. Giả sử đường truyền tuyệt vời nhất đến file *.traineddata là x/y/z/t/tessdata/.traineddata, khi đó quý hiếm của đối số dataPath đang là x/y/z/t/.Trong đoạn code trên tệp tin vie.traineddata được giữ ởgetExternalFilesDir(null)+”/tessdata/”+”vie.traineddata”; khi ấy, quý giá nên truyền vào mang lại hàm init() là getExternalFilesDir(null).languageCode: thương hiệu của file *.traineddata , ví dụ vie.traineddata thì languageCode sẽ là vie , jpn.traineddata thì languageCode vẫn là jpn.Vậy là sẽ hiểu rõ đối số đề xuất truyền vào cho hàm init() là gì, vào onCreate của MainActivity thêm đoạn code sau:

OcrManager manager = new OcrManager(); manager.initAPI();Build lên lắp thêm thật, nếu vấn đề khsinh hoạt tạo ra thành công xuất sắc thì sẽ sở hữu đoạn log dưới

I/Tesseract(native): Initialized Tesseract API with language=vieTiếp theo nhằm nhấn dạng văn bản viết, ta chú ý mang lại hàm public String startRecognize(Bitmaps bitmap), vào hàm này ta sẽ Gọi setImage(bitmap) cho hình ảnh làm sao hy vọng nhận dạng, getUTF8Text(); vẫn trả về công dụng là các kí trường đoản cú được trao dạng,Toàn bộ quy trình trên được test trong video clip phái dưới:

Bài viết liên quan

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *