Tôi xin góp ý với các bạn về vấn đề chuyển đổi hoặc nhân dạng văn bản.
-trước tiên chúng ta cần phân biệt rõ thế nào là văn bản(có định dạng text,doc,docx,rft....) và file hình(bản scan hoặc file hinh chụp từ máy KTS, cả 2 đều là file hinh, tuy có thể khác nhau về định dạng jpg, bitmap,tiff, png,raw....)
-File pdf thông thường có 2 loại
1)loại được tạo ra từ các file văn bản, chúng ta có thể copy chữ và hình thủ công rồi dán qua word, hoặc dùng phần mềm để convert qua word rồi chỉnh sửa.có rất nhiều phần mềm làm việc này từ có phí hoặc miễn phí, hoặc dạng portable, tuy nhiên với tiếng việt có dấu thì tỉ lệ đạt thấp, vì sẽ bị lỗi font, định dạng.....đòi hỏi chúng ta fải có 1 số kiến thức nhất định về nhiều lĩnh vực liên quan.
2) Loại được tạo ra từ các file hình ảnh(image) bao gồm file được quét vào bằng máy scanner và chụp từ máy ảnh KTS, cả 2 đều là 1.với loại này chúng ta cần phải có 1 phần mềm chuyên dụng để nhận dạng chữ từ những file hình ảnh.
như vậy khi đã fân biệt rõ ràng như vậy các bạn sẽ dễ dàng trong công việc của mình hơn.
-về loại file pdf làm từ văn bản, có rất nhiều fần mềm để convert sang word để chỉnh sửa nhưng đa số rất tốt với tiếng anh, nhưng với tiếng việt thì tỉ lệ lỗi rất cao, công sửa rất nặng, ví dụ như adobe reader,PDF zilla,PDF tiger, nitro.....,solid.....,able Extract v.v.....
-về nhận dạng chữ trong file pdf từ dạng scan hoặc hình chụp từ máy KTS cũng có rất nhiều phần mềm nhưng hầu như không hổ trợ tiếng tiếng việt hoặc rất ít, còn với tiếng tàu thì bó tay ngoài phần mềm COCR.2mà tôi đã giới thiệu,
nếu là tiếng việt thì các bạn nên dùng VNDOCR 4.0, các bạn tải về và nghiên cứu thử theo link sau:
Nhận dạng chữ.rar-28mb
nhan dang chu.rar dang chu.rar
HDSD VNDOCR 4.0-pdf-745kb
HDSD_VNDOCR_4.pdf
- ngaòi ra còn có 1 số trang web cho phép chúng ta chuyển đổi, trích xuất trực tuyến tuy nhiên cũng chưa hổ trợ tiếng việt bao nhiêu. xin góp chút ý kiến để các bạn cùng tham khảo nhằm cho công việc dịch thuật sách được lẹ làng hơn, chào thân ái