Kinh nghiệm dịch thuật Hoa ngữ
Nhân khi rãnh rỗi tôi mạo phép chia sẻ các thành viên TLKĐ kinh nghiệm dịch thuật Hoa ngữ như một niềm vui để mọi người học tập loại ngoại ngữ này cũng như có thể dịch những tài liệu về cờ tướng nói riêng và các tài liệu khác bằng tiếng Hoa nói chung.
Dịch thuật online tiếng Hoa trở nên quen thuộc nhờ những công cụ như Google, Thiều Chửu... nhưng có những nhược điểm như sau:
1. Khi không có internet thì bó tay.
2. Khi trang chủ bị die thì cũng bó tay.
3. Không thể dịch được nếu không thể copy/paste text. Ví dụ text trong bộ SW cờ tướng, text trong file .CHM, .PDF., text trong một bức ảnh...
Những công cụ trong bài viết này sẽ hoạt động offline do đó người dùng có thể dịch thuật bất cứ khi nào miễn là có điện và có máy tính :). Một điều chú ý là người dịch phải có chút kinh nghiệm đối với loại ngoại ngữ mình cần dịch bởi vì kết quả dịch của máy tính thường không chính xác. Ngôn ngữ vốn phức tạp nhiều khi phải nhìn vào văn cảnh mà đoán nghĩa. Bài viết chỉ mang tính chất tham khảo xin các "tiền bối" (như bác Gà, bác Xuân, bác Phi Hương...) bỏ qua sai xót.
Xin đa tạ tất cả mọi người!
I. Từ điển tiếng Hoa (phồn thể + giản thể) offline:
Phổ biến nhất là Neodict. Tải về và giải nén từ điển theo đường dẫn sau:
https://dl.dropboxusercontent.com/u/...eoDict_0_6.rar
Trước tiên, người dùng cần cài đặt Python 2.5.2 cho máy tính bằng cách bấm đúp vào file Python 2.5.2. Tiếp đó người dùng phải cài thêm font unicode cho Python bằng cách bấm đúp vào file wxPython2.8. Bây giờ người dùng có thể khởi động từ điển từ file NeoDict (từ đây về sau, mỗi lần cần dịch người dùng chỉ việc bấm đúp vào file NeoDict để khởi động từ điển).
Giao diện chính của từ điển:
https://dl.dropbox.com/u/11290013/CH/Neodict.png
Cách dịch một đoạn văn tiếng Hoa:
1. Khởi động từ điển
2. Copy đoạn văn bản tiếng Hoa
3. Trở lại từ điển và bấm vào nút Get Clipboard hay bấm F1
---> Đoạn văn bản sẽ được dịch tự động.
Quan sát giao diện của từ điển ta thấy có 5 phần chính:
1. Phần tiếng Hoa gốc
2. Phần tiếng Hán Việt
3. Phần nghĩa của từ bằng tiếng Anh
4. Phần nghĩa của từ bằng tiếng Việt
5. Phần nghĩa của đoạn văn bằng tiếng Việt (gần đúng)
Chú ý: Ở phần tiếng Hán Việt, người dùng có thể click chuột vào một từ Hán Việt nào đó, từ đó sẽ được tự động bôi đỏ. Tương ứng với từ đó bên phần tiếng Hoa gốc cũng được bôi đỏ theo. Nghĩa của từ đó cũng được thể hiện ở phần nghĩa tiếng Việt, nghĩa tiếng Anh. Tính năng này khá hay.
II. Dịch tiếng Hoa từ hình ảnh, file .pdf...
Như đã nói ở trên, đối với tiếng Hoa được "nhúng" vào chương trình phần mềm hoặc tranh ảnh thì làm sao dịch được? Khi ấy chúng ta cần dùng công cụ để "rút" chữ tiếng Hoa ra để dịch. Có rất nhiều công cụ làm được việc này nhưng tôi chọn gImagereader với những lý do sau:
1. Chương trình tùy biến rất cao do phân chia ra 3 phần chính: Giao diện (GUI), Động cơ (Engine), Database (book). Với việc bổ sung database chương trình có thể "rút" bất kỳ ngôn ngữ nào ra khỏi tranh ảnh.
2. Độ chính xác tương đối
3. Hỗ trợ file PDF
4. Hỗ trợ rất nhiều từ điển (trong bài viết này tôi không dùng từ điển)
A. Cài đặt:
Tải và giải nén chương trình từ đây:
https://dl.dropboxusercontent.com/u/...ct/Extract.rar
- Trước tiên cài đặt giao diện (GUI) cho chương trình bằng cách bấm đúp vào file gimagereader_0.9-1_win32 và làm các bước theo yêu cầu.
- Tiếp theo người dùng cài đặt động cơ (Engine) cho chương trình bằng cách bấm đúp vào file tesseract-ocr-setup-3.02.02 và làm các bước theo yêu cầu.
- Tiếp theo copy/paste cơ sở dữ liệu tiếng Hoa giản thể chi_sim.traineddata vào thư mục C:\Program Files\Tesseract-OCR\tessdata
- Tiếp theo copy/paste cơ sở dữ liệu tiếng Hoa phồn thể chi_tra.traineddata vào thư mục C:\Program Files\Tesseract-OCR\tessdata
Đến đây chương trình có thể quét chữ Hoa giản thể và phồn thể từ tranh ảnh, file PDF... để dịch. Muốn "rút" được ngôn ngữ khác như tiếng Việt, tiếng Thái... người dùng chỉ việc bổ sung datatabase vào đường dẫn C:\Program Files (x86)\Tesseract-OCR\tessdata.
B. Sử dụng
Giả sử tôi dịch những câu tiếng Hoa trong BH GUI như hình dưới:
https://dl.dropbox.com/u/11290013/CH/BHGUI.png
Còn tiếp...
Kinh nghiệm dịch thuật Hoa ngữ (tt)
Như tên gọi của nó, gImagereader là software "trích chữ" từ file hình (và file PDF) do đó trước tiên ta phải có một file hình. Windows hoàn toàn support điều này thông qua chức năng chụp ảnh màn hình.
1. Chụp ảnh màn hình:
- Khởi động chương trình chúng ta cần chụp ảnh, ví dụ BH GUI.
- Nhấn phím Print Screen trên bàn phím
- Khởi động chương trình Paint của Windows bằng lệnh mspaint từ nút Start sau đó nhấn Enter:
https://dl.dropbox.com/u/11290013/CH/mspaint.png
- Khi chương trình Paint được khởi động, nhấn tổ hợp phím Ctrl+V để paste hình vào Paint
- Điều chỉnh kích thước file ảnh sao cho phù hợp vài Save file ảnh lại với định dạng thông dụng, ví dụ: .png hay .jpg. Trong ví dụ này tôi Save file ảnh với tên BHGUI theo định dạng .png.
2. Trích text từ file ảnh:
- Khởi động chương trình gImagereader đã cài đặt ở phần II.
- Bấm Open và trỏ tới đường dẫn của file ảnh rồi bấm nút Open để mở file hình:
https://dl.dropbox.com/u/11290013/CH/gImageReader.png
- Khi hình đã được mở, dùng chuột quét khối chữ trên hình sau đó bấm Recognize seletion. Kết quả chữ sẽ được trích xuất ở khung bên phải theo hình:
https://dl.dropbox.com/u/11290013/CH/KQ.png
- Từ khung bên phải, người dùng có thể copy/paste text để cho vào từ điển để dịch.
Tương tự với file PDF, người dùng chỉ cần Open file PDF, chọn text cần trích sau đó copy/paste vào từ điển. Để trích được ngôn ngữ non-latin khác, như tiếng Ả Rập, Thái, Hy Lạp, Hàn, Nhật..., người dùng chỉ cần cập nhật database sau đó làm tương tự.
Chúc thành công.