DjVu

Bách khoa toàn thư mở Wikipedia
DjVu
Phần mở rộng tên file.djvu, .djv
Kiểu phương tiệnimage/vnd.djvu
Phát triển bởiAT&T Research
Kiểu định dạngĐịnh dạng file ảnh
Hình định dạng DjVu quét từ sách Cuộc phiêu lưu của Alice vào xứ sở thần tiên

DjVu (phát âm như déjà vu trong tiếng Pháp[1]) là một định dạng file trên máy tính, được tạo ra chủ yếu để lưu trữ các ảnh được quét, đặc biệt là ảnh có chứa văn bản và các đường vẽ thẳng. Nó sử dụng các kĩ thuật như phân chia văn bản và ảnh nền trong các lớp ảnh, mã hoá số học (một phương thức nén không mất dữ liệu), nén mất dữ liệu với ảnh đen trắng. Nó cho phép lưu trữ các ảnh chất lượng cao, có thể đọc được mà chỉ chiếm dung lượng tối thiểu, do đó có thể sử dụng trên web.

DjVu hướng tới trở thành một định dạng để thay thế cho PDF, thực tế là hiệu quả hơn PDF trong hầu hết các tài liệu được quét.[2] Các nhà phát triển của DjVu đưa ra số liệu khi nén với chuẩn này một trang tạp chí màu mất 40–70KB, tài liệu kĩ thuật đen trắng khoảng 15–40KB, và các chữ viết tay cổ khoảng 100KB. Tất cả đều nhỏ hơn khá nhiều kích thước một ảnh JPEG xem được (thường khoảng 500KB).[3] Giống như PDF, DjVu có thể chứa một lớp văn bản đã được nhận dạng (OCR), giúp cho người dùng có thể sao chép và thực hiện các thao tác khác với văn bản một cách dễ dàng.

Lịch sử[sửa | sửa mã nguồn]

Công nghệ DjVu đầu tiên được Yann Le Cun, Léon Bottou, Patrick Haffner, và Paul G. Howard bắt đầu phát triển tại Phòng thí nghiệm AT&T năm 1996. DjVu là một định dạng file mở (các đặc tả đầy đủ về định dạng file, cũng như các mã nguồn của thư viện tham khảo được công bố rộng rãi). Quyền sở hữu về việc phát triển thương mại của DjVu được chuyển qua lại giữa AT&TLizardTech. Các tác giả ban đầu đưa ra giấy phép phát triển GPL mang tên "DjVuLibre Lưu trữ 2006-03-15 tại Wayback Machine".[4][5]

DjVu phân một ảnh ra thành nhiều ảnh khác nhau, sau đó nén riêng rẽ từng ảnh được phân chia. Để tạo một tập tin DjVu, ảnh ban đầu được phân ra thành 3 ảnh: ảnh nền, ảnh bề mặt và ảnh mặt nạ. Ảnh nền và ảnh bề mặt thường là ảnh màu có độ phân giải thấp (ví dụ 100dpi); ảnh mặt nạ là ảnh đen trắng có độ phân giải cao (ví dụ 300dpi) và thường là nơi chứa dữ liệu văn bản. Ảnh nền và ảnh bề mặt được nén bằng thuật toán nén theo kiểu wavelet có tên IW44. Ảnh mặt nạ được nén theo một phương thức có tên JB2 (tương tự như JBIG2).

Tham khảo[sửa | sửa mã nguồn]

  1. ^ “DjVu.org – the premier menu for djvu resources”. djvu.org. Truy cập ngày 2 tháng 7 năm 2017.
  2. ^ “What is DjVu – DjVu.org”. DjVu.org. Bản gốc lưu trữ ngày 21 tháng 1 năm 2019. Truy cập ngày 5 tháng 3 năm 2009.
  3. ^ Léon Bottou; Patrick Haffner; Paul G. Howard; Patrice Simard; Yoshua Bengio; Yann Le Cun (1998). “High Quality Document Image Compression with DjVu, 7(3):410–425” (PDF). Journal of Electronic Imaging.
  4. ^ “ISO 32000-1:2008 – Document management – Portable document format – Part 1: PDF 1.7”. Iso.org. 1 tháng 7 năm 2008. Truy cập ngày 21 tháng 2 năm 2010.
  5. ^ Orion, Egan (5 tháng 12 năm 2007). “PDF 1.7 is approved as ISO 32000”. The Inquirer. Incisive Media. Bản gốc lưu trữ ngày 13 tháng 12 năm 2007. Truy cập ngày 5 tháng 12 năm 2007.