Cây hậu tố

Bách khoa toàn thư mở Wikipedia
Cây hậu tố cho xâu BANANA. Mỗi xâu con được kết thúc bởi ký tự đặc biệt $. Sáu đường từ gốc đến lá (ký hiệu bởi ô vuông) tương ứng với sáu hậu tố A$, NA$, ANA$, NANA$, ANANA$BANANA$. Các số trên lá là vị trí bắt đầu của hậu tố. Các liên kết hậu tố được vẽ bằng đường đứt nét.

Trong khoa học máy tính, một cây hậu tố là một cấu trúc dữ liệu để biểu diễn các hậu tố của một xâu ký tự sao cho có thể thực hiện nhanh chóng nhiều thao tác trên xâu.

Cây hậu tố của xâu là một cây có cạnh được gắn nhãn là các xâu ký tự và mỗi hậu tố của tương ứng với chuỗi thu được bằng cách ghép tất cả các nhãn của một đường từ gốc đến lá. Do đó nó là cây cơ số (cụ thể hơn, nó là cây Patricia) của các hậu tố của .

Việc xây dựng cây hậu tố của xâu sử dụng thời gian và bộ nhớ tuyến tính với độ dài của . Sau khi đã xây dựng xong cây, có thể thực hiện nhanh chóng nhiều thao tác, chẳng hạn như tìm xâu con trong , tìm xâu con với một số lượng lỗi cố định, tìm biểu thức chính quy v.v... Cây hậu tố cũng là một trong những lời giải tuyến tính đầu tiên của bài toán tìm xâu con chung dài nhất. Tuy làm tăng tốc độ các thao tác nhưng việc lưu trữ cây hậu tố thường đòi hỏi nhiều bộ nhớ hơn chỉ lưu trữ xâu ký tự.

Lịch sử[sửa | sửa mã nguồn]

Khái niệm này được đưa ra dưới tên gọi cây vị trí (position tree) bởi Weiner năm 1973,[1]Donald Knuth sau đó gọi là "Thuật toán của năm 1973". Thuật toán được đơn giản hóa bởi McCreight năm 1976 ,[2] và bởi Ukkonen năm 1995.[3][4] Ukkonen đưa ra thuật toán trực tuyến đầu tiên cho việc xây dựng cây hậu tố, nay gọi là thuật toán Ukkonen, với thời gian chạy nhanh ngang với thuật toán nhanh nhất khi đó. Các thuật toán này có thời gian chạy tuyến tính khi kích thước bảng chữ cái là hằng số, và có thời gian chạy xấu nhất là trong trường hợp tổng quát.

Năm 1997, Martin Farach[5] đưa ra thuật toán xây dựng cây hậu tố đầu tiên chạy trong thời gian tuyến tính cho mọi bảng chữ cái. Cụ thể hơn, đây là thuật toán thời gian tuyến tính đầu tiên cho xâu ký tự có bảng chữ cái kích thước đa thức. Thuật toán Farach nay đã trở thành thành phần cơ bản cho các thuật toán mới cho việc xây dựng cây hậu tố cũng như mảng hậu tố, trong bộ nhớ ngoài, nén, v.v...

Định nghĩa[sửa | sửa mã nguồn]

Cây hậu tố cho xâu độ dài là cây sao cho ([6] trang 90):

  • các đường từ gốc tới lá có tương ứng 1-1 với các hậu tố của ,
  • các cạnh đều có nhãn là các xâu khác rỗng,
  • mọi nút trong (ngoại trừ nút gốc) đều có ít nhất hai con.

Do cây thỏa mãn tính chất trên có thể không tồn tại, ta chèn thêm vào cuối một ký tự đặc biệt không xuất hiện trong (thường ký hiệu là $). Điều này đảm bảo không có hậu tố nào là tiền tố của một hậu tố khác, và có do đó cây có đúng nút lá, ứng với hậu tố của . Do mọi nút trong khác gốc đều có hơn một con, cây có không quá n −  1 nút như vậy, và tổng cộng không quá n + (n − 1) + 1 = 2n nút (n lá, n − 1 nút trong khác gốc, 1 gốc).

Liên kết hậu tố là một yếu tố quan trọng của các thuật toán đầu tiên nhưng các thuật toán về sau dựa trên thuật toán Farach không sử dụng chúng. Trong cây hậu tố đầy đủ, mọi nút trong đều có một liên kết hậu tố tới một nút trong khác. Nếu đường từ gốc tới một nút ứng với xâu , trong đó là một ký tự và là một xâu (có thể rỗng), thì nó có liên kết hậu tố tới nút có đường từ gốc tới nó ứng với xâu . Chẳng hạn trong ví dụ trên, liên kết hậu tố của ANA trỏ tới nút NA. Liên kết hậu tố cũng được sử dụng bởi nhiều thuật toán trên cây.

Cây hậu tố tổng quát[sửa | sửa mã nguồn]

Cây hậu tố tổng quát là cây hậu tố cho một tập hợp các xâu thay vì chỉ một xâu. Nó biểu diễn tất cả các hậu tố của tất cả các xâu trong tập hợp. Mỗi xâu phải dùng một ký tự kết thúc riêng biệt.

Chức năng[sửa | sửa mã nguồn]

Có thể xây dựng cây hậu tố cho xâu độ dài trong thời gian , nếu bảng chữ cái có kích thước đa thức (và do đó cũng đúng khi bảng chữ cái có kích thước hằng số).[5] Với bảng chữ cái lớn hơn, đa số thời gian chạy là cho việc sắp xếp các chữ cái để đưa chúng về kích thước ; trong trường hợp tổng quát, việc này tốn thời gian . Các kết quả dưới đây là cho trường hợp kích thước bảng chữ cái là hằng số.

Giả sử đã có cây hậu tố cho xâu độ dài , hoặc đã có cây hậu tố tổng quát cho tập hợp các xâu với tổng độ dài . Ta có thể:

  • Tìm kiếm xâu con:
    • Kiểm tra xem xâu độ dài có phải xâu con hay không trong thời gian ([6] trang 92).
    • Tìm lần xuất hiện đầu tiên của một trong các mẫu với tổng độ dài trong thời gian .
    • Tìm tất cả lần xuất hiện của các mẫu với tổng độ dài trong thời gian ([6] trang 123).
    • Tìm kiếm biểu thức chính quy P trong thời gian kì vọng dưới tuyến tính theo ([7]).
    • Tìm cho mọi hậu tố của mẫu , độ dài chuỗi giống nhau dài nhất giữa tiền tố của và các xâu con của trong thời gian ([6] trang 132).
  • Xác định tính chất của xâu:
    • Tìm xâu con chung dài nhất của xâu trong thời gian ([6] trang 125).
    • Tìm tất cả cặp tối đại trong thời gian ([6] trang 144).
    • Tìm mọi phân tích Lempel–Ziv trong thời gian ([6] trang 166).
    • Tìm xâu con lặp lại dài nhất trong thời gian .
    • Tìm xâu con lặp lại nhiều lần nhất với chiều dài ít nhất một số cho trước trong thời gian .
    • Tìm xâu ngắn nhất dùng bảng chữ cái mà không xuất hiện trong , trong thời gian , nếu có xâu như vậy.
    • Tìm xâu con ngắn nhất chỉ xuất hiện đúng một lần trong thời gian .
    • Tìm, với mỗi , xâu con ngắn nhất của không xuất hiện ở chỗ nào khác trong trong thời gian .

Có thể xây dựng một cấu trúc dữ liệu hỗ trợ cho cây hậu tố trong thời gian để tìm tổ tiên chung thấp nhất của các nút trong thời gian hằng số([6] chương 8). Khi đó có thể:

  • Tìm tiền tố chung dài nhất của hai hậu tố trong thời gian ([6] trang 196).
  • Tìm mẫu P độ dài m với không quá k lỗi sai trong thời gian , trong đó z là số lần xuất hiện ([6] trang 200).
  • Tìm tất cả xâu đối xứng tối đại trong ([6] trang 198), hoặc thời gian nếu cho phép bỏ qua ký tự, hoặc nếu cho phép lỗi sai ([6] trang 201).
  • Tìm tất cả xâu lặp lại hai lần liên tiếp nhau trong thời gian , và nếu cho phép k lỗi sai thì thời gian là ([6] trang 204).
  • Tìm xâu con chung dài nhất của ít nhất xâu trong với trong thời gian ([6] trang 205).
  • Tìm xâu con đối xứng dài nhất của một xâu cho trước (bằng cây hậu tố của xâu cho trước và xâu ngược lại) trong thời gian tuyến tính ([6] trang 197–199).

Ứng dụng[sửa | sửa mã nguồn]

Cây hậu tố được sử dụng rộng rãi để giải quyết các bài toán về xâu ký tự trong soạn thảo văn bản, tìm kiếm văn bản, tin sinh học, và nhiều lĩnh vực ứng dụng khác.[8] Các ứng dụng chính bao gồm:[8]

  • Tìm kiếm xâu ký tự, trong thời gian O(m), trong đó m là độ dài mẫu cần tìm (với thời gian O(n) để xây dựng cây hậu tố trước khi tìm)
  • Tìm kiếm xâu con lặp lại dài nhất
  • Tìm kiếm xâu con chung dài nhất
  • Tìm xâu con đối xứng dài nhất

Cây hậu tố thường được sử dụng trong các ứng dụng tin sinh học, tìm kiếm mẫu trong dãy DNA hoặc protein (có thể được xem là các xâu ký tự dài). Khả năng tìm kiếm cho phép có lỗi sai là một điểm mạnh của cấu trúc dữ liệu này. Cây hậu tố cũng được sử dụng trong nén dữ liệu; có thể dùng nó để tìm dữ liệu lặp lại cũng như trong giai đoạn sắp xếp của biến đổi Burrows–Wheeler. Một biến thể của thuật toán nén LZW sử dụng cây hậu tố (LZSS). Cây hậu tố được sử dụng trong phân nhóm cây hậu tố, một thuật toán phân nhóm dữ liệu dùng cho công cụ tìm kiếm (đưa ra đầu tiên bởi [9]).

Phương thức lập trình[sửa | sửa mã nguồn]

Nếu mỗi nút và cạnh có thể được biểu diễn trong bộ nhớ , thì có thể lưu trữ cả cây trong bộ nhớ . Tổng độ dài các xâu trên các cạnh của cây là , nhưng có thể lưu mỗi cạnh bằng vị trí bắt đầu và kết thúc của một xâu con của S, nên tổng bộ nhớ cần dùng là . Trường hợp xấu nhất của bộ nhớ cần dùng cho cây hậu tố là khi dữ liệu vào là một từ fibonacci, đòi hỏi nút.

Một lựa chọn quan trọng khi lập trình cây hậu tố là biểu diễn liên kết giữa nút cha và con trong cây. Cách đơn giản nhất là sử dụng danh sách liên kết gọi là danh sách chị em. Mỗi nút có một con trỏ trỏ tới nút con đầu tiên, và một con trỏ thứ hai trỏ tới nút kế tiếp trong danh sách chị em của nút đó. Cũng có thể sử dụng bảng băm, mảng đã sắp hoặc chưa sắp (sử dụng kĩ thuật gấp đôi mảng), hoặc cây nhị phân cân bằng. Mỗi lựa chọn cho một thời gian chạy khác nhau. Ta quan tâm tới:

  • Chi phí tìm cạnh tới nút con có nhãn bắt đầu bằng một ký tự cho trước.
  • Chi phí chèn thêm một nút con.
  • Chi phí duyệt tất cả các nút con (chia trung bình cho mỗi nút con).

Đặt là kích thước bảng chữ cái. Khi đó các chi phí là như sau:

Tìm kiếm Chèn Duyệt
Danh sách chị em / mảng chưa sắp
Bảng băm
Cây tìm kiếm cân bằng
Mảng đã sắp
Bảng băm + danh sách chị em

Ghi chú là chi phí chèn là chi phí trừ dần (do gấp đôi mảng) và chi phí của bảng băm là khi sử dụng băm hoàn hảo.

Lượng thông tin cần lưu cho mỗi cạnh và nút của cây hậu tố là rất tốn kém, tiêu tốn khoảng 10 đến 20 lần lượng bộ nhớ cần thiết để lưu xâu ký tự ban đầu. Mảng hậu tố giảm tỉ lệ này xuống còn 4 và các nhà nghiên cứu vẫn đang tìm cấu trúc dữ liệu mới để giảm tỉ lệ này xuống nhỏ hơn nữa.

Xây dựng trên bộ nhớ ngoài[sửa | sửa mã nguồn]

Bộ nhớ cây hậu tố đòi hỏi nhanh chóng vượt quá dung lượng bộ nhớ trong của máy tính thông thường khi độ dài các xâu đạt đến cỡ gigabyte. Khi đó, cần sử dụng các thuật toán cho bộ nhớ ngoài để xây dựng cây.

Có nhiều kết quả lý thuyết cho việc xây dựng cây hậu tố trong bộ nhớ ngoài. Thuật toán của Farach-Colton et al. [10] là tối ưu về mặt lý thuyết, với độ phức tạp I/O bằng với sắp xếp. Tuy nhiên, như đánh giá trong [11] thuật toán này là quá phức tạp nên vẫn chưa được sử dụng trong thực tế.

Mặt khác, đã có những nghiên cứu thực tế cho việc xây dựng cây hậu tố trên đĩa với tốc độ (một vài) GB/giờ. Các phương pháp tốt nhất hiện nay là TDD,[12] TRELLIS ,[13] DiGeST,[14] và B2ST .[15]

TDD và TRELLIS chạy được cho tới kích thước của bộ gen người – khoảng 3 GB – tạo ra cây hậu tố kích thước khoảng vài chục gigabyte.[12][13] Tuy nhiên các phương pháp này chưa thể chạy được cho các dữ liệu lớn hơn 3GB.[14] DiGeST chạy nhanh hơn hẳn trong trường hợp này và xử lý xong dữ liệu 6GB trong 6 giờ.[14] Có thể tìm mã nguồn và tài liệu của DiGeST ở [16] . Tất cả các phương pháp này là cho việc xây dựng cây hậu tố khi kích thước cây vượt quá kích thước bộ nhớ trong nhưng dữ liệu vào vẫn nằm ở bộ nhớ trong. Phương pháp mới nhất, B2ST,[15] có thể xử lý được dữ liệu vượt ngoài kích thước bộ nhớ trong. ERA[17] là một phương pháp xây dựng cây hậu tố song song mới nhanh hơn hẳn các phương pháp cũ. ERA có thể xử lý bộ gen người trong 19 phút trên một máy tính để bàn 8 nhân với 16GB RAM. Trên một cụm gồm 16 máy tính Linux (mỗi máy 4GB RAM), ERA có thể xử lý bộ gen người trong 9 phút.

Xem thêm[sửa | sửa mã nguồn]

Tham khảo[sửa | sửa mã nguồn]

  1. ^ P. Weiner (1973). “Linear pattern matching algorithm”. 14th Annual IEEE Symposium on Switching and Automata Theory. tr. 1–11. doi:10.1109/SWAT.1973.13.
  2. ^ Edward M. McCreight (1976). “A Space-Economical Suffix Tree Construction Algorithm”. Journal of the ACM. 23 (2): 262–272. doi:10.1145/321941.321946.
  3. ^ E. Ukkonen (1995). “On-line construction of suffix trees” (PDF). Algorithmica. 14 (3): 249–260. doi:10.1007/BF01206331.
  4. ^ R. Giegerich and S. Kurtz (1997). “From Ukkonen to McCreight and Weiner: A Unifying View of Linear-Time Suffix Tree Construction” (PDF). Algorithmica. 19 (3): 331–353. doi:10.1007/PL00009177. Bản gốc (PDF) lưu trữ ngày 15 tháng 2 năm 2010. Truy cập ngày 5 tháng 3 năm 2012.
  5. ^ a b M. Farach (1997). “Optimal Suffix Tree Construction with Large Alphabets” (PDF). FOCS: 137–143.
  6. ^ a b c d e f g h i j k l m n o Gusfield, Dan (1999) [1997]. Algorithms on Strings, Trees and Sequences: Computer Science and Computational Biology. USA: Cambridge University Press. ISBN 0-521-58519-8.
  7. ^ Ricardo A. Baeza-Yates and Gaston H. Gonnet (1996). “Fast text searching for regular expressions or automaton searching on tries”. Journal of the ACM. ACM Press. 43 (6): 915–936. doi:10.1145/235809.235810. Đã bỏ qua tham số không rõ |address= (gợi ý |location=) (trợ giúp)
  8. ^ a b Allison, L. “Suffix Trees”. Truy cập ngày 14 tháng 10 năm 2008.
  9. ^ Oren Zamir and Oren Etzioni (1998). “Web document clustering: a feasibility demonstration”. SIGIR '98: Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval. ACM. tr. 46–54. Đã bỏ qua tham số không rõ |address= (gợi ý |location=) (trợ giúp)
  10. ^ Martin Farach-Colton, Paolo Ferragina, S. Muthukrishnan (2000). “On the sorting-complexity of suffix tree construction”. Journal of the ACM. 47 (6): 987–1011. doi:10.1145/355541.355547.Quản lý CS1: nhiều tên: danh sách tác giả (liên kết)
  11. ^ Smyth, William (2003). Computing Patterns in Strings. Addison-Wesley.
  12. ^ a b Sandeep Tata, Richard A. Hankins, and Jignesh M. Patel (2003). “Practical Suffix Tree Construction”. VLDB '03: Proceedings of the 30th International Conference on Very Large Data Bases. Morgan Kaufmann. tr. 36–47. line feed character trong |book-title= tại ký tự số 62 (trợ giúp)Quản lý CS1: nhiều tên: danh sách tác giả (liên kết)
  13. ^ a b Benjarath Phoophakdee and Mohammed J. Zaki (2007). “Genome-scale disk-based suffix tree indexing”. SIGMOD '07: Proceedings of the ACM SIGMOD International Conference on Management of Data. ACM. tr. 833–844. Đã bỏ qua tham số không rõ |address= (gợi ý |location=) (trợ giúp); line feed character trong |book-title= tại ký tự số 56 (trợ giúp)
  14. ^ a b c Marina Barsky, Ulrike Stege, Alex Thomo, and Chris Upton (2008). “A new method for indexing genomes using on-disk suffix trees”. CIKM '08: Proceedings of the 17th ACM Conference on Information and Knowledge Management. ACM. tr. 649–658. Đã bỏ qua tham số không rõ |address= (gợi ý |location=) (trợ giúp); line feed character trong |book-title= tại ký tự số 52 (trợ giúp)Quản lý CS1: nhiều tên: danh sách tác giả (liên kết)
  15. ^ a b Marina Barsky, Ulrike Stege, Alex Thomo, and Chris Upton (2009). “Suffix trees for very large genomic sequences”. CIKM '09: Proceedings of the 18th ACM Conference on Information and Knowledge Management. ACM. Đã bỏ qua tham số không rõ |address= (gợi ý |location=) (trợ giúp); line feed character trong |book-title= tại ký tự số 52 (trợ giúp)Quản lý CS1: nhiều tên: danh sách tác giả (liên kết)
  16. ^ “The disk-based suffix tree for pattern search in sequenced genomes”. Truy cập ngày 15 tháng 10 năm 2009.[liên kết hỏng]
  17. ^ Essam Mansour & Amin Allam, Spiros Skiadopoulos, Panos Kalnis (2011). “ERA: Efficient Serial and Parallel Suffix Tree Construction for Very Long Strings” (PDF). PVLDB. 5 (1): 49–60. Truy cập ngày 4 tháng 11 năm 2011.Quản lý CS1: sử dụng tham số tác giả (liên kết)

Liên kết ngoài[sửa | sửa mã nguồn]