Thuật toán Knuth–Morris–Pratt

Thuật toán so khớp chuỗi Knuth–Morris–Pratt (hay thuật toán KMP) tìm kiếm sự xuất hiện của một "từ" W trong một "xâu văn bản" S bằng cách tiếp tục quá trình tìm kiếm khi không phù hợp, bản thần "từ" W cho ta đầy đủ thông tin để xác định vị trí bắt đầu của ký tự so sánh tiếp theo, do đó bỏ qua quá trình kiểm tra lại các ký tự đã so sánh trước đó.

Thuật toán được Donald Knuth, Vaughan Pratt và James H. Morris nghiên cứu độc lập năm 1977, nhưng họ công bố nó cùng nhau.

Thuật toán KMP[sửa | sửa mã nguồn]

Ví dụ cho thuật toán tìm kiếm[sửa | sửa mã nguồn]

Để minh họa chi tiết thuật toán, chúng ta sẽ tìm hiểu từng quá trình thực hiện của thuật toán. Ở mỗi thời điểm, thuật toán luôn được xác định bằng hai biến kiểu nguyên, m và i, được định nghĩa lần lượt là vị trí tương ứng trên S bắt đầu cho một phép so sánh với W, và chỉ số trên W xác định ký tự đang được so sánh. Khi bắt đầu, thuật toán được xác định như sau:

m: 0
S: ABC ABCDAB ABCDABCDABDE
W: ABCDABD
i: 0

Chúng ta tiến hành so sánh các ký tự của W tương ứng với các ký tự của S, di chuyển lần lượt sang các chữ cái tiếp theo nếu chúng giống nhau. S[0] và W[0] đều là ‘A’. Ta tăng i:

m: 0
S: ABC ABCDAB ABCDABCDABDE
W: ABCDABD
i: _1

S[1] và W[1] đều là ‘B’. Ta tiếp tục tăng i:

m: 0
S: ABC ABCDAB ABCDABCDABDE
W: ABCDABD
i: __2

S[2] và W[2] đều là ‘C’. Ta tăng i lên 3:

m: 0
S: ABC ABCDAB ABCDABCDABDE
W: ABCDABD
i: ___3

Nhưng, trong bước thứ tư, ta thấy S[3] là một khoảng trống trong khi W[3] = 'D', không phù hợp. Thay vì tiếp tục so sánh lại ở vị trí S[1], ta nhận thấy rằng không có ký tự 'A' xuất hiện trong khoảng từ vị trí 0 đến vị trí 3 trên xâu S ngoài trừ vị trí 0; do đó, nhờ vào quá trình so sánh các ký tự trước đó, chúng ta thấy rằng không có khả năng tìm thấy xâu dù có so sánh lại. Vì vậy, chúng ta di chuyển đến ký tự tiếp theo, gán m = 4 và i = 0.

m: ____4
S: ABC ABCDAB ABCDABCDABDE
W:   ABCDABD
i:   0

Tiếp tục quá trình so sánh như trên, ta xác định được xâu chung "ABCDAB", với W[6] (S[10]), ta lại thấy không phù hợp. Nhưng từ kết quả của quá trình so sánh trước, ta đã duyệt qua "AB", có khả năng sẽ là khởi đầu cho một đoạn xâu khớp, vì vậy ta bắt đầu so sanh từ vị trí này. Như chúng ta đã thấy các ký tự này đã trùng khớp với nhau ký tự trong phép so khớp trước, chúng ta không cần kiểm tra lại chúng một lần nữa; ta bắt đầu với m = 8, i = 2 và tiếp tục quá trình so khớp.

m: ________8
S: ABC ABCDAB ABCDABCDABDE
W:      ABCDABD
i:      __2

Quá trình so khớp ngay lập tức thất bại, nhưng trong W không xuất hiện ký tự ‘ ‘,vì vậy, ta tăng m lên 11, và gán i = 0.

m: ___________11
S: ABC ABCDAB ABCDABCDABDE
W:         ABCDABD
i:         0

Một lần nữa, hai xâu trùng khớp đoạn ký tự "ABCDAB" nhưng ở ký tự tiếp theo, 'C', không trùng với 'D' trong W. Giống như trước, ta gán m = 15, và gán i = 2, và tiếp tục so sánh.

m: _______________15
S: ABC ABCDAB ABCDABCDABDE
W:            ABCDABD
i:	      __2

Lần này, chúng ta đã tìm được khớp tương ứng với vị trí bắt đầu là S[15].

Thuật toán và mã giả của thuật toán tìm kiếm[sửa | sửa mã nguồn]

Bây giờ, chúng ta tìm hiểu về sự tồn tại của bảng "so khớp một phần"(partial match) T, được mô tả bên dưới, giúp ta xác định được vị trí tiếp theo để so khớp khi phép so khớp trước đã thất bại. Mảng T được tổ chức để nếu chúng ta có một phép so khớp bắt đầu từ S[m] thất bại khi so sánh S[m + i] với W[i], thì vị trí của phép so khớp tiếp theo có chỉ số là m + i - T[i] trong S (T[i] là đại lượng xác định số ô cần lùi khi có một phép so khớp thất bại). Mặc dù phép so khớp tiếp theo sẽ bắt đầu ở chỉ số m + i - T[i], giống như ví dụ ở trên, chúng ta không cần so sánh các ký tự T[i] sau nó, vì vậy chúng ta chỉ cần tiếp tục so sánh từ ký tự W[T[i]]. Ta có T[0] = -1, cho thấy rằng nếu W[0] không khớp, ta không phải lùi lại mà tiếp tục phép so sánh mới ở ký tự tiếp theo. Sau đây là đoạn mã giả mẫu của thuật toán tìm kiếm KMP.

algorithm kmp_search:
  input:
    mảng ký tự, S (đoạn văn bản)
    mảng ký tự, W (xâu đang tìm)
  output:
    một biến kiểu nguyên (vị trí (bắt đầu từ 0) trên S mà W được tìm thấy)

  define variables:
    biến nguyên, m ← 0 
    biến nguyên, i ← 0 
    mảng nguyên, T 

  while m + i nhỏ hơn độ dài của sâu S, do:
    if W[i] = S[m + i],
      let i ← i + 1
      if i bằng độ dài W,
        return m
    otherwise,
      if T[i] > -1,
        let i ← T[i], m ← m + i - T[i]
      else
        let i ← 0, m ← m + 1
      
  return độ dài của đoạn văn bản S

Độ phức tạp của thuật toán tìm kiếm[sửa | sửa mã nguồn]

Với sự xuất hiện của mảng T, phần tìm kiếm của thuật toán Knuth–Morris–Pratt có độ phức tạp O(k), trong đó k là độ dài của xâu S. Ngoại trừ các thủ tục nhập xuất hàm ban đầu, tất cả các phép toán đều được thực hiện trong vòng lặp while, chúng ta sẽ tính số câu lệnh được thực hiện trong vòng lặp; để làm được việc này ta cần phải tìm hiểu về bản chất của mảng T. Theo định nghĩa, mảng được tạo để: nếu một phép so khớp bắt đầu ở vị trí S[m] thất bại khi so sánh S[m + i] với W[i], thì phép so khớp có thể thành công tiếp theo sẽ bắt đầu ở vị trí S[m + (i - T[i])]. Cụ thể hơn, phép so khớp tiếp theo sẽ bắt đầu tại vị trí có chỉ số cao hơn m, vì vậy T[i] < i.

Từ điều này, chúng ta thấy rằng vòng lặp có thể thực hiện 2k lần. Với mỗi lần lặp, nó thực hiện một trong hai nhánh của vòng lặp. Nhánh thứ nhất tăng i và không thay đổi m, vì vậy chỉ số m + i của ký tự đang so sánh trên S tăng lên. Nhánh thứ hai cộng thêm i - T[i] vào m, và như chúng ta đã biết, đây luôn là số dương. Vì vậy, vị trí m, vị trí bắt đầu của một phép so khớp tiềm năng tăng lên. Vòng lặp dừng nếu m + i = k; vì vậy mỗi nhánh của vòng lặp có thể được sử dụng trong tối đa k lần, do chúng lần lượt tăng giá trị của m + i hoặc m, và m ≤ m + i: nếu m = k, thì m + i ≥ k, vì vậy: do các phép toán chủ yếu tăng theo đơn vị, chúng ta đã có m + i = k vào một thời điểm nào đó trước, và vì vậy thuật toán dừng.

Do đó vòng lặp chủ yếu thực hiện 2k lần, độ phức tạp tính toán của thuật toán tìm kiếm chỉ là O(k).

Bảng so sánh một phần ("Partial match")[sửa | sửa mã nguồn]

Mục đích của bảng là cho phép thuật toán so sánh mỗi ký tự của S không quá một lần. Sự quan sát chìa khóa về bản chất của phương pháp tìm kiếm tuyến tính cho phép điều này xảy ra là trong quá trình so sánh các đoạn của chuỗi chính với đoạn mở đầu của mẫu, chúng ta biết chính xác được những vị trí mà đoạn mẫu có thể xuất hiện trước vị trí hiện tại. Nói cách khác, chúng ta "tự tìm kiếm" đoạn mẫu trước và đưa ra một danh sách các vị trí trước đó mà bỏ qua tới các ký tự vô vọng mà vẫn không mất đi các đoạn tiềm năng.

Chúng ta muốn tìm kiếm, với mỗi vị trí trên W, độ dài của đoạn dài nhất giống với "đoạn bắt đầu" trên W tính đến (không bao gồm) vị trí đó, đây là khoảng cách chúng ta có thể lùi lại để tiếp tục so khớp. Do vậy T[i] là giá trị của độ dài đoạn dài nhất kết thúc bởi phần tử W[i - 1]. Chúng ta sử dụng quy ước rằng một chuỗi rỗng có độ dài là 0. Với trường hợp không trùng với mẫu ngay ở giá trị đầu tiên (không có khả năng lùi lại), ta gán T[0] = -1.

Ví dụ cho thuật toán xây dựng bảng[sửa | sửa mã nguồn]

Ta xét xâu W = "ABCDABD". Ta sẽ thấy thuật toán xây dựng bảng có nhiều nét tương đồng với thuật toán tìm kiếm chính. Ta gán T[0] = -1. Để tính T[1], ta cần tìm ra một xâu con "A" đồng thời cũng là xâu con bắt đầu của W. Vì vậy ta gán T[1] = 0. Tương tự, T[2] = 0 và T[3] = 0.

Ta xét đến ký tự W[4], 'A'. Dễ thấy ký tự này trùng với ký tự bắt đầu xâu W[0]. Nhưng do T[i] là độ dài xâu dài nhất trùng với xâu con bắt đầu trong W tính đến W[i – 1] nên T[4] = 0 và T[5] = 1. Tương tự, ký tự W[5] trùng với ký tự W[1] nên T[6] = 2.

Vì vậy ta có bảng sau:

`i`	0	1	2	3	4	5	6
`W[i]`	A	B	C	D	A	B	D
`T[i]`	-1	0	0	0	0	1	2

Một ví dụ khác phức tạp hơn

`i`	0	1	2	3	4	5	6	7	8	9	0	1	2	3	4	5	6	7	8	9	0	1	2	3
`W[i]`	P	A	R	T	I	C	I	P	A	T	E		I	N		P	A	R	A	C	H	U	T	E
`T[i]`	-1	0	0	0	0	0	0	0	1	2	0	0	0	0	0	0	1	2	3	0	0	0	0	0

Mã giả của thuật toán tạo bảng[sửa | sửa mã nguồn]

Ví dụ ở trên đã mô tả kỹ thuật tổng quát để tạo bảng.

Dưới đây là đoạn mã giả

algorithm kmp_table:
  input:
    mảng ký tự, W 
    mảng số nguyên, T 
  output:
    mảng T

  define variables:
    biến kiểu nguyên, pos ← 2 
    biến kiểu nguyên, cnd ← 0 
  let T[0] ← -1, T[1] ← 0 
  while pos nhỏ hơn độ dài của W, do:
    (trường hợp một: tiếp tục dãy con)
    if W[pos - 1] = W[cnd], 

     let T[pos] ← cnd + 1, pos ← pos + 1, cnd ← cnd + 1

    (trường hợp hai: không thỏa mãn, nhưng ta có thể quay ngược trở lại)
    otherwise, if cnd > 0, let cnd ← T[cnd]

    (trường hợp ba: hết phần tử. Chú ý rằng cnd = 0)
    otherwise, let T[pos] ← 0, pos ← pos + 1

Độ phức tạp của thuật toán tạo bảng[sửa | sửa mã nguồn]

Độ phức tạp của thuật toán tạo bảng là O(n), với n là độ dài của W. Ngoại trừ một số sắp xếp ban đầu, toàn bộ công việc được thực hiện trong vòng lặp while, độ phức tạp của toàn bộ vòng lặp là O(n), với việc cùng lúc xử lý giá trị của pos và pos - cnd. Trong trường hợp thứ nhất, pos - cnd không thay đổi, khi cả pos và cnd cùng tăng lên một đơn vị. Ở trường hợp hai, cnd được thay thế bởi T[cnd], như chúng ta đã biết ở trên, luôn luôn nhỏ hơn cnd, do đó tăng giá trị của pos - cnd. Trong trường hợp thứ ba, pos tăng và cnd thì không, nên cả giá trị của pos và pos - cnd đều tăng. Mà pos ≥ pos - cnd, điều này có nghĩa là ở mỗi bước hoặc pos hoặc chặn dưới pos đều tăng; mà thuật toán kết thúc khi pos = n, nên nó phải kết thúc tối đa sau 2n vòng lặp, do pos - cnd bắt đầu với giá trị 1. Vì vậy độ phức tạp của thuật toán xây dựng bảng là O(n).

Độ phức tạp của thuật toán KMP[sửa | sửa mã nguồn]

Độ phức tạp của thuật toán là O(n)

Như đã thấy trong ví dụ ở trên, thuật toán mạnh hơn các thuật toán so khớp chuỗi kém hơn vì nó có thể bỏ qua các ký tự đã duyệt. Ít ô phải quay trở lại hơn, thuật toán sẽ nhanh hơn, và được thể hiện trong bảng T bởi sự hiện diện của các số không. Một từ như "ABCDEFG" sẽ làm tốt với thuật toán này vì nó không có sự lặp lại của những chữ bắt đầu, vì vậy mảng đơn giản chỉ toàn số không với -1 ở đầu. Ngược lại, với từ W = "AAAAAAA" nó hoạt động tồi tệ, bởi vì bảng sẽ là

`i`	0	1	2	3	4	5	6
`W[i]`	A	A	A	A	A	A	A
`T[i]`	-1	0	1	2	3	4	5

Đây là mẫu xấu nhất cho mảng T, và nó có thể dùng để so sánh với đoạn như S = "AAAAAABAAAAAABAAAAAAA", trong trường hợp này thuật toán sẽ cố gắng ghép tất cả các chữ 'A' với 'B' trước khi dừng lại; kết quả là số lượng tối đa câu lệnh được sử dụng, tiến tới trên hai lần số ký tự của xâu S khi số lần lặp của "AAAAAAB" tăng. Mặc dù quá trình xây dựng bảng rất nhanh so với chữ này (nhưng vô tác dụng), quá trình này chạy có một lần với chữ W, trong khi quá trình tìm kiếm chạy rất nhiều lần. Nếu với mỗi lần, từ W được dùng để tìm trên xâu như xâu S, độ phức tạp tổng thể sẽ rất lớn. Bằng cách so sánh, sự kết hợp này là trường hợp tốt nhất với thuật toán so khớp chuỗi Boyer-Moore.

Lưu ý rằng trong thực tế, thuật toán KMP làm việc không tốt đối với tìm kiếm trong văn bản ngôn ngữ tự nhiên, bởi vì nó chỉ có thể bỏ qua các ký tự khi phần đầu của từ giống với một phần trong văn bản. Trong thực tế điều này chỉ đôi khi xảy ra trong các văn bản ngôn ngữ tự nhiên. Ví dụ, hãy xem xét bao nhiêu lần một xâu "text" xuất hiện trong đoạn văn này.

Tham khảo[sửa | sửa mã nguồn]

Liên kết ngoài[sửa | sửa mã nguồn]

An explanation of the algorithm and sample C++ code by David Eppstein
Knuth-Morris-Pratt algorithm description and C code by Christian Charras and Thierry Lecroq
Interactive animation for Knuth-Morris-Pratt algorithm Lưu trữ 2009-03-10 tại Wayback Machine by Mike Goodrich
Explanation of the algorithm from scratch Lưu trữ 2020-01-21 tại Wayback Machine by FH Flensburg.

Chú thích[sửa | sửa mã nguồn]

Donald Knuth (1977). James H. Morris, Jr, Vaughan Pratt. “Fast pattern matching in strings”. SIAM Journal on Computing. 6 (2): 323–350. doi:10.1137/0206024.

Thomas H. Cormen (2001). “Section 32.4: The Knuth-Morris-Pratt algorithm”. Introduction to Algorithms. Charles E. Leiserson, Ronald L. Rivest, Clifford Stein . MIT Press and McGraw-Hill. tr. 923–931. ISBN 978-0-262-03293-3.