Bắt cặp trình tự

Bách khoa toàn thư mở Wikipedia

Sắp xếp thẳng hàng trình tự (tiếng Anh là sequence alignment) là phương pháp sắp xếp hai hoặc nhiều trình tự nhằm đạt được sự giống nhau tối đa. Các trình tự này có thể được xen bằng các khoảng trống (thường được diễn tả bằng các gạch nối ngang) tại các vị trí có thể để làm sao tạo thành các cột giống nhau (identical) hoặc tương tự nhau (similar).

tcctctgcctctgccatcat---caaccccaaagt
|||| ||| ||||| |||||  ||||||||||||
tcctgtgcatctgcaatcatgggcaaccccaaagt

Phương pháp này thường được dùng để nghiên cứu sự tiến hóa của các trình tự từ một tổ tiên chung, đặc biệt là các trình tự sinh học như trình tự protein hoặc trình tự DNA. Các bắt cặp không đúng trong trình tự tương ứng với các đột biến và các khoảng trống tương ứng với phần thêm vào hoặc xóa đi. Cũng có thể sử dụng sắp xếp thẳng hàng trình tự để nghiên cứu nhiều vấn đề khác như sự tiến hóa ngôn ngữ và độ tương đồng trong các văn bản.

Thuật ngữ "sắp xếp thẳng hàng trình tự" cũng chỉ quá trình tạo ra sự sắp xếp này hay tìm ra các cách sắp xếp tốt nhất trong cơ sở dữ liệu gồm các trình tự riêng biệt.

Sắp gióng cột đôi một (Pairwise alignment)[sửa | sửa mã nguồn]

Sắp gióng cột đôi một là phương pháp phục vụ cho việc tìm kiếm một trình tự sắp gióng cột toàn bộ hay (cục bộ) mà trùng khớp nhất của các chuỗi protein (amino acid) hay DNA (nucleic acid).

Thông thường, mục đích của nó là tìm ra (mối quan hệ) đồng đẳng của một gene hay một sản phẩm-gên trong một cơ sở dữ liệu các thông tin mẫu đã có sẵn. Thông tin này là hữu ích để trả lời một loạt các câu hỏi sinh học khác nhau. Ứng dụng quan trọng nhất của sắp gióng cột đôi một là để xác định các chuỗi có cấu trúc hay chức năng chưa biết. Một ứng dụng quan trọng khác là trong việc nghiên cứu tiến hóa phân tử.

Sắp gióng cột toàn bộ (Global alignment)[sửa | sửa mã nguồn]

Sắp gióng cột toàn bộ giữa hai trình tự là một phương pháp trong đó toàn bộ ký tự trên hai trình tự tham gia vào quá trình sắp xếp. Phương pháp này thường được áp dụng để tìm các trình tự tương cận gần. Khi các trình tự này cũng dễ dàng xác định bằng phương pháp sắp gióng cột cục bộ, các phương pháp sắp gióng cột toàn bộ không được xem như một kỹ thuật. Hơn nữa, có một số mô hình tiến hóa phân tử như xáo trộn miền (domain shuffling) làm trở ngại tính ững dụng của các phương pháp này.

Sắp gióng cột cục bộ (Local alignment)[sửa | sửa mã nguồn]

Sắp gióng cột cục bộ là phương pháp nhằm tìm kiếm các vùng có quan hệ bên trong các chuỗi - hay nói cách khác là chúng có chứa một tập con các ký tự (tạo bởi A, T, X, G) bên trong chuỗi. Ví dụ, vị trí 20-40 của chuỗi A có thể được sắp gióng cột với vị trí 50-70 của chuỗi B.

Đây là kĩ thuật linh hoạt hơn sắp trình từ toàn bộ và có thuận lợi là các vùng liên quan xuất hiện ở các trật tự khác nhau ở hai protein (hay còn biết tới với tên là xáo trộn miền) có thể được xác định. Điều này là không thể đạt được với phương pháp sắp gióng cột toàn bộ.

Tính chính xác của sắp gióng cột[sửa | sửa mã nguồn]

Nơi thông thường xảy ra việc sắp xếp trình tự là ở cơ chế của sự tiến hóa phân tử. DNA mang các nguyên liệu di truyền từ thế hệ này sang thế hệ khác, bằng cơ chế tự phân đôi bán bảo toàn của nó. Các thay đổi trong nguyên liệu đó là do các sai sót hay đột biến trong quá trình phân đôi, hoặc do virut và các cơ chế khác đôi khi dịch chuyển các chuỗi con bên trong nhiễm sắc thể và giữa các cá thể độc lập nhau. Kết quả là, một sắp xếp giữa các chuỗi cho thấy rằng chuỗi đó xuất phát từ cùng một tổ tiên chung thì chứa các chuỗi con trùng nhau. Trong trường hợp chuỗi di truyền, nó nhấn mạnh rằng chúng cùng mang thông tin của cùng một tổ tiên chung.

Xem xét nơi xảy ra để biết xác suất xảy ra của các sự kiện này, chúng ta có thể ước lượng thời gian khi một chuỗi đi trệch ra khỏi tổ tiên chung hay thời gian cần thiết để một chuỗi có thể trở thành một chuỗi mới hoàn toàn. Tuy nhiên, vẫn có sự bất đồng về giá trị và ứng dụng tự nhiên của các xác suất đối với sự tiến hóa sinh học. Một hướng suy nghĩ cho rằng chỉ có thể xảy ra các thay đổi đơn giản, với tỉ lệ cố định (ứng dụng của Occam's Razor) trong khi một hướng khác cho rằng chỉ cần giai đoạn tiến hóa ngắn khi có các thay đổi cực kì lớn.

Sắp gióng cột cấu trúc (Structural alignment)[sửa | sửa mã nguồn]

Sắp gióng cột nhiều trình tự (Multiple alignment)[sửa | sửa mã nguồn]

Các giải thuật[sửa | sửa mã nguồn]

Phần mềm[sửa | sửa mã nguồn]

Tham khảo[sửa | sửa mã nguồn]

Liên kết ngoài[sửa | sửa mã nguồn]