Metagenomics

Bách khoa toàn thư mở Wikipedia
Bước tới: menu, tìm kiếm
Với Metagenomics ta có thể nghiên cứu các quần xã vi sinh vật, ví dụ như quần xã vi sinh ở dòng suối bị axit hóa do khai khoáng như ở hình trên.

Metagenomics là nghiên cứu về metagenomes, nhằm thu vật liệu di truyền trực tiếp từ các mẫu trong môi trường. Lĩnh vực rộng lớn này có thể được hiểu là di truyền học môi trường, di truyền học sinh thái hay di truyền học quần xã. Nếu như di truyền học và vi sinh vật học truyền thống giải trình tự bộ gen (genome sequencing) của vi sinh vật dựa trên mẫu là các mẫu dòng đã nuôi cấy, thì ngay từ những nghiên cứu đầu tiên, di truyền học môi trường đã nhân dòng các đoạn trình tự gen đặc hiệu (thường là gen 16S rRNA) để xây dựng dữ liệu về đa dạng sinh học của các mẫu môi trường. Với những nghiên cứu bước đầu đó, người ta đã nhận ra rằng nếu chỉ tiếp tục nghiên cứu theo kiểu truyền thống thì sẽ không thể tìm hiểu về sự đa dạng sinh học của vi sinh vật được.[1] Những nghiên cứu metagenomics gần đây thường thực hiện bằng phương pháp Sanger ("shotgun" Sanger sequencing), hoặc song song với phương pháp pyrosequencing để có các mẫu của tất cả các gen từ mỗi cá thể trong quần xã mẫu.[2] Chính vì vai trò quan trọng trong việc khám phá đa dạng vi sinh vật mà metagenomics có thể được coi như một lăng kính giúp ta hiểu hơn về thế giới của các sinh vật nhỏ bé, đóng góp vào hiểu biết của nhân loại về toàn bộ thế giới sống.[3]

Nguồn gốc từ[sửa | sửa mã nguồn]

Thuật ngữ "metagenomics" được giới thiệu bởi Jo Handelsman, Jon Clardy, Robert M. Goodman và một số người khác, và xuất hiện lần đầu trong một bài báo vào năm 1998.[4] Thuật ngữ metagenome phản ánh ý tưởng về bộ sưu tầm các gen được giải mã trực tiếp từ môi trường với cách tương tự như nghiên cứu về từng genome. Kevin Chen and Lior Pachter (University of California, Berkeley) đã định nghĩa metagenomics là " việc ứng dụng các kỹ thuật di truyền hiện đại trong nghiên cứu về quần xã vi sinh vật một cách trực tiếp trong môi trường tự nhiên của chúng mà không cần phải phân lập và nuôi cấy chúng trong phòng thí nghiệm".[5]

Lịch sử[sửa | sửa mã nguồn]

Việc giải trình tự theo kiểu truyền thống thường bắt đầu bằng việc nuôi cấy các tế bào giống hệt nhau để làm nguồn phân lập DNA. Các nghiên cứu metagenomic đã cho thấy vẫn còn rất nhiều nhóm vi sinh vật trong tự nhiên mà chúng ta không thể phân lập và nuôi cấy được, và vì vậy không thể giải trình tự của chúng được. Những nghiên cứu đầu tiên của metagenomic tập trung vào đoạn trình tự của rRNA 16S (16S ribosomal RNA), là đoạn trình tự tương đối ngắn, bảo thủ và đặc trưng cho mỗi loài. Từ đó người ta đã phát hiện ra rất nhiều đoạn trình tự rRNA 16S mới, không giống bất cứ một loài đã biết nào. Những khảo sát về gen trên rRNA thực hiện trực tiếp từ môi trường đã cho thấy, số lượng loài vi khuẩn và vi khuẩn cổ (archaea) đã tìm thấy trước đây bằng phương pháp giải trình tự theo kiểu truyền thống chỉ tương đương khoảng 1% số lượng thực của chúng trong môi trường.  

Những nghiên cứu đầu tiên ở mức độ phân tử đã được thực hiên bởi Norman R. Pace và các cộng sự. Họ sử dụng PCR để khám phá ra sự đa dạng của các trình tự rRNA.[6] Với những kết quả của nghiên cứu này, vào năm 1985 Pace đã đề xuất ý tưởng nhân dòng DNA trực tiếp từ môi trường.[7] Tới năm 1991 ông và cộng sự tại Khoa Sinh học, trường đại học Indiana đã có báo cáo đầu tiên về nhân dòng một lượng lớn DNA từ môi trường. Nghiên cứu của họ đã khẳng định rằng không hề có lỗi trong quá trình thực hiện PCR và những loài mới trong quần xã vi sinh vật là thực sự tồn tại. Mặc dù chỉ thực hiện với đoạn trình tự bảo thủ và không mã hóa, công trình trên đã chứng minh và giải thích tại sao các nghiên cứu về đa dạng sinh học trước đây bằng phương pháp hình thái học thường mang lại nhiều kết quả hơn so với phương pháp phân tích qua phân lập và nuôi cấy. Ngay sau đó, vào năm 1995 Healy đã công bố kết quả phân lập metagenomic của các gen chức năng trong "thư viện động vật" xây dựng từ hệ sinh vật tự nhiên trên cỏ khô trong phòng thí nghiệm.[8] Sau khi rời phòng thí nghiệm của Pace, Edward DeLong  tiếp tục nghiên cứu về lĩnh vực này và đã xuất bản công trình làm nền móng cho phân loại sinh vật môi trường dựa trên trình tự 16S, đó là thành lập thư viện trình tự của các mẫu lấy từ biển.[9]

Vào năm 2002, Mya Breitbart, Forest Rohwer và các cộng sự đã sử dụng phương pháp shotgun sequencing để chứng minh rằng trong 200 lít nước biển có chứa trên 5000 loài virus khác nhau.[10] Nghiên cứu sau đó đã tìm ra khoảng hơn 1000 loài virus trong phân người và khoảng 1 triệu virus trong mỗi kilogam trầm tích biển, trong đó có rất nhiều thể thực khuẩn. Năm 2004 Gene Tyson, Jill Banfield và cộng sự tại trường đại học California, Berkeley và Joint Genome Institute đã giải mã DNA từ mẫu môi trường bị axit hóa do khai khoáng (acid mine drainage, AMD).[11] Nghiên cứu đã tìm ra một số nhóm vi khuẩn và vi khuẩn cổ mà trước đó chưa thể phân lập được.[12]

Năm 2005, Stephan C. Schuster ở trường đại học Penn State University và các cộng sự đã công bố những trình tự đầu tiên giải bằng phương pháp hiện đại (kỹ thuật Pyrosequencing phát triển bởi 454 Life Sciences).[13] Năm 2006 Robert Edward, Forest Rohwer và cộng sự ở San Diego State University cũng đã công bố thêm một công trình thuộc lĩnh vực này.[14]

Giải trình tự[sửa | sửa mã nguồn]

Bài chi tiết: DNA sequencing

Phục hồi các đoạn trình tự DNA lớn hơn vài nghìn bp từ mẫu là việc làm rất khó và chỉ có thể thực hiện mới đây nhờ những tiến bộ trong kỹ thuật sinh học phân tử, cho phép ta thiết lập các thư viện nhiễm sắc thể nhân tạo của vi khuẩn (bacterial artificial chromosomes, BACs), tạo vector phục vụ cho việc nhân dòng.[15]

Giải trình tự shotgun từ môi trường (Environmental Shotgun Sequencing, ESS). (A) Thu mẫu từ môi trường; (B) sàng lọc mẫu theo kích cỡ; (C) phân tích và phân lập DNA; (D) nhân dòng và lập thư viện; (E) giải trình tự các dòng (clones); (F) ghép nối trình tự (sequence assembly) để tạo thành các contig và scaffold.

Shotgun metagenomic[sửa | sửa mã nguồn]

Nhờ các tiến bộ trong ngành tin sinh học, trong khuếch đại DNA và sự phát triển của công nghệ tính toán mà ta có thể phân tích các đoạn trình tự DNA từ các mẫu môi trường và ứng dụng giải trình tự shotgun cho các mẫu metagenomic. Có thể kể đến một số kết quả giải trình tự của vi sinh vật và của hệ gen người, ghép nối các đoạn DNA ngẫu nhiên ngắn thành các đoạn trình tự consensus. Giải trình tự shotgun và sàng lọc thư viện dòng cho biết các gen tồn tại trong mẫu môi trường. Nhờ vậy mà ta sẽ biết được loại sinh vật nào hay quá trình trao đổi chất nào đang diễn ra trong quần xã [16], từ đó có thể hiểu rõ hơn về sinh thái học và so sánh các mẫu môi trường với nhau.[17]

Bên cạnh đó có thể dùng Shotgun metagenomic để giải trình tự gần như hoàn toàn hệ gen của vi sinh vật trực tiếp từ môi trường.[11] Phân tích DNA của một mẫu thường cho kết quả là dữ liệu DNA của vi sinh vật có nhiều nhất trong mẫu. Để có được cái nhìn toàn diện hơn ta cần tìm cách giải trình tự bộ gen của các thành viên khác trong quần xã bằng cách phân tích một lượng mẫu lớn. Với giải trình tự shotgun ngẫu nhiên ta có thể phát hiện được các thành viên này ngay chỉ với các đoạn trình tự vô cùng nhỏ bé.[11] 

Giải trình tự hiện đại (High-throughput sequencing)[sửa | sửa mã nguồn]

Những nghiên cứu metagenomic giải trình tự hiện đại đầu tiên đều được thực hiện bằng phương pháp 454 Pyrosequencing.[13] Các kỹ thuật tiếp theo được ứng dụng là Giải trình tự Ion Torrent PGM, Phân tích genome Illumina và Hệ thống SOLiD.[18] Bằng những kỹ thuật này ta chỉ đạt được các đoạn trình tự ngắn hơn so với phương pháp giải trình tự Sanger: các reads với IonTorrent PGM và 454 Pyrosequencing thường có độ dài khoảng 400 bp, với Illumina và SOLiD dài 25-75 bp [19], trong khi đó với phương pháp Sanger ta có các reads với độ dài khoảng 750 bp. Tuy vậy, để bù lại điều này, các phương pháp mới cho số lượng reads nhiều hơn hẳn so với phương pháp Sanger truyền thống: Pyrosequencing cho 200-500 megabases, Illumina cho khoảng 20-50 gigabase metagenome.[20] Một ưu điểm nữa của giải trình tự đoạn ngắn (short-read) là các phương pháp này không đòi hỏi phải nhân dòng trước khi giải trình tự, vì vậy có thể duy trì được tính đa dạng của mẫu phân tích. 

Tin sinh học - Bioinformatics[sửa | sửa mã nguồn]

Dữ liệu của metagenomics thường rất lớn và tương đối nhiễu, vì nó chứa các mảnh dữ liệu của hàng chục ngàn loài sinh vật trong quần xã.[21] Khi giải trình tự metagenome của dạ cỏ bò người ta đạt được dữ liệu chứa 279 gigabase (279 tỉ bp), và hệ quần xã ở ruột người có chứa các gen khoảng 3,3 triệu bp (sau khi đã ghép nối từ 567,7 gigabase dữ liệu).[22] Chính vì thế việc thu thập và xử lý các dữ liệu này đã từ lâu trở thành thách thức không nhỏ cho các nhà nghiên cứu.[16][23] 

Bước đầu sàng lọc trình tự[sửa | sửa mã nguồn]

Bước đầu tiên của phân tích dữ liệu metagenome đòi hỏi thực hiện một số bước lọc nhất định (loại bỏ chất tạp, các đoạn trình tự chất lượng kém và các trình tự (có thể) của sinh vật nhân chuẩn eukaryotes).[24][25] Một số phương pháp loại bỏ trình tự DNA của sinh vật nhân chuẩn có thể kể đến phương pháp Eu-Detect và DeConseq.[26][27]

Assembly (ghép các đoạn trình tự)[sửa | sửa mã nguồn]

Bài chi tiết: Sequence assembly

Có thể nói dữ liệu DNA từ metagenomic và từ genomic tương tự nhau, nhưng dữ liệu của các trình tự genomic cho tỉ lệ coverage cao trong khi dữ liệu metagenomic thường rất ít khi dư thừa.[23] Hơn nữa với sự phát triển của công nghệ giải trình tự thế hệ mới (với kết quả dưới dạng các short-read) thì việc bị lỗi trong xử lý dữ liệu là điều rất dễ mắc phải. Như vậy việc ghép nối các đoạn trình tự của metagenomic thành các hệ gen sẽ rất rắc rối và khó tin cậy, đặc biệt khi lắp ghép các đoạn DNA lặp hay khi ghép các đoạn trình tự của các loài khác nhau thành một contig.[28]

Phrap hay Celera Assembler là một số chương trình chỉ phục vụ cho ghép trình tự genomic, nghĩa là giải trình tự của một bộ gen riêng biệt, chứ không hiệu quả cho metagenomic.[21] Một số chương trình khác như Velvet assembler đã được thiết kế tối ưu để lắp ghép các short-read nhờ sử dụng Bruijn graphs. 

Dự đoán gen[sửa | sửa mã nguồn]

Bài chi tiết: Gene prediction

Dự đoán gen của phân tích metagenomic sử dụng hai hướng tiếp cận trong việc chú thích (annotation) vùng mã hóa trong các contig đã được ghép nối trước đó.[28] Hướng tiếp cận đầu tiên để phát hiện gen dựa trên sự tương đồng với các trình tự trong ngân hàng gen, thông thường bằng cách tìm kiếm BLAST. Hướng tiếp cận thứ hai là ab initio, dựa trên những đặc điểm bên trong mỗi đoạn trình tự để dự đoán vùng mã hóa dựa trên đơn vị gen đã biết của những sinh vật họ hàng. Có thể kể đến một số chương trình như MEGAN4 [29] phục vụ cho hướng thứ nhất và các GeneMark[30] và GLIMMER phục vụ cho hướng thứ hai. Ưu điểm đầu tiên của dự đoán ab initio là nó cho phép dò các vùng mã hóa không có homolog tương đồng trên ngân hàng dữ liệu, tuy nhiên để phương pháp này thật chính xác thì cần có những đoạn DNA đủ lớn để so sánh.[21]  

Đa dạng loài[sửa | sửa mã nguồn]

Bài chi tiết: Species diversity

Việc chú thích gen giúp trả lời cho câu hỏi "cái gì", trong khi việc xác định độ đa dạng loài giúp trả lời cho câu hỏi "ai".[31] Để xác định cấu trúc và chức năng của quần xã trong metagenomes, các đoạn trình tự phải được cố định hóa. Việc cố định này được hiểu là quá trình gắn một đoạn trình tự với một sinh vật cụ thể.[28] Cố định hóa dựa trên sự tương đồng bao gồm các phương pháp như BLAST, được sử dụng để tìm kiếm marker hoặc các đoạn trình tự tương tự trong những dữ liệu có sẵn đã công bố. Theo cách này có thể sử dụng chương trình MEGAN.[32] Một công cụ nữa để cố định hóa các reads là PhymmBL.[21] Cố định hóa dựa trên thành phần tập trung vào đặc tính của các đoạn trình tự, như tần số của các oligonucleotide hoặc codon biểu hiện (codon usage bias).[21] Sau khi phân nhóm các đoạn trình tự có thể phân tích so sánh độ đa dạng và phong phú của chúng nhờ một số chương trình khác, vd. như Unifrac.   

Nhập dữ liệu[sửa | sửa mã nguồn]

The massive amount of exponentially growing sequence data is a daunting challenge that is complicated by the complexity of the metadata associated with metagenomic projects. Metadata includes detailed information about the three-dimensional (including depth, or height) geography and environmental features of the sample, physical data about the sample site, and the methodology of the sampling.[23] This information is necessary both to ensure replicability and to enable downstream analysis. Because of its importance, metadata and collaborative data review and curation require standardized data formats located in specialized databases, such as the Genomes OnLine Database (GOLD).[33]

Several tools have been developed to integrate metadata and sequence data, allowing downstream comparative analyses of different datasets using a number of ecological indices. In 2007, Folker Meyer and Robert Edwards and a team at Argonne National Laboratory and the University of Chicago released the Metagenomics Rapid Annotation using Subsystem Technology server (MG-RAST) a community resource for metagenome data set analysis.[34] As of June 2012 over 14.8 terabases (14x1012 bases) of DNA have been analyzed, with more than 10,000 public data sets freely available for comparison within MG-RAST. Over 8,000 users now have submitted a total of 50,000 metagenomes to MG-RAST. The Integrated Microbial Genomes/Metagenomes (IMG/M) system also provides a collection of tools for functional analysis of microbial communities based on their metagenome sequence, based upon reference isolate genomes included from the Integrated Microbial Genomes (IMG) system and the Genomic Encyclopedia of Bacteria and Archaea (GEBA) project.[35]

One of the first standalone tools for analysing high-throughput metagenome shotgun data was MEGAN (MEta Genome ANalyzer).[29][32] A first version of the program was used in 2005 to analyse the metagenomic context of DNA sequences obtained from a mammoth bone.[13] Based on a BLAST comparison against a reference database, this tool performs both taxonomic and functional binning, by placing the reads onto the nodes of the NCBI taxonomy using a simple lowest common ancestor (LCA) algorithm or onto the nodes of the SEED or KEGG classifications, respectively.[36]

So sánh metagenomics[sửa | sửa mã nguồn]

Comparative analyses between metagenomes can provide additional insight into the function of complex microbial communities and their role in host health.[37] Pairwise or multiple comparisons between metagenomes can be made at the level of sequence composition (comparing GC-content or genome size), taxonomic diversity, or functional complement. Comparisons of population structure and phylogenetic diversity can be made on the basis of 16S and other phylogenetic marker genes, or—in the case of low-diversity communities—by genome reconstruction from the metagenomic dataset.[38] Functional comparisons between metagenomes may be made by comparing sequences against reference databases such as COG or KEGG, and tabulating the abundance by category and evaluating any differences for statistical significance.[36] This gene-centric approach emphasizes the functional complement of the community as a whole rather than taxonomic groups, and shows that the functional complements are analogous under similar environmental conditions.[38] Consequently, metadata on the environmental context of the metagenomic sample is especially important in comparative analyses, as it provides researchers with the ability to study the effect of habitat upon community structure and function.[21]

Additionally, several studies have also utilized oligonucleotide usage patterns to identify the differences across diverse microbial communities. Examples of such methodologies include the dinucleotide relative abundance approach by Willner et al.[39] and the HabiSign approach of Ghosh et al.[40] Ghosh et al. (2011) [40] also indicated that differences in tetranucleotide usage patterns can be used to identify genes (or metagenomic reads) originating from specific habitats.

Phân tích dữ liệu[sửa | sửa mã nguồn]

Trao đổi chát trong quần xã sinh vật[sửa | sửa mã nguồn]

Đối với nhiều quần xã vi khuẩn tự nhiên hoặc nuôi cấy thì "sự phân công lao động" giữa các sinh vật hay còn gọi là đồng dưỡng (syntrophy) là một điều rất phổ biến. Cụ thể như trong nồi lên men methanogen cần có một số loài đồng dưỡng hoạt động cùng nhau để biến nguồn chất thô thành methane.[41]  Các nghiên cứu về gen và biểu hiện gen bằng microarray hoặc proteomics giúp các nhà nghiên cứu lắp ghép các dữ liệu để có được bức tranh toàn diện về cơ chế trao đổi chất của các vi sinh vật trong quần xã.[42].  

Metatranscriptomics[sửa | sửa mã nguồn]

Với Metagenomics các nhà khoa học có thể tìm hiểu được đa dạng chức năng và trao đổi chất của quần xã vi sinh, nhưng không thể biết được quá trình nào trong số đó đang diễn ra.[38] Nhờ tách chiết và phân tích metagenomic mRNA (còn gọi là metatranscriptome) mà có thể biết được đặc tính điều hòa và biểu hiện của hệ quần xã. Do các khó khăn kỹ thuật (vd. như thời gian bán rã ngắn (short half-life) của mRNA) trong thu thập RNA môi trường mà hiện nay các nhà khoa học đã phát triển một số nghiên cứu metatranscriptomic in situ.[38] Và cũng không chỉ giới hạn trong kỹ thuật microarray, đến nay nghiên cứu metatranscriptomic cũng đã ứng dụng giải trình tự cDNA theo phương pháp hiện đại để xác định biểu hiện của toàn bộ genome và định lượng quần xã vi sinh.[38][43]

Metagenomics với virus[sửa | sửa mã nguồn]

Bài chi tiết: Viral metagenomics

Giải trình trự metagenomic có ý nghĩa rất lớn trong nghiên cứu quần xã virus. Vì virus không có marker để phân loại (như 16S RNA đối với vi khuẩn và vi khuẩn cổ, 18S RNA cho các sinh vật nhân chuẩn) nên cách duy nhất để nghiên cứu đa dạng di truyền của virus là thông qua metagenomics. Nhờ metagenomic mà ta có thể nghiên cứu kỹ hơn và rõ hơn về sự tiến hóa và đa dạng của hệ virus.[44]

Ứng dụng[sửa | sửa mã nguồn]

Metagenomics has the potential to advance knowledge in a wide variety of fields. It can also be applied to solve practical challenges in medicine, engineering, agriculture, sustainability and ecology.[23]

Y học[sửa | sửa mã nguồn]

Microbial communities play a key role in preserving human health, but their composition and the mechanism by which they do so remains mysterious.[45] Metagenomic sequencing is being used to characterize the microbial communities from 15-18 body sites from at least 250 individuals. This is part of the Human Microbiome initiative with primary goals to determine if there is a core human microbiome, to understand the changes in the human microbiome that can be correlated with human health, and to develop new technological and bioinformatics tools to support these goals.[46]

Another medical study as part of the MetaHit (Metagenomics of the Human Intestinal Tract) project consisted of 124 individuals from Denmark and Spain consisting of healthy, overweight, and irritable bowel disease patients. The study attempted to categorize the depth and phylogenetic diversity of gastrointestinal bacteria. Using Illumina GA sequence data and SOAPdenovo, a de Bruijn graph-based tool specifically designed for assembly short reads, they were able to generate 6.58 million contigs greater than 500 bp for a total contig length of 10.3 Gb and a N50 length of 2.2 kb.

The study demonstrated that two bacterial divisions, Bacteroidetes and Firmicutes, constitute over 90% of the known phylogenetic categories that dominate distal gut bacteria. Using the relative gene frequencies found within the gut these researchers identified 1,244 metagenomic clusters that are critically important for the health of the intestinal tract. There are two types of functions in these range clusters: housekeeping and those specific to the intestine. The housekeeping bacteria are required in all bacteria and are often major players in the main metabolic pathways including central carbon metabolism and amino acid synthesis. The gut-specific functions include adhesion to host proteins or in harvesting sugars of the globoseries glycolipids. Patients with irritable bowel syndrome were shown to exhibit 25% fewer genes and lower bacterial diversity than individuals not suffering from irritable bowel syndrome indicating that changes in patients’ gut biome diversity may be associated with bowel disease or obesity.

While these study highlights some potentially valuable medical applications, only 31-48.8% of the reads could be aligned to 194 public human gut bacterial genomes and 7.6-21.2% to bacterial genomes available in GenBank which indicates that there is still far more research necessary to capture novel bacterial genomes.[47]

Nhiên liệu sinh học[sửa | sửa mã nguồn]

Bài chi tiết: Biofuel
Bioreactors allow the observation of microbial communities as they convert biomass into cellulosic ethanol.

Biofuels are fuels derived from biomass conversion, as in the conversion of cellulose contained in corn stalks, switchgrass, and other biomass into cellulosic ethanol.[23] This process is dependent upon microbial consortia that transform the cellulose into sugars, followed by the fermentation of the sugars into ethanol. Microbes also produce a variety of sources of bioenergy including methane and hydrogen.[23]

The efficient industrial-scale deconstruction of biomass requires novel enzymes with higher productivity and lower cost.[48] Metagenomic approaches to the analysis of complex microbial communities allow the targeted screening of enzymes with industrial applications in biofuel production, such as glycoside hydrolases.[49] Furthermore, knowledge of how these microbial communities function is required to control them, and metagenomics is a key tool in their understanding. Metagenomic approaches allow comparative analyses between convergent microbial systems like biogas fermenters[50] or insect herbivores such as the fungus garden of the leafcutter ants.[51]

Xử lý môi trường[sửa | sửa mã nguồn]

Bài chi tiết: Bioremediation

Metagenomics can improve strategies for monitoring the impact of pollutants on ecosystems and for cleaning up contaminated environments. Increased understanding of how microbial communities cope with pollutants improves assessments of the potential of contaminated sites to recover from pollution and increases the chances of bioaugmentation or biostimulation trials to succeed.[52]

Công nghệ sinh học[sửa | sửa mã nguồn]

Microbial communities produce a vast array of biologically active chemicals that are used in competition and communication.[53] Many of the drugs in use today were originally uncovered in microbes; recent progress in mining the rich genetic resource of non-culturable microbes has led to the discovery of new genes, enzymes, and natural products.[38][54] The application of metagenomics has allowed the development of commodity and fine chemicals, agrochemicals and pharmaceuticals where the benefit of enzyme-catalyzed chiral synthesis is increasingly recognized.[55]

Two types of analysis are used in the bioprospecting of metagenomic data: function-driven screening for an expressed trait, and sequence-driven screening for DNA sequences of interest.[56] Function-driven analysis seeks to identify clones expressing a desired trait or useful activity, followed by biochemical characterization and sequence analysis. This approach is limited by availability of a suitable screen and the requirement that the desired trait be expressed in the host cell. Moreover, the low rate of discovery (less than one per 1,000 clones screened) and its labor-intensive nature further limit this approach.[57] In contrast, sequence-driven analysis uses conserved DNA sequences to design PCR primers to screen clones for the sequence of interest.[56] In comparison to cloning-based approaches, using a sequence-only approach further reduces the amount of bench work required. The application of massively parallel sequencing also greatly increases the amount of sequence data generated, which require high-throughput bioinformatic analysis pipelines.[57] The sequence-driven approach to screening is limited by the breadth and accuracy of gene functions present in public sequence databases. In practice, experiments make use of a combination of both functional and sequence-based approaches based upon the function of interest, the complexity of the sample to be screened, and other factors.[57][58]

Nông nghiệp[sửa | sửa mã nguồn]

The soils in which plants grow are inhabited by microbial communities, with one gram of soil containing around 109-1010 microbial cells which comprise about one gigabase of sequence information.[59][60] The microbial communities which inhabit soils are some of the most complex known to science, and remain poorly understood despite their economic importance.[61] Microbial consortia perform a wide variety of ecosystem services necessary for plant growth, including fixing atmospheric nitrogen, nutrient cycling, disease suppression, and sequester iron and other metals.[53] Functional metagenomics strategies are being used to explore the interactions between plants and microbes through cultivation-independent study of these microbial communities.[62] By allowing insights into the role of previously uncultivated or rare community members in nutrient cycling and the promotion of plant growth, metagenomic approaches can contribute to improved disease detection in crops and livestock and the adaptation of enhanced farming practices which improve crop health by harnessing the relationship between microbes and plants.[23]

Sinh thái học[sửa | sửa mã nguồn]

Metagenomics can provide valuable insights into the functional ecology of environmental communities.[63] Metagenomic analysis of the bacterial consortia found in the defecations of Australian sea lions suggests that nutrient-rich sea lion faeces may be an important nutrient source for coastal ecosystems. This is because the bacteria that are expelled simultaneously with the defecations are adept at breaking down the nutrients in the faeces into a bioavailable form that can be taken up into the food chain.[64]

DNA sequencing can also be used more broadly to identify species present in a body of water,[65] debris filtered from the air, or sample of dirt. This can establish the range of invasive species and endangered species, and track seasonal populations.

Xem thêm[sửa | sửa mã nguồn]

Tài liệu tham khảo[sửa | sửa mã nguồn]

  1. ^ Hugenholz, P; Goebel BM, Pace NR (1 tháng 9 năm 1998). “Impact of Culture-Independent Studies on the Emerging Phylogenetic View of Bacterial Diversity”. J. Bacteriol 180 (18): 4765–74. PMC 107498. PMID 9733676. 
  2. ^ Eisen, JA (2007). “Environmental Shotgun Sequencing: Its Potential and Challenges for Studying the Hidden World of Microbes”. PLoS Biology 5 (3): e82. doi:10.1371/journal.pbio.0050082. PMC 1821061. PMID 17355177. 
  3. ^ Marco, D biên tập (2011). Metagenomics: Current Innovations and Future Trends. Caister Academic Press. ISBN 978-1-904455-87-5. 
  4. ^ doi:10.1016/S1074-5521(98)90108-9
    Hoàn thành chú thích này.
  5. ^ doi:10.1371/journal.pcbi.0010024
    Hoàn thành chú thích này
  6. ^ Lane, DJ; Pace B, Olsen GJ, Stahl DA, Sogin ML, Pace NR (1985). “Rapid determination of 16S ribosomal RNA sequences for phylogenetic analyses”. Proceedings of the National Academy of Sciences 82 (20): 6955–9. Bibcode:1985PNAS...82.6955L. doi:10.1073/pnas.82.20.6955. PMC 391288. PMID 2413450. 
  7. ^ Pace, NR; DA Stahl, DJ Lane, GJ Olsen (1985). “Analyzing natural microbial populations by rRNA sequences”. ASM News 51: 4–12. 
  8. ^ Healy, FG; RM Ray, HC Aldrich, AC Wilkie, LO Ingram, KT Shanmugam (1995). “Direct isolation of functional genes encoding cellulases from the microbial consortia in a thermophilic, anaerobic digester maintained on lignocellulose”. Appl. Microbiol Biotechnol. 43 (4): 667–74. doi:10.1007/BF00164771. PMID 7546604. 
  9. ^ Stein, JL; TL Marsh, KY Wu, H Shizuya, EF DeLong (1996). “Characterization of uncultivated prokaryotes: isolation and analysis of a 40-kilobase-pair genome fragment from a planktonic marine archaeon”. Journal of Bacteriology 178 (3): 591–599. PMC 177699. PMID 8550487. 
  10. ^ Breitbart, M; Salamon P, Andresen B, Mahaffy JM, Segall AM, Mead D, Azam F, Rohwer F (2002). “Genomic analysis of uncultured marine viral communities”. Proceedings of the National Academy of Sciences of the United States of America 99 (22): 14250–14255. Bibcode:2002PNAS...9914250B. doi:10.1073/pnas.202488399. PMC 137870. PMID 12384570. 
  11. ^ a ă â Tyson, GW; Chapman J, Hugenholtz P, Allen EE, Ram RJ, Richardson PM, Solovyev VV, Rubin EM, Rokhsar DS, Banfield JF (2004). “Insights into community structure and metabolism by reconstruction of microbial genomes from the environment”. Nature 428 (6978): 37–43. Bibcode:2004Natur.428...37T. doi:10.1038/nature02340. PMID 14961025. (cần đăng ký mua)
  12. ^ Hugenholz, P (2002). “Exploring prokaryotic diversity in the genomic era”. Genome Biology 3 (2): 1–8. doi:10.1186/gb-2002-3-2-reviews0003. PMC 139013. PMID 11864374. 
  13. ^ a ă â Poinar, HN; Schwarz, C, Qi, J, Shapiro, B, Macphee, RD, Buigues, B, Tikhonov, A, Huson, D, Tomsho, LP, Auch, A, Rampp, M, Miller, W, and Schuster, SC (2006). “Metagenomics to Paleogenomics: Large-Scale Sequencing of Mammoth DNA”. Science 311 (5759): 392–394. Bibcode:2006Sci...311..392P. doi:10.1126/science.1123360. PMID 16368896. 
  14. ^ Edwards, RA; Rodriguez-Brito B, Wegley L, Haynes M, Breitbart M, Peterson DM, Saar MO, Alexander S, Alexander EC, Rohwer F (2006). “Using pyrosequencing to shed light on deep mine microbial ecology”. BMC Genomics 7: 57. doi:10.1186/1471-2164-7-57. PMC 1483832. PMID 16549033. 
  15. ^ Beja, O.; Suzuki, MT; Koonin, EV; Aravind, L; Hadd, A; Nguyen, LP; Villacorta, R; Amjadi, M; Garrigues, C (2000). “Construction and analysis of bacterial artificial chromosome libraries from a marine microbial assemblage”. Environmental Microbiology 2 (5): 516–29. doi:10.1046/j.1462-2920.2000.00133.x. PMID 11233160. 
  16. ^ a ă Nicola, Segata; Daniela Boernigen, Timothy L Tickle, Xochitl C Morgan, Wendy S Garrett, Curtis Huttenhower (2013). “Computational meta’omics for microbial community studies”. Molecular Systems Biology 9 (666). doi:10.1038/msb.2013.22. PMID 23670539. 
  17. ^ Allen, EE; Banfield, JF (2005). “Community genomics in microbial ecology and evolution”. Nature Reviews Microbiology 3 (6): 489–498. doi:10.1038/nrmicro1157. PMID 15931167. 
  18. ^ doi:10.1371/journal.pone.0011840
    Hoàn thành chú thích này
  19. ^ doi:10.1038/nmeth1156
    Hoàn thành chú thích này
  20. ^ doi:10.1038/nmeth0909-623
    Hoàn thành chú thích này
  21. ^ a ă â b c d doi: 10.1371/journal.pcbi.1000667
    Hoàn thành chú thích này
  22. ^ Qin, Junjie; Ruiqiang Li, Jeroen Raes, Manimozhiyan Arumugam, Kristoffer Solvsten Burgdorf, Chaysavanh Manichanh, Trine Nielsen, Nicolas Pons, Florence Levenez, Takuji Yamada, Daniel R. Mende, Junhua Li, Junming Xu, Shaochuan Li, Dongfang Li, Jianjun Cao, Bo Wang, Huiqing Liang, Huisong Zheng, Yinlong Xie, Julien Tap, Patricia Lepage, Marcelo Bertalan, Jean-Michel Batto, Torben Hansen, Denis Le Paslier, Allan Linneberg, H. Bjorn Nielsen, Eric Pelletier, Pierre Renault, Thomas Sicheritz-Ponten, Keith Turner, Hongmei Zhu, Chang Yu, Shengting Li, Min Jian, Yan Zhou, Yingrui Li, Xiuqing Zhang, Songgang Li, Nan Qin, Huanming Yang, Jian Wang, Soren Brunak, Joel Dore, Francisco Guarner, Karsten Kristiansen, Oluf Pedersen, Julian Parkhill, Jean Weissenbach, Peer Bork, S. Dusko Ehrlich, Jun Wang (4 tháng 3 năm 2010). “A human gut microbial gene catalogue established by metagenomic sequencing”. Nature 464 (7285): 59–65. Bibcode:2010Natur.464...59.. doi:10.1038/nature08821. ISSN 0028-0836. PMID 20203603. (cần đăng ký mua)
  23. ^ a ă â b c d đ Committee on Metagenomics: Challenges and Functional Applications, National Research Council (2007). The New Science of Metagenomics: Revealing the Secrets of Our Microbial Planet. Washington, D.C.: The National Academies Press. ISBN 0-309-10676-1. 
  24. ^ Mende, Daniel R.; Alison S. Waller, Shinichi Sunagawa, Aino I. Järvelin, Michelle M. Chan, Manimozhiyan Arumugam, Jeroen Raes, Peer Bork (23 tháng 2 năm 2012). “Assessment of Metagenomic Assembly Using Simulated Next Generation Sequencing Data”. PLoS ONE 7 (2): e31386. Bibcode:2012PLoSO...731386M. doi:10.1371/journal.pone.0031386. ISSN 1932-6203. PMC 3285633. PMID 22384016. 
  25. ^ doi:10.1093/bioinformatics/btt047
    Hoàn thành chú thích này
  26. ^ Mohammed, MH; Sudha Chadaram,Dinakar Komanduri, Tarini Shankar Ghosh, Sharmila S Mande (2011). “Eu-Detect: an algorithm for detecting eukaryotic sequences in metagenomic data sets”. Journal of Biosciences 36 (4): 709–717. PMID 21857117. 
  27. ^ R, Schmeider; R Edwards (2011). “Fast identification and removal of sequence contamination from genomic and metagenomic datasets”. PLoS ONE 6 (3): e17288. Bibcode:2011PLoSO...617288S. doi:10.1371/journal.pone.0017288. PMC 3052304. PMID 21408061. 
  28. ^ a ă â doi:10.1128/MMBR.00009-08
    Hoàn thành chú thích này
  29. ^ a ă Huson, Daniel H; S. Mitra, N. Weber, H. Ruscheweyh and Stephan C. Schuster (tháng 6 năm 2011). “Integrative analysis of environmental sequences using MEGAN4”. Genome Research 21 (9): 1552–1560. doi:10.1101/gr.120618.111. PMC 3166839. PMID 21690186. 
  30. ^ Zhu, Wenhan; Lomsadze Alex and Borodovsky Mark (2010). “Ab initio gene identification in metagenomic sequences”. Nucleic Acids Research 38 (12): e132. doi:10.1093/nar/gkq275. PMC 2896542. PMID 20403810. 
  31. ^ doi:10.1038/ismej.2009.88
    Hoàn thành chú thích này
  32. ^ a ă Huson, Daniel H; A. Auch, Ji Qi, Stephan C Schuster (tháng 1 năm 2007). “MEGAN Analysis of Metagenomic Data”. Genome Research 17 (3): 377–386. doi:10.1101/gr.5969107. PMC 1800929. PMID 17255551. 
  33. ^ Pagani, Ioanna; Konstantinos Liolios, Jakob Jansson, I-Min A Chen, Tatyana Smirnova, Bahador Nosrat, Victor M Markowitz, Nikos C Kyrpides (1 tháng 12 năm 2011). “The Genomes OnLine Database (GOLD) v.4: status of genomic and metagenomic projects and their associated metadata”. Nucleic Acids Research 40 (1): D571–9. doi:10.1093/nar/gkr1100. ISSN 1362-4962. PMC 3245063. PMID 22135293. 
  34. ^ Meyer, F; Paarmann D, D'Souza M, Olson R, Glass EM, Kubal M, Paczian T, Rodriguez A, Stevens R, Wilke A, Wilkening J, Edwards RA (2008). “The metagenomics RAST server – a public resource for the automatic phylogenetic and functional analysis of metagenomes”. BMC Bioinformatics 9: 0. doi:10.1186/1471-2105-9-386. PMC 2563014. PMID 18803844. 
  35. ^ PMID 22086953 (PubMed)
    Citation will be completed automatically in a few minutes. Jump the queue or expand by hand
  36. ^ a ă Mitra, Suparna; Paul Rupek, Daniel C Richter, Tim Urich, Jack A Gilbert, Folker Meyer, Andreas Wilke, Daniel H Huson (2011). “Functional analysis of metagenomes and metatranscriptomes using SEED and KEGG”. BMC Bioinformatics. 12 Suppl 1: S21. doi:10.1186/1471-2105-12-S1-S21. ISSN 1471-2105. PMC 3044276. PMID 21342551. 
  37. ^ Kurokawa, Ken; Takehiko Itoh, Tomomi Kuwahara, Kenshiro Oshima, Hidehiro Toh, Atsushi Toyoda, Hideto Takami, Hidetoshi Morita, Vineet K. Sharma, Tulika P. Srivastava, Todd D. Taylor, Hideki Noguchi, Hiroshi Mori, Yoshitoshi Ogura, Dusko S. Ehrlich, Kikuji Itoh, Toshihisa Takagi, Yoshiyuki Sakaki, Tetsuya Hayashi, Masahira Hattori (1 tháng 1 năm 2007). “Comparative Metagenomics Revealed Commonly Enriched Gene Sets in Human Gut Microbiomes”. DNA Research 14 (4): 169–181. doi:10.1093/dnares/dsm018. PMC 2533590. PMID 17916580. Truy cập ngày 18 tháng 12 năm 2011. 
  38. ^ a ă â b c d doi:10.1128/AEM.02345-10
    Hoàn thành chú thích này
  39. ^ Willner, D; RV Thurber and F Rohwer. (2009). “Metagenomic signatures of 86 microbial and viral metagenomes.”. Environmental Microbiology 11 (7): 1752–66. 
  40. ^ a ă Ghosh, Tarini Shankar; Monzoorul Haque Mohammed, Hannah Rajasingh, Sudha Chadaram and Sharmila S Mande (2011). “HabiSign: a novel approach for comparison of metagenomes and rapid identification of habitat-specific sequences.”. BMC Bioinformatics 12 (Supplement 13): S9. 
  41. ^ McInerney, Michael J.; Jessica R. Sieber, Robert P. Gunsalus (tháng 12 năm 2009). “Syntrophy in Anaerobic Global Carbon Cycles”. Current opinion in biotechnology 20 (6): 623–632. doi:10.1016/j.copbio.2009.10.001. ISSN 0958-1669. PMC 2790021. PMID 19897353. 
  42. ^ doi:10.1016/j.copbio.2011.04.018
    Hoàn thành chú thích này
  43. ^ doi:10.1038/nature04983
    Hoàn thành chú thích này
  44. ^ Kristensen, DM; Mushegian AR, Dolja VV, Koonin EV (2009). “New dimensions of the virus world discovered through metagenomics”. Trends in Microbiology 18 (1): 11–19. doi:10.1016/j.tim.2009.11.003. PMC 3293453. PMID 19942437. 
  45. ^ Zimmer, Carl (13 tháng 7 năm 2010). “How Microbes Defend and Define Us”. New York Times. Truy cập ngày 29 tháng 12 năm 2011. 
  46. ^ Nelson KE and White BA (2010). “Metagenomics and Its Applications to the Study of the Human Microbiome”. Metagenomics: Theory, Methods and Applications. Caister Academic Press. ISBN 978-1-904455-54-7. 
  47. ^ Qin, Junjie; Ruiqiang Li, Jeroen Raes, Manimozhiyan Arumugam, Kristoffer Solvesten Burgdorf (tháng 3 năm 2010). “A human gut microbial gene catalogue established by metagenomic sequencing”. Nature 464 (7285): 59–65. doi:10.1038/nature08821. PMID 20203603. 
  48. ^ Hess, Matthias; Alexander Sczyrba, Rob Egan, Tae-Wan Kim, Harshal Chokhawala, Gary Schroth, Shujun Luo, Douglas S Clark, Feng Chen, Tao Zhang, Roderick I Mackie, Len A Pennacchio, Susannah G Tringe, Axel Visel, Tanja Woyke, Zhong Wang, Edward M Rubin (28 tháng 1 năm 2011). “Metagenomic discovery of biomass-degrading genes and genomes from cow rumen”. Science 331 (6016): 463–467. Bibcode:2011Sci...331..463H. doi:10.1126/science.1200387. ISSN 1095-9203. PMID 21273488. 
  49. ^ Li, Luen-Luen; Sean R McCorkle, Sebastien Monchy, Safiyh Taghavi, Daniel van der Lelie (18 tháng 5 năm 2009). “Bioprospecting metagenomes: glycosyl hydrolases for converting biomass”. Biotechnology for Biofuels 2: 10. doi:10.1186/1754-6834-2-10. ISSN 1754-6834. 
  50. ^ Jaenicke, Sebastian; Christina Ander, Thomas Bekel, Regina Bisdorf, Marcus Dröge, Karl-Heinz Gartemann, Sebastian Jünemann, Olaf Kaiser, Lutz Krause, Felix Tille, Martha Zakrzewski, Alfred Pühler, Andreas Schlüter, Alexander Goesmann (26 tháng 1 năm 2011). “Comparative and Joint Analysis of Two Metagenomic Datasets from a Biogas Fermenter Obtained by 454-Pyrosequencing”. Trong Aziz, Ramy K. PLoS ONE 6 (1): e14519. Bibcode:2011PLoSO...614519J. doi:10.1371/journal.pone.0014519. PMC 3027613. PMID 21297863. 
  51. ^ Suen, Garret; Jarrod J Scott, Frank O Aylward, Sandra M Adams, Susannah G Tringe, Adrián A Pinto-Tomás, Clifton E Foster, Markus Pauly, Paul J Weimer, Kerrie W Barry, Lynne A Goodwin, Pascal Bouffard, Lewyn Li, Jolene Osterberger, Timothy T Harkins, Steven C Slater, Timothy J Donohue, Cameron R Currie (tháng 9 năm 2010). “An insect herbivore microbiome with high plant biomass-degrading capacity”. Trong Sonnenburg, Justin. PLoS Genetics 6 (9): e1001129. doi:10.1371/journal.pgen.1001129. ISSN 1553-7404. PMC 2944797. PMID 20885794. 
  52. ^ George I và đồng nghiệp (2010). “Application of Metagenomics to Bioremediation”. Metagenomics: Theory, Methods and Applications. Caister Academic Press. ISBN 978-1-904455-54-7. 
  53. ^ a ă Committee on Metagenomics: Challenges and Functional Applications, National Research Council (2007). Understanding Our Microbial Planet: The New Science of Metagenomics. The National Academies Press. 
  54. ^ doi:10.1007/s00253-009-2233-z
    Hoàn thành chú thích này
  55. ^ Wong D (2010). “Applications of Metagenomics for Industrial Bioproducts”. Metagenomics: Theory, Methods and Applications. Caister Academic Press. ISBN 978-1-904455-54-7. 
  56. ^ a ă Schloss, Patrick D; Jo Handelsman (tháng 6 năm 2003). “Biotechnological prospects from metagenomics”. Current Opinion in Biotechnology 14 (3): 303–310. doi:10.1016/S0958-1669(03)00067-3. ISSN 0958-1669. PMID 12849784. Truy cập ngày 3 tháng 1 năm 2012. 
  57. ^ a ă â Kakirde, Kavita S.; Larissa C. Parsley, Mark R. Liles (1 tháng 11 năm 2010). “Size Does Matter: Application-driven Approaches for Soil Metagenomics”. Soil biology & biochemistry 42 (11): 1911–1923. doi:10.1016/j.soilbio.2010.07.021. ISSN 0038-0717. 
  58. ^ Parachin, Nádia Skorupa; Marie F Gorwa-Grauslund (2011). “Isolation of xylose isomerases by sequence- and function-based screening from a soil metagenomic library”. Biotechnology for Biofuels 4 (1): 9. doi:10.1186/1754-6834-4-9. ISSN 1754-6834. Truy cập ngày 3 tháng 1 năm 2012. 
  59. ^ Jansson, Janet (2011). “Towards "Tera-Terra": Terabase Sequencing of Terrestrial Metagenomes Print E-mail”. Microbe 6 (7). tr. 309. 
  60. ^ doi:10.1038/nrmicro2119
    Hoàn thành chú thích này
  61. ^ “TerraGenome Homepage”. TerraGenome international sequencing consortium. Truy cập ngày 30 tháng 12 năm 2011. 
  62. ^ Charles T (2010). “The Potential for Investigation of Plant-microbe Interactions Using Metagenomics Methods”. Metagenomics: Theory, Methods and Applications. Caister Academic Press. ISBN 978-1-904455-54-7. 
  63. ^ PMID 21407210 (PubMed)
    Citation will be completed automatically in a few minutes. Jump the queue or expand by hand
  64. ^ doi:10.1371/journal.pone.0036478
    Hoàn thành chú thích này
  65. ^ What's Swimming In The River? Just Look For DNA

Lỗi chú thích: Thẻ <ref> có tên “werner2011” được định nghĩa trong <references> không được đoạn văn bản trên sử dụng.
Lỗi chú thích: Thẻ <ref> có tên “Pace1991” được định nghĩa trong <references> không được đoạn văn bản trên sử dụng.
Lỗi chú thích: Thẻ <ref> có tên “segata2012” được định nghĩa trong <references> không được đoạn văn bản trên sử dụng.
Lỗi chú thích: Thẻ <ref> có tên “Charuvaka” được định nghĩa trong <references> không được đoạn văn bản trên sử dụng.
Lỗi chú thích: Thẻ <ref> có tên “yooseph2010” được định nghĩa trong <references> không được đoạn văn bản trên sử dụng.

Lỗi chú thích: Thẻ <ref> có tên “Venter2004” được định nghĩa trong <references> không được đoạn văn bản trên sử dụng.

Liên kết ngoài[sửa | sửa mã nguồn]

Bản mẫu:Genomics