Hi all:<br><br>Jim Cole will present the attached papers discussing methods to classify metagenomic data.  Many of us are dealing with the challenge of how to get useful information from unassembled short reads in our projects.<br>
<br>Hope to see you there (9:30!),<br>Adina<br><br><br><br>Phymm and PhymmBl: metagenomic phylogenetic classification with interpolated markov models<br><br>Metagenomics projects collect dnA from uncharacterized<br>environments that may contain thousands of species per<br>
sample. one main challenge facing metagenomic analysis is<br>phylogenetic classification of raw sequence reads into groups<br>representing the same or similar taxa, a prerequisite for<br>genome assembly and for analyzing the biological diversity of a<br>
sample. new sequencing technologies have made metagenomics<br>easier, by making sequencing faster, and more difficult, by<br>producing shorter reads than previous technologies. classifying<br>sequences from reads as short as 100 base pairs has until now<br>
been relatively inaccurate, requiring researchers to use older,<br>long-read technologies. We present Phymm, a classifier for<br>metagenomic data, that has been trained on 539 complete,<br>curated genomes and can accurately classify reads as short<br>
as 100 base pairs, a substantial improvement over previous<br>composition-based classification methods. We also describe<br>how combining Phymm with sequence alignment algorithms<br>improves accuracy.<br><br>Metagenome Fragment Classification Using N-Mer Frequency Profiles<br>
<font style="font-family: arial,helvetica,sans-serif;" size="2"><br>A vast amount of microbial sequencing data is being generated through large-scale projects in ecology, agriculture, and human health. Efficient high-throughput methods are needed to analyze the mass amounts of metagenomic data, all DNA present in an environmental sample. A major obstacle in metagenomics is the inability to obtain accuracy using technology that yields short<br>
reads. We construct the unique N-mer frequency profiles of 635 microbial genomes publicly available as of February 2008. These profiles are used to train a naive Bayes classifier (NBC) that can be used to identify the genome of any fragment. We show that our method is comparable to BLAST for small 25 bp fragments but does not have the ambiguity of BLAST’s tied top scores.<br>
We demonstrate that this approach is scalable to identify any fragment from hundreds of genomes. It also performs quite well at the strain, species, and genera levels and achieves strain resolution despite classifying ubiquitous genomic fragments (gene and nongene regions). Cross-validation analysis demonstrates that species-accuracy achieves 90% for highly-represented species containing an average of 8 strains. We demonstrate that such a tool can be used on the Sargasso Sea dataset, and our analysis shows that NBC can be further enhanced.<br>
</font><div style="font-family: arial,helvetica,sans-serif;"><div class="h5"><font size="2"><br></font>
</div></div><br>