hi all:<br><br>let&#39;s try to have a meeting sometime in the next week or so.  is wednesday at 930 still ok for most folks this time around?  maybe we can talk a bit more about our graph traversal filter for assembly.<br>
<br>adina<br>-------<br><br>FragGeneScan: predicting genes in short and<br>error-prone reads<br><br>ABSTRACT<br>The advances of next-generation sequencing technology<br>have facilitated metagenomics research that<br>attempts to determine directly the whole collection<br>
of genetic material within an environmental sample<br>(i.e. the metagenome). Identification of genes directly<br>from short reads has become an important yet<br>challenging problem in annotating metagenomes,<br>since the assembly of metagenomes is often not<br>
available. Gene predictors developed for whole<br>genomes (e.g. Glimmer) and recently developed for<br>metagenomic sequences (e.g. MetaGene) show a<br>significant decrease in performance as the<br>sequencing error rates increase, or as reads get<br>
shorter. We have developed a novel gene prediction<br>method FragGeneScan, which combines sequencing<br>error models and codon usages in a hidden Markov<br>model to improve the prediction of protein-coding<br>region in short reads. The performance of<br>
FragGeneScan was comparable to Glimmer and<br>MetaGene for complete genomes. But for short<br>reads, FragGeneScan consistently outperformed<br>MetaGene (accuracy improved 62% for reads of<br>400 bases with 1% sequencing errors, and 18%<br>
for short reads of 100 bases that are error free).<br>When applied to metagenomes, FragGeneScan recovered<br>substantially more genes than MetaGene<br>predicted (&gt;90% of the genes identified by<br>homology search), and many novel genes with no<br>
homologs in current protein sequence database.<br><br><br><br>