<div dir="ltr">Hi Titus and all,<div>Following up on my previous question - I ran a few different assemblies exploring the effect of using khmer digital normalization and FLASH to merge short reads. I compared the results of (1) running diginorm only, (2) running diginorm than attempting to merge still-paired reads with FLASH, and (3) first attempting to merge paired reads with FLASH followed by diginorm. In all cases, I used trimmed-and-filtered reads and performed assembly using velvet-oases with a kmer of 21. Below are some assembly statistics.  </div>
<div><br></div><div>1) diginorm only</div><div><br></div><div><div>assembly stat                result</div><div>---------------------               ------------</div><div>Total Contigs                 126812</div><div>Total Trimmed Contigs   126781</div>
<div>Total Length                  109476821</div><div>Min contig size              100</div><div>Median contig size         365</div><div>Mean contig size            863</div><div>Max contig size             14314</div><div>
N50 Contig                    16370</div><div>N50 Length                   1933</div><div>N90 Contig                    66842</div><div>N90 Length                   333</div></div><div><br></div><div>2) diginorm than FLASH<br>
</div><div><br></div><div><div>assembly stat                result</div><div>---------------------                ------------</div><div>Total Contigs                   111434</div><div>Total Trimmed Contigs     111413</div>
<div>Total Length                    111343478</div><div>Min contig size                100</div><div>Median contig size           447</div><div>Mean contig size             999</div><div>Max contig size               20427</div>
<div>N50 Contig                      15236</div><div>N50 Length                      2163</div><div>N90 Contig                      58158</div><div>N90 Length                     410</div></div><div><br></div><div><br></div>
<div>3) FLASH than diginorm</div><div><br></div><div><div>assembly stat                result</div><div>---------------------               ------------</div><div>Total Contigs                  90612</div><div>Total Trimmed Contigs    90612</div>
<div>Total Length                   86485229</div><div>Min contig size               119</div><div>Median contig size          586</div><div>Mean contig size            954</div><div>Max contig size             14006</div>
<div>N50 Contig                    16436</div><div>N50 Length                    1506</div><div>N90 Contig                    60314</div><div>N90 Length                    396</div></div><div><br></div><div><br></div><div>
It&#39;s interesting, and seems to make sense, that merging reads prior to diginorm results in the assembly with the fewest contigs (FYI - based on the closest genome for this species, I expect ~17k genes so way more transcripts than genes). I&#39;m leaning towards using this as my final assembly as having fewer and longer (at least than diginorm alone) contigs seems preferable.</div>
<div><br></div><div>thanks,</div><div>John</div><div><br></div></div><div class="gmail_extra"><br><br><div class="gmail_quote">On Fri, Jul 26, 2013 at 4:10 PM, John Stanton-Geddes <span dir="ltr">&lt;<a href="mailto:johnsg@uvm.edu" target="_blank">johnsg@uvm.edu</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr">Hi Titus and the khmer list,<div>I&#39;m working on transcriptome assembly with samples treated at 12 different temperatures to capture genes expressed across the thermal range of my favorite ant species. I pooled the samples and ran them in a single lane of 100 bp paired end HiSeq, so I have about 16 million reads per sample, 160 million reads total. </div>


<div><br></div><div>My question: </div><div>is there any benefit to merging my paired-end reads (e.g. using FLASH <a href="http://bioinformatics.oxfordjournals.org/content/early/2011/09/07/bioinformatics.btr507" target="_blank">http://bioinformatics.oxfordjournals.org/content/early/2011/09/07/bioinformatics.btr507</a>) prior to running diginorm? A preliminary run of FLASH on some of my samples showed that about 65% of reads are merged (which is a bit surprising since the library was supposed to have been size-selected at 200 bp). </div>


<div><div><br></div><div>My thought is to run diginorm on the merged reads, and also on the un-merged reads using the `-p` option as documented previously (<a href="http://lists.idyll.org/pipermail/khmer/2013-July/000123.html" target="_blank">http://lists.idyll.org/pipermail/khmer/2013-July/000123.html</a>). I&#39;d then combine all these and run a second pass of diginorm.</div>

<div><br></div><div>Is this a valid approach, or is merging reads redundant with what diginorm does (since reads that add extra coverage would be tossed out anyway)?  </div><div><br></div><div>Apologies if this is a noob question.</div>

<div><br></div><div>Thanks for the software!</div><span class="HOEnZb"><font color="#888888"><div><br></div><div>-John</div><div><br></div>-- <br><div dir="ltr"><div><span style="color:rgb(102,102,102)">Postdoctoral Research Associate</span><br>
</div><div><span><font color="#666666">Department of Biology, University of Vermont</font></span></div>

<div><font color="#666666"><span style="line-height:16px">Room 211, Marsh Life Science Building</span><br style="line-height:16px"><span style="line-height:16px">109 Carrigan Drive</span><br style="line-height:16px">

<span style="line-height:16px">Burlington, Vermont 05405</span></font><br></div><div><font color="#666666"><span style="line-height:16px"><a href="http://www.johnstantongeddes.org" target="_blank">www.johnstantongeddes.org</a></span></font></div>


</div>
</font></span></div></div>
</blockquote></div><br><br clear="all"><div><br></div>-- <br><div dir="ltr"><div><span style="color:rgb(102,102,102)">Postdoctoral Research Associate</span><br></div><div><span style="background-color:rgb(255,255,255)"><font color="#666666">Department of Biology, University of Vermont</font></span></div>
<div><font style="background-color:rgb(255,255,255)" color="#666666"><span style="line-height:16px">Room 211, Marsh Life Science Building</span><br style="line-height:16px"><span style="line-height:16px">109 Carrigan Drive</span><br style="line-height:16px">
<span style="line-height:16px">Burlington, Vermont 05405</span></font><br></div><div><font style="background-color:rgb(255,255,255)" color="#666666"><span style="line-height:16px"><a href="http://www.johnstantongeddes.org" target="_blank">www.johnstantongeddes.org</a></span></font></div>
</div>
</div>