<div dir="ltr">That makes a lot of sense, thanks!</div><div class="gmail_extra"><br><br><div class="gmail_quote">On Sat, Jan 18, 2014 at 10:50 AM, C. Titus Brown <span dir="ltr">&lt;<a href="mailto:ctb@msu.edu" target="_blank">ctb@msu.edu</a>&gt;</span> wrote:<br>

<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div class="im">On Sat, Jan 18, 2014 at 05:00:03AM -0800, C. Titus Brown wrote:<br>
&gt; On Fri, Jan 17, 2014 at 09:31:32PM -0200, Nacho Caballero wrote:<br>
&gt; &gt; I used khmer to digitally normalize two assemblies:<br>
&gt; &gt;<br>
&gt; &gt;    - After normalization, Assembly A has *1.5 million reads*, and during<br>
&gt; &gt;    assembly SPAdes uses *116 million* kmers (k=37)<br>
&gt; &gt;    - After normalization, Assembly B has *1.5 million reads*, during<br>
&gt; &gt;    assembly SPAdes uses *612 million* kmers (k=37)<br>
&gt; &gt;<br>
&gt; &gt; I followed the same protocol on both assemblies (quality filtering with<br>
&gt; &gt; Trimmomatic, 3-pass normalization, etc.), so I don???t understand why<br>
&gt; &gt; assembly B, with 16x fewer reads, has 8x more kmers than assembly A.<br>
&gt; &gt;<br>
&gt; &gt; What are some possible explanations?<br>
&gt;<br>
&gt; Barring some extraordinarily bizarre bug, the answer *must* be SPAdes<br>
&gt; is *choosing to use* more k-mers... I&#39;ll ask the SPAdes authors ;)<br>
<br>
</div>Anton (one of the SPAdes authors) pointed out that I&#39;d misread the e-mail.<br>
If dataset A and dataset B are from different samples, then they could easily<br>
have different levels of diversity which would lead to different numbers of<br>
k-mers for the same coverage level.<br>
<br>
The simplest explanation would be that dataset B is both more diverse<br>
and has lower coverage than dataset A, I think.  I would guess that<br>
if you generated 6 times as much data for sample B then diginorm would<br>
leave you with many more reads, although this is a bit dependent on the<br>
diversity of sample B.<br>
<br>
cheers,<br>
--titus<br>
<div class="im HOEnZb"><br>
&gt;<br>
&gt; If you want to check the total number of k-mers, we have some scripts<br>
&gt; in khmer to do that.  See &#39;abundance-dist-single.py&#39; here,<br>
&gt;<br>
&gt;       <a href="http://khmer.readthedocs.org/en/latest/scripts.html#scripts-counting" target="_blank">http://khmer.readthedocs.org/en/latest/scripts.html#scripts-counting</a><br>
&gt;<br>
&gt; cheers,<br>
&gt; --titus<br>
&gt; --<br>
&gt; C. Titus Brown, <a href="mailto:ctb@msu.edu">ctb@msu.edu</a><br>
&gt;<br>
</div><div class="im HOEnZb">&gt; _______________________________________________<br>
&gt; khmer mailing list<br>
&gt; <a href="mailto:khmer@lists.idyll.org">khmer@lists.idyll.org</a><br>
&gt; <a href="http://lists.idyll.org/listinfo/khmer" target="_blank">http://lists.idyll.org/listinfo/khmer</a><br>
<br>
</div><div class="HOEnZb"><div class="h5">--<br>
C. Titus Brown, <a href="mailto:ctb@msu.edu">ctb@msu.edu</a><br>
</div></div></blockquote></div><br></div>