<div dir="ltr">Thank you Julia for doing a git checkout. Just to verify that operation can you share the output of `git describe` inside your checkout?<div><br></div><div>I&#39;m also tracking this issue on GitHub: <a href="https://github.com/ged-lab/khmer/issues/266">https://github.com/ged-lab/khmer/issues/266</a></div>

</div><div class="gmail_extra"><br><br><div class="gmail_quote">On Tue, Dec 24, 2013 at 5:59 PM, Oh, Julia (NIH/NHGRI) [F] <span dir="ltr">&lt;<a href="mailto:julia.oh@nih.gov" target="_blank">julia.oh@nih.gov</a>&gt;</span> wrote:<br>

<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Results are in and the error reproduced:<br>
<br>
The following commands yield:<br>
<div class="im">python2.7 /home/ohjs/khmer/scripts/normalize-by-median.py -C 20 -k 20 -N 4 -x 60e9 --savehash <a href="http://round2.unaligned_ref.kh" target="_blank">round2.unaligned_ref.kh</a> -R round2.unaligned_1.report round2.unaligned;<br>


</div>python2.7 /home/ohjs/khmer/scripts/filter-abund.py <a href="http://round2.unaligned_ref.kh" target="_blank">round2.unaligned_ref.kh</a> round2.unaligned.keep;<br>
<div class="im">python2.7 /home/ohjs/khmer/scripts/normalize-by-median.py -C 5 -k 20 -N 4 -x 16e9 round2.unaligned.keep.abundfilt;<br>
<br>
</div>This last command yields:<br>
<br>
########<br>
... kept 116741181 of 151000000 or 77%<br>
... in file round2.unaligned.keep.abundfilt<br>
... kept 116816167 of 151100000 or 77%<br>
... in file round2.unaligned.keep.abundf-------- running PBS epilogue script (5081978.biobos p78 ohjs) --------<br>
<br>
Show some job stats:<br>
<br>
5081978.biobos elapsed time:         9485 seconds<br>
5081978.biobos walltime:         02:37:52 hh:mm:ss<br>
5081978.biobos memory limit:        69.14 GB<br>
5081978.biobos memory used:         69.16 GB<br>
5081978.biobos cpupercent used:     98.00 %<br>
<br>
==================================================================================================<br>
||   NOTE: this job was likely deleted by the batch system due to exceeding available memory.   ||<br>
==================================================================================================<br>
<br>
#########<br>
<br>
<br>
Thanks &amp; happy holidays,<br>
Julia<br>
<div class="HOEnZb"><div class="h5"><br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
On Dec 18, 2013, at 10:46 AM, C. Titus Brown &lt;<a href="mailto:ctb@msu.edu">ctb@msu.edu</a>&gt; wrote:<br>
<br>
&gt; On Wed, Dec 18, 2013 at 03:43:22PM +0000, Oh, Julia (NIH/NHGRI) [F] wrote:<br>
&gt;&gt; [ohjs@helix khmer]$ git checkout master<br>
&gt;&gt; Branch master set up to track remote branch master from origin.<br>
&gt;&gt; Switched to a new branch &#39;master&#39;<br>
&gt;&gt; [ohjs@helix khmer]$ make<br>
&gt;&gt;<br>
&gt;&gt; ===&gt; lots of stuff, ending with:<br>
&gt;&gt;<br>
&gt;&gt; copying build/lib.linux-x86_64-2.6/khmer/_khmermodule.so -&gt; khmer<br>
&gt;&gt; make[1]: Leaving directory `/home/ohjs/khmer/python&#39;<br>
&gt;&gt;<br>
&gt;&gt; [ohjs@helix khmer]$ git branch<br>
&gt;&gt;  bleeding-edge<br>
&gt;&gt; * master<br>
&gt;<br>
&gt; OK, great! This is the latest development version; can you see if you can<br>
&gt; reproduce the problem with it?  (Sadly, I expect you will, as we haven&#39;t<br>
&gt; made many significant changes to normalize-by-median&#39;s machinery...)<br>
&gt;<br>
&gt; best,<br>
&gt; --titus<br>
&gt;<br>
&gt;&gt; On Dec 18, 2013, at 8:10 AM, C. Titus Brown &lt;<a href="mailto:ctb@msu.edu">ctb@msu.edu</a>&gt; wrote:<br>
&gt;&gt;<br>
&gt;&gt;&gt; On Wed, Dec 18, 2013 at 03:07:57AM +0000, Oh, Julia (NIH/NHGRI) [F] wrote:<br>
&gt;&gt;&gt;&gt; Titus?thanks for the tip on variable coverage; will definitely try that out.<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; Great -- should significantly improve sensitivity to low coverage &quot;stuff&quot;!<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; Michael?pretty sure I did a git clone. The last date in my directory is Sept 5th?but not sure if that would be pull date or your last modified date.<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; OK, and then one last check... did you check out the &#39;master&#39; or &#39;legacy&#39;<br>
&gt;&gt;&gt; branch?  What does &#39;git branch&#39; report?<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; To check out master, do:<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; git checkout master<br>
&gt;&gt;&gt; make<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; cheers,<br>
&gt;&gt;&gt; --titus<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; On Dec 17, 2013, at 8:16 PM, Michael R. Crusoe &lt;<a href="mailto:mcrusoe@msu.edu">mcrusoe@msu.edu</a>&lt;mailto:<a href="mailto:mcrusoe@msu.edu">mcrusoe@msu.edu</a>&gt;&gt; wrote:<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; Hello Julia,<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; What version of khmer are you using?<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; That is, did you install via `pip` or a `git clone`?<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; On Tue, Dec 17, 2013 at 5:14 PM, C. Titus Brown &lt;<a href="mailto:ctb@msu.edu">ctb@msu.edu</a>&lt;mailto:<a href="mailto:ctb@msu.edu">ctb@msu.edu</a>&gt;&gt; wrote:<br>
&gt;&gt;&gt;&gt; On Tue, Dec 17, 2013 at 04:36:34PM -0800, C. Titus Brown wrote:<br>
&gt;&gt;&gt;&gt;&gt; On Tue, Dec 17, 2013 at 07:53:18PM +0000, Oh, Julia (NIH/NHGRI) [F] wrote:<br>
&gt;&gt;&gt;&gt;&gt; Now, on to your real question :)<br>
&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt; $python2.7 /home/ohjs/khmer/scripts/normalize-by-median.py -C 5 -k 20 -N 4 -x 16e9 round2.unaligned.keep.abundfilt;<br>
&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt; I thought I would be maxing out at 64 GB ram for the hash table (I?ve also used 32e9), but I get the following RAM usage report of<br>
&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt; 4986693.biobos elapsed time:        23358 seconds<br>
&gt;&gt;&gt;&gt;&gt;&gt; 4986693.biobos walltime:         06:28:36 hh:mm:ss<br>
&gt;&gt;&gt;&gt;&gt;&gt; 4986693.biobos memory limit:       249.00 GB<br>
&gt;&gt;&gt;&gt;&gt;&gt; 4986693.biobos memory used:        249.76 GB<br>
&gt;&gt;&gt;&gt;&gt;&gt; 4986693.biobos cpupercent used:     98.00 %<br>
&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt; What the heck!? That&#39;s not supposed to happen!<br>
&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt; This is either a bug, or (most likely) is being caused by an overabundance of<br>
&gt;&gt;&gt;&gt;&gt; high-abundance k-mers.  The latter is easy to fix -- I&#39;ve filed a bug report to<br>
&gt;&gt;&gt;&gt;&gt; fix the latter in the software overall [0] -- but would require you to modify<br>
&gt;&gt;&gt;&gt;&gt; the script at the moment.  If you&#39;re up for that, put<br>
&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;     ht.set_use_bigcount(False)<br>
&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt; at line 186 of normalize-by-median:<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; Darn it, that can&#39;t be the problem; I just wrote a test against this<br>
&gt;&gt;&gt;&gt; behavior and we actually did things right in the script and ignored<br>
&gt;&gt;&gt;&gt; high abundance k-mers.<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; So, this must be a bug of some sort.  Umm... Michael, any ideas?!<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; cheers,<br>
&gt;&gt;&gt;&gt; --titus<br>
&gt;&gt;&gt;&gt; --<br>
&gt;&gt;&gt;&gt; C. Titus Brown, <a href="mailto:ctb@msu.edu">ctb@msu.edu</a>&lt;mailto:<a href="mailto:ctb@msu.edu">ctb@msu.edu</a>&gt;<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; _______________________________________________<br>
&gt;&gt;&gt;&gt; khmer mailing list<br>
&gt;&gt;&gt;&gt; <a href="mailto:khmer@lists.idyll.org">khmer@lists.idyll.org</a>&lt;mailto:<a href="mailto:khmer@lists.idyll.org">khmer@lists.idyll.org</a>&gt;<br>
&gt;&gt;&gt;&gt; <a href="http://lists.idyll.org/listinfo/khmer" target="_blank">http://lists.idyll.org/listinfo/khmer</a><br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; --<br>
&gt;&gt;&gt;&gt; Michael R. Crusoe: Software Engineer and Bioinformatician  <a href="mailto:mcrusoe@msu.edu">mcrusoe@msu.edu</a>&lt;mailto:<a href="mailto:mcrusoe@msu.edu">mcrusoe@msu.edu</a>&gt;<br>
&gt;&gt;&gt;&gt; @ the Genomics, Evolution, and Development lab; Michigan State University<br>
&gt;&gt;&gt;&gt; <a href="http://ged.msu.edu/" target="_blank">http://ged.msu.edu/</a>     <a href="http://orcid.org/0000-0002-2961-9670" target="_blank">http://orcid.org/0000-0002-2961-9670</a>    @biocrusoe&lt;<a href="http://twitter.com/biocrusoe" target="_blank">http://twitter.com/biocrusoe</a>&gt;<br>


&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; --<br>
&gt;&gt;&gt; C. Titus Brown, <a href="mailto:ctb@msu.edu">ctb@msu.edu</a><br>
&gt;&gt;<br>
&gt;<br>
&gt; --<br>
&gt; C. Titus Brown, <a href="mailto:ctb@msu.edu">ctb@msu.edu</a><br>
<br>
</div></div></blockquote></div><br><br clear="all"><div><br></div>-- <br><div dir="ltr"><font face="courier new, monospace">Michael R. Crusoe: Software Engineer and Bioinformatician  <a href="mailto:mcrusoe@msu.edu" target="_blank">mcrusoe@msu.edu</a><br>

 @ the Genomics, Evolution, and Development lab; Michigan State University<br><a href="http://ged.msu.edu/" target="_blank">http://ged.msu.edu/</a>     <a href="http://orcid.org/0000-0002-2961-9670" target="_blank">http://orcid.org/0000-0002-2961-9670</a>    <a href="http://twitter.com/biocrusoe" target="_blank">@biocrusoe</a></font><br>

</div>
</div>