<div dir="ltr"><div class="gmail_default" style="font-family:&#39;trebuchet ms&#39;,sans-serif">Agreed. Does this look OK? <a href="https://github.com/ged-lab/khmer/issues/618">https://github.com/ged-lab/khmer/issues/618</a></div></div><div class="gmail_extra"><br clear="all"><div><div dir="ltr">--<br><div><font face="garamond, serif">Ram</font></div></div></div>
<br><div class="gmail_quote">On Thu, Sep 25, 2014 at 12:39 PM, C. Titus Brown <span dir="ltr">&lt;<a href="mailto:ctb@msu.edu" target="_blank">ctb@msu.edu</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="auto"><div>Sorry for top posting; traveling.</div><div><br></div><div>For some scripts, input size is poor predictor of output size, which will usually be much smaller.  For other scripts, output size is not predictable. I think this could usefully be discussed in an issue before PR begins?</div><div><br></div><div>Also, force flag is higher priority than all of this; with a force flag, it matters less if we get the details wrong for space checking.</div><div><br></div><div>--titus<br><br><div>---</div>C. Titus Brown, <a href="mailto:ctb@msu.edu" target="_blank">ctb@msu.edu</a></div><div><div class="h5"><div><br>On Sep 25, 2014, at 11:32, Ramakrishnan Srinivasan &lt;<a href="mailto:ramrs@nyu.edu" target="_blank">ramrs@nyu.edu</a>&gt; wrote:<br><br></div><blockquote type="cite"><div><div dir="ltr"><div class="gmail_default" style="font-family:trebuchet ms,sans-serif">Scripts with an option to write to a different directory are:</div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif"><br></div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif">a. count-median.py</div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif">b. count-overlap.py</div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif">c. do-partition.py</div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif">d. extract-long-sequences.py</div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif">e. extract-paired-reads.py</div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif">f. extract-partitions.py</div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif">g. fastq-to-fasta.py</div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif">h. filter-abund.py</div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif">i. interleave-reads.py</div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif">j. load-into-counting.py</div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif">k. normalize-by-median.py</div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif">l. sample-reads-randomly.py</div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif"><br></div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif">The solution is to add an optional parameter that holds output location. We check for free space in out dir equivalent to the largest input file size.</div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif"><br></div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif">If it&#39;s OK with you, I can take this up.</div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif"><br></div><div class="gmail_default" style="font-family:trebuchet ms,sans-serif">Also, the script extract-paired-reads.py uses a mix of argparse and sys.argv[]. Should we maybe modify this to use a single approach?<br></div></div><div class="gmail_extra"><br clear="all"><div><div dir="ltr">--<br><div><font face="garamond, serif">Ram</font></div></div></div>
<br><div class="gmail_quote">On Thu, Sep 25, 2014 at 12:08 PM, Ramakrishnan Srinivasan <span dir="ltr">&lt;<a href="mailto:ramrs@nyu.edu" target="_blank">ramrs@nyu.edu</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><div class="gmail_default" style="font-family:trebuchet ms,sans-serif">I think this is a case of passing the output file path in scripts where -in path can be different from -out path (such as in normalize-by-median).</div></div><div class="gmail_extra"><br clear="all"><div><div dir="ltr">--<br><div><font face="garamond, serif">Ram</font></div></div></div><div><div>
<br><div class="gmail_quote">On Thu, Sep 25, 2014 at 12:06 PM, C. Titus Brown <span dir="ltr">&lt;<a href="mailto:ctb@msu.edu" target="_blank">ctb@msu.edu</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div><div>On Thu, Sep 25, 2014 at 10:58:46AM -0500, Adina Chuang Howe wrote:<br>
&gt; Hi team,<br>
&gt;<br>
&gt; I was running diginorm today on two different disks (one for the<br>
&gt; intermediate normalized files) and one on another disk (containing the raw<br>
&gt; sequences) .  I think this will be fairly typical in the future.<br>
&gt; Currently, a test (file.py check_space) will error out, given this setup.<br>
&gt; I think it&#39;d be nice to be able to bypass this check or at least make it<br>
&gt; more robust (to checking the write-out disk only).<br>
&gt;<br>
&gt; Low priority, but notable, hopefully helpful.<br>
<br>
</div></div>Agreed -- see<br>
<br>
<a href="https://github.com/ged-lab/khmer/issues/399" target="_blank">https://github.com/ged-lab/khmer/issues/399</a><br>
<span><font color="#888888"><br>
--titus<br>
--<br>
C. Titus Brown, <a href="mailto:ctb@msu.edu" target="_blank">ctb@msu.edu</a><br>
<br>
_______________________________________________<br>
khmer mailing list<br>
<a href="mailto:khmer@lists.idyll.org" target="_blank">khmer@lists.idyll.org</a><br>
<a href="http://lists.idyll.org/listinfo/khmer" target="_blank">http://lists.idyll.org/listinfo/khmer</a><br>
</font></span></blockquote></div><br></div></div></div>
</blockquote></div><br></div>
</div></blockquote></div></div></div></blockquote></div><br></div>