<div dir="ltr">Hi Shu,<div><br></div><div>Thanks for writing and using diginorm.  If you are using a metagenomic dataset, I would not expect that much difference between diginormed and nondiginormed data (see Howe et al, 2014).  That being said, this would depend on your dataset - diginorm is not going to work well for datasets with lots of repetitive regions for examples.  </div>

<div><br></div><div>If your adapters are trimmed off (which is highly unusual -- your reads should be different lengths in this case), you should be able to skip the trimming step.  The interleave step brings together your paired end reads that remain after trimming into one file.  So you can skip this step if your file has each pair in this order (&gt;pair 1, sequence, &gt;pair 2, sequence).  </div>

<div><br></div><div>I&#39;m not sure what left and right fq you are referring, but it is not unusual to have different sized pair files after quality trimming.  You&#39;ll want to do some processing to pull out pairs that remain and treat any quality trimmed orphaned pairs as single (unpaired) sequences.  Again, for diginorm, if you want to consider paired ends, you&#39;ll want to keep it in the format described above.</div>

<div><br></div><div>In general, I would advise you to start the process with the dataset mentioned in the tutorial. It becomes a lot clearer then what each step does.  There&#39;s a lot of steps that are filtering, processing, etc. that happen even prior to diginorm.  This might be where the difference lies in your first question.</div>

<div><br></div><div>Good luck!</div><div>Adina</div><div><br></div><div><br></div></div><div class="gmail_extra"><br><br><div class="gmail_quote">On Fri, Mar 28, 2014 at 11:06 AM, Shu CHEN <span dir="ltr">&lt;<a href="mailto:szc0049@tigermail.auburn.edu" target="_blank">szc0049@tigermail.auburn.edu</a>&gt;</span> wrote:<br>

<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">




<div>
<div style="font-size:12pt;font-family:Calibri,Arial,Helvetica,sans-serif">
<p><span style="color:#282828;font-size:15px;font-family:&#39;microsoft yahei ui&#39;,&#39;microsoft yahei&#39;,微软雅黑,simsun,宋体,sans-serif">Hi, </span></p>
<p><span style="color:#282828;font-size:15px;font-family:&#39;microsoft yahei ui&#39;,&#39;microsoft yahei&#39;,微软雅黑,simsun,宋体,sans-serif"><br>
</span></p>
<p><span style="color:#282828;font-size:15px;font-family:&#39;microsoft yahei ui&#39;,&#39;microsoft yahei&#39;,微软雅黑,simsun,宋体,sans-serif"> I am trying to use khmer to diginorm my illumina data and I have some questions about it: </span><br style="color:#282828;font-size:15px;font-family:&#39;microsoft yahei ui&#39;,&#39;microsoft yahei&#39;,微软雅黑,simsun,宋体,sans-serif">


<br style="color:#282828;font-size:15px;font-family:&#39;microsoft yahei ui&#39;,&#39;microsoft yahei&#39;,微软雅黑,simsun,宋体,sans-serif">
<span style="color:#282828;font-size:15px;font-family:&#39;microsoft yahei ui&#39;,&#39;microsoft yahei&#39;,微软雅黑,simsun,宋体,sans-serif">1. I diginormed my data following the Eel Pond mRNAseq Protocol. The N50 of the assembly is 1242, smaller
 than the assembly from the non-diginormed data, and also the number of the contigs is half of the non-diginormed. Is this normal that both assembly size and N50 becomes smaller?</span><br style="color:#282828;font-size:15px;font-family:&#39;microsoft yahei ui&#39;,&#39;microsoft yahei&#39;,微软雅黑,simsun,宋体,sans-serif">


<br style="color:#282828;font-size:15px;font-family:&#39;microsoft yahei ui&#39;,&#39;microsoft yahei&#39;,微软雅黑,simsun,宋体,sans-serif">
<span style="color:#282828;font-size:15px;font-family:&#39;microsoft yahei ui&#39;,&#39;microsoft yahei&#39;,微软雅黑,simsun,宋体,sans-serif">2. Because I got the data with adapter trimmed off, so I passed the step 1 and directly went to the
 interleave step. Does this cause any problems in the downstream process?</span><br style="color:#282828;font-size:15px;font-family:&#39;microsoft yahei ui&#39;,&#39;microsoft yahei&#39;,微软雅黑,simsun,宋体,sans-serif">
<br style="color:#282828;font-size:15px;font-family:&#39;microsoft yahei ui&#39;,&#39;microsoft yahei&#39;,微软雅黑,simsun,宋体,sans-serif">
<span style="color:#282828;font-size:15px;font-family:&#39;microsoft yahei ui&#39;,&#39;microsoft yahei&#39;,微软雅黑,simsun,宋体,sans-serif"> 3. After splitting the *.pe file into left.fq and right.fq, the left.fq has a size of 1.7gb, and thr
 right.fq 1.4gb. Is this okay?</span><br style="color:#282828;font-size:15px;font-family:&#39;microsoft yahei ui&#39;,&#39;microsoft yahei&#39;,微软雅黑,simsun,宋体,sans-serif">
<br style="color:#282828;font-size:15px;font-family:&#39;microsoft yahei ui&#39;,&#39;microsoft yahei&#39;,微软雅黑,simsun,宋体,sans-serif">
<span style="color:#282828;font-size:15px;font-family:&#39;microsoft yahei ui&#39;,&#39;microsoft yahei&#39;,微软雅黑,simsun,宋体,sans-serif">Thank you very much. I appreciate your time and patience.</span><br>
</p>
<div>
<p><br>
</p>
<div style="font-family:tahoma;font-size:13px">
<div style="font-family:tahoma;font-size:13px">
<p>Shu Chen</p>
<p>Ph.D. Student</p>
<p>Department of Agronomy and Soils</p>
<p>RM 165, Funchess Hall </p>
</div>
</div>
</div>
</div>
</div>

<br>_______________________________________________<br>
protocols mailing list<br>
<a href="mailto:protocols@lists.idyll.org">protocols@lists.idyll.org</a><br>
<a href="http://lists.idyll.org/listinfo/protocols" target="_blank">http://lists.idyll.org/listinfo/protocols</a><br>
<br></blockquote></div><br></div>