<div>Greetings!</div><div><br></div>I have a quick question. I understand the primary motivation behind digital normalization, the idea of discarding data without losing any information. My question is about the claim that diginorm retains all real kmers while discarding erroneous ones. After reading over the arXiv preprint again, it seems this claim is independent of the three-pass protocol which does additional error correction.<div><br></div><div>If we assume that errors are present in low abundance, why would diginorm ever discard a read containing an error? Wouldn&#39;t the same error have to be present a certain number of times before the associated kmers had sufficient coverage to discard those reads? In that case, we&#39;re much less confident that it&#39;s not real variation. Or are there probabilistic data structures involved that discard likely errors?</div><div><br></div><div>Thanks!</div><div>Daniel</div><div><br></div><div>--</div><div>Daniel Standage</div><div>Ph.D. Candidate</div><div>Computational Genome Science Lab</div><div>Indiana University</div>