<p dir="ltr">Ugh. Sounds like you&#39;ll need to do it stages. Coarse grain search written to new files and a fine grained search on those new files.</p>
<div class="gmail_quote">On Jul 29, 2014 6:08 PM, &quot;Robert L. Harris&quot; &lt;<a href="mailto:robert.l.harris@gmail.com">robert.l.harris@gmail.com</a>&gt; wrote:<br type="attribution"><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Unfortunately I can&#39;t touch the VM&#39;s configuration or the hardware<br>
underneath it.  Supposedly I&#39;m spread across a minimum of 6 &quot;fast&quot; disks<br>
already.  I can&#39;t really go less than 10 files though as I am concerned<br>
with information being spread across multiple files.  I was hoping someone<br>
knew a tool/util which would rip through the data faster I had not found<br>
yet.<br>
<br>
Robert<br>
<br>
<br>
<br>
On Tue, Jul 29, 2014 at 4:00 PM, Jim Kinney &lt;<a href="mailto:jim.kinney@gmail.com">jim.kinney@gmail.com</a>&gt; wrote:<br>
<br>
&gt; unless you can spread that read/write load out over many, many spindles,<br>
&gt; you&#39;re stuck. Now add in the VMmust access through the virtual drive<br>
&gt; process and you&#39;ve got another performance hit.<br>
&gt;<br>
&gt; You _could_ add extra drives to the VM that are hosted on a decent array<br>
&gt; (fiber channel or LA network iSCSI), copy the files to the new home in a<br>
&gt; batch and hit the 4G RAM limit.<br>
&gt;<br>
&gt; If possible, can you add more RAM to that VM?<br>
&gt;<br>
&gt;<br>
&gt; On Tue, Jul 29, 2014 at 5:10 PM, Robert L. Harris &lt;<br>
&gt; <a href="mailto:robert.l.harris@gmail.com">robert.l.harris@gmail.com</a><br>
&gt; &gt; wrote:<br>
&gt;<br>
&gt; &gt; I&#39;m working on a tool to parse through a lot of data for processing.<br>
&gt;  Right<br>
&gt; &gt; now it&#39;s taking longer than I wish it would so I&#39;m trying to find ways to<br>
&gt; &gt; improve the performance.  Right now it appears the biggest bottleneck is<br>
&gt; &gt; IO.  I&#39;m looking at about 2000 directories which contain between 1 and<br>
&gt; 200<br>
&gt; &gt; files in tar.gz format on a VM with 4 Gigs of RAM.  I need to load the<br>
&gt; data<br>
&gt; &gt; into an array to do some pre-processing cleanup so I am currently<br>
&gt; chopping<br>
&gt; &gt; the files in each of the directories into an array of groups of 10 files<br>
&gt; at<br>
&gt; &gt; a time ( seems to be the sweet spot to prevent swap ) and then a straight<br>
&gt; &gt; forward loop of which each iteration executes:<br>
&gt; &gt;<br>
&gt; &gt;   tar xzOf $Loop |<br>
&gt; &gt;<br>
&gt; &gt; and then pushes it into my array for processing.<br>
&gt; &gt;<br>
&gt; &gt; I have tried:<br>
&gt; &gt;<br>
&gt; &gt;  gzcat $Loop | tar xO |<br>
&gt; &gt;<br>
&gt; &gt; which is actually slower.  Yes, I&#39;m at the point of trying to squeeze<br>
&gt; &gt; seconds of time out of a group.  Any thoughts of a method which might be<br>
&gt; &gt; quicker?<br>
&gt; &gt;<br>
&gt; &gt; Robert<br>
&gt; &gt;<br>
&gt; &gt;<br>
&gt; &gt;<br>
&gt; &gt;<br>
&gt; &gt;<br>
&gt; &gt;<br>
&gt; &gt;<br>
&gt; &gt; --<br>
&gt; &gt; :wq!<br>
&gt; &gt;<br>
&gt; ---------------------------------------------------------------------------<br>
&gt; &gt; Robert L. Harris<br>
&gt; &gt;<br>
&gt; &gt; DISCLAIMER:<br>
&gt; &gt;       These are MY OPINIONS             With Dreams To Be A King,<br>
&gt; &gt;        ALONE.  I speak for                      First One Should Be A Man<br>
&gt; &gt;        no-one else.                                     - Manowar<br>
&gt; &gt; -------------- next part --------------<br>
&gt; &gt; An HTML attachment was scrubbed...<br>
&gt; &gt; URL: &lt;<br>
&gt; &gt;<br>
&gt; <a href="http://mail.ale.org/pipermail/ale/attachments/20140729/38cb3da3/attachment.html" target="_blank">http://mail.ale.org/pipermail/ale/attachments/20140729/38cb3da3/attachment.html</a><br>
&gt; &gt; &gt;<br>
&gt; &gt; _______________________________________________<br>
&gt; &gt; Ale mailing list<br>
&gt; &gt; <a href="mailto:Ale@ale.org">Ale@ale.org</a><br>
&gt; &gt; <a href="http://mail.ale.org/mailman/listinfo/ale" target="_blank">http://mail.ale.org/mailman/listinfo/ale</a><br>
&gt; &gt; See JOBS, ANNOUNCE and SCHOOLS lists at<br>
&gt; &gt; <a href="http://mail.ale.org/mailman/listinfo" target="_blank">http://mail.ale.org/mailman/listinfo</a><br>
&gt; &gt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt; --<br>
&gt; --<br>
&gt; James P. Kinney III<br>
&gt;<br>
&gt; Every time you stop a school, you will have to build a jail. What you gain<br>
&gt; at one end you lose at the other. It&#39;s like feeding a dog on his own tail.<br>
&gt; It won&#39;t fatten the dog.<br>
&gt; - Speech 11/23/1900 Mark Twain<br>
&gt;<br>
&gt;<br>
&gt; *<a href="http://heretothereideas.blogspot.com/" target="_blank">http://heretothereideas.blogspot.com/</a><br>
&gt; &lt;<a href="http://heretothereideas.blogspot.com/" target="_blank">http://heretothereideas.blogspot.com/</a>&gt;*<br>
&gt; -------------- next part --------------<br>
&gt; An HTML attachment was scrubbed...<br>
&gt; URL: &lt;<br>
&gt; <a href="http://mail.ale.org/pipermail/ale/attachments/20140729/385b6337/attachment.html" target="_blank">http://mail.ale.org/pipermail/ale/attachments/20140729/385b6337/attachment.html</a><br>
&gt; &gt;<br>
&gt; _______________________________________________<br>
&gt; Ale mailing list<br>
&gt; <a href="mailto:Ale@ale.org">Ale@ale.org</a><br>
&gt; <a href="http://mail.ale.org/mailman/listinfo/ale" target="_blank">http://mail.ale.org/mailman/listinfo/ale</a><br>
&gt; See JOBS, ANNOUNCE and SCHOOLS lists at<br>
&gt; <a href="http://mail.ale.org/mailman/listinfo" target="_blank">http://mail.ale.org/mailman/listinfo</a><br>
&gt;<br>
<br>
<br>
<br>
--<br>
:wq!<br>
---------------------------------------------------------------------------<br>
Robert L. Harris<br>
<br>
DISCLAIMER:<br>
      These are MY OPINIONS             With Dreams To Be A King,<br>
       ALONE.  I speak for                      First One Should Be A Man<br>
       no-one else.                                     - Manowar<br>
-------------- next part --------------<br>
An HTML attachment was scrubbed...<br>
URL: &lt;<a href="http://mail.ale.org/pipermail/ale/attachments/20140729/e382a9b2/attachment.html" target="_blank">http://mail.ale.org/pipermail/ale/attachments/20140729/e382a9b2/attachment.html</a>&gt;<br>
_______________________________________________<br>
Ale mailing list<br>
<a href="mailto:Ale@ale.org">Ale@ale.org</a><br>
<a href="http://mail.ale.org/mailman/listinfo/ale" target="_blank">http://mail.ale.org/mailman/listinfo/ale</a><br>
See JOBS, ANNOUNCE and SCHOOLS lists at<br>
<a href="http://mail.ale.org/mailman/listinfo" target="_blank">http://mail.ale.org/mailman/listinfo</a><br>
</blockquote></div>