<div dir="auto">And lead-free solders are more apt to whisker.</div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Thu, Aug 25, 2022, 8:41 AM Phil Turmel via Ale <<a href="mailto:ale@ale.org">ale@ale.org</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">A lead whisker in the right place in the drive (or similar <br>
not-quite-direct-short) could definitely produce a port-killer.<br>
<br>
I'd crush that drive and get on with life.<br>
<br>
On 8/25/22 08:04, Jim Kinney via Ale wrote:<br>
> Holy crap!<br>
> <br>
> They only thing I can think of is either the current draw of the drive <br>
> is too high or the voltage tolerance of both is too tight. Either way <br>
> it's unlikely a failed drive can destroy a backplane slot. It's highly <br>
> likely it overloaded a tolerance that the controller read as "no slot <br>
> device". Unless that drive was really wonky and died with a strong <br>
> oscillating current draw that could damage a trim capacitor or an <br>
> inductor on the slot power it will likely recover on a power cycle.<br>
> Yeah, maintenance window challenge.<br>
> <br>
> Might be able to run the drive with some current measurements to see if <br>
> it can be running out of spec. Will need to cut power lines and splice <br>
> in gear.<br>
> <br>
> It might be possible to make the controller re-read the backplane.<br>
> <br>
> On Wed, Aug 24, 2022, 8:56 PM Robert Tweedy via Ale <<a href="mailto:ale@ale.org" target="_blank" rel="noreferrer">ale@ale.org</a> <br>
> <mailto:<a href="mailto:ale@ale.org" target="_blank" rel="noreferrer">ale@ale.org</a>>> wrote:<br>
> <br>
>     Hey ALE, I have a hard drive that I'm planning to discard due to<br>
>     what I'm about to describe below, but before I do that I'm<br>
>     interested in seeing if anyone knows if there's some way to do an<br>
>     in-depth test of its physical hardware if it's connected to an old<br>
>     desktop tower, like any specialized Linux packages specifically<br>
>     capable of doing advanced hardware testing beyond what's achievable<br>
>     by smartctl; for the type of testing I'd like to do I presume that<br>
>     it's probably not feasible if it's connected to a standard<br>
>     motherboard's SATA slot and I'd need some specialized hardware to<br>
>     test it, but I just wanted to check to confirm this.<br>
> <br>
>     Anyway, story time for those who'd be interested: this 16TB SATA<br>
>     drive arrived in a set of 20 along with a server that contains an<br>
>     AVAGO 3108 MegaRAID card & more than enough bays to hold all of the<br>
>     drives with spares for later expansion. After working fine for over<br>
>     a year, the system began notifying that its RAID array was degraded<br>
>     due to a PHY failure (ie. the slot on the drive backplane stopped<br>
>     working) causing the drive to disappear from the array. Moving the<br>
>     drive to another spare slot in the server brought it back online &<br>
>     the RAID card happily detected the drive & rebuilt the array;<br>
>     smartctl was used to run a S.M.A.R.T. test on the drive just in case<br>
>     and it reported no problems, so the slot it came from was noted as<br>
>     defective and no further troubleshooting was performed since the<br>
>     system was now back in full operation & a single slot failure wasn't<br>
>     too concerning since there were plenty of spare slots available & a<br>
>     lack of available time to dedicate IT staff resources to invest<br>
>       igating further. A few months later, the system began notifying of<br>
>     a degraded RAID array again and looking into it I found the exact<br>
>     same type of error being reported (megaraid_sas 0000:3d:00.0: 19793<br>
>     (678503133s/0x0004/CRIT) - Enclosure PD 00(c Port 0 - 3/p1) phy bad<br>
>     for slot 20) and again it was the same drive I'd moved out of the<br>
>     previous slot months earlier. All the other drives have had no<br>
>     issues since this server was first put into operation, but this one<br>
>     drive has now had both backplane slots it was plugged into become<br>
>     completely unresponsive (as far as I can tell the system doesn't<br>
>     even detect them no matter what's plugged into them; I've not been<br>
>     able to power-cycle the server to confirm if that would bring them<br>
>     back online or not due to maintenance window timing for the extended<br>
>     downtime a power-cycle could possibly require if there are issues).<br>
> <br>
>     In a single failure or a double-failure with different drives I'd<br>
>     chalk it up to the backplane being bad, but since both of these<br>
>     failures have occurred with the same drive I have to consider that<br>
>     the drive itself is potentially causing the problem rather than the<br>
>     backplane being faulty. I mainly want to test this out of curiosity<br>
>     and an interest in learning what could cause the backplane slots to<br>
>     fail if it is a fault of the drive that was connected to them, as<br>
>     the results aren't going to change things operations-wise (this<br>
>     drive's not being put back in service again & I've installed a new<br>
>     drive in the system to restore the array).<br>
> <br>
>     Thanks for your time and your input,<br>
> <br>
>     -Robert<br>
>     _______________________________________________<br>
>     Ale mailing list<br>
>     <a href="mailto:Ale@ale.org" target="_blank" rel="noreferrer">Ale@ale.org</a> <mailto:<a href="mailto:Ale@ale.org" target="_blank" rel="noreferrer">Ale@ale.org</a>><br>
>     <a href="https://mail.ale.org/mailman/listinfo/ale" rel="noreferrer noreferrer" target="_blank">https://mail.ale.org/mailman/listinfo/ale</a><br>
>     <<a href="https://mail.ale.org/mailman/listinfo/ale" rel="noreferrer noreferrer" target="_blank">https://mail.ale.org/mailman/listinfo/ale</a>><br>
>     See JOBS, ANNOUNCE and SCHOOLS lists at<br>
>     <a href="http://mail.ale.org/mailman/listinfo" rel="noreferrer noreferrer" target="_blank">http://mail.ale.org/mailman/listinfo</a><br>
>     <<a href="http://mail.ale.org/mailman/listinfo" rel="noreferrer noreferrer" target="_blank">http://mail.ale.org/mailman/listinfo</a>><br>
> <br>
> <br>
> _______________________________________________<br>
> Ale mailing list<br>
> <a href="mailto:Ale@ale.org" target="_blank" rel="noreferrer">Ale@ale.org</a><br>
> <a href="https://mail.ale.org/mailman/listinfo/ale" rel="noreferrer noreferrer" target="_blank">https://mail.ale.org/mailman/listinfo/ale</a><br>
> See JOBS, ANNOUNCE and SCHOOLS lists at<br>
> <a href="http://mail.ale.org/mailman/listinfo" rel="noreferrer noreferrer" target="_blank">http://mail.ale.org/mailman/listinfo</a><br>
<br>
_______________________________________________<br>
Ale mailing list<br>
<a href="mailto:Ale@ale.org" target="_blank" rel="noreferrer">Ale@ale.org</a><br>
<a href="https://mail.ale.org/mailman/listinfo/ale" rel="noreferrer noreferrer" target="_blank">https://mail.ale.org/mailman/listinfo/ale</a><br>
See JOBS, ANNOUNCE and SCHOOLS lists at<br>
<a href="http://mail.ale.org/mailman/listinfo" rel="noreferrer noreferrer" target="_blank">http://mail.ale.org/mailman/listinfo</a><br>
</blockquote></div>