HDD注意-故障-不良セクタ

2018年の5月下旬にも同様な問題が発生しています。

HDD注意-不良セクタ
HDD(ハードディスク)は消耗品です。

 

今回は、前回とは異なるNASのディスク(HDD)に問題が発生しました。今回のNASはバックアップ関係(他のNASも含む)を実行するものです。直接は業務に使用はしていませんが、バックアップを実施しているため10TBの大容量HDD、6台を接続しSHR2で、実質的な容量35TBで運用しています。

 

ディスク(HDD:ハードディスク)の『不良セクターが増加すると常にシステムが通知をします。』(古いDMS Vsrsionだと不良セクターの数で警告)と「注意」表示が表示されるので、今回はディスクの交換を実施しました。その後、問題となったディスクをチェックしてみました。


今回の注意の前提条件
・SHR2(2台までのHDDの問題まで許容)
・ディスクの不良セクター『不良セクターが増加すると常にシステムが通知をします。』

 

補足:
・この記事のDMS VersionはDSM 6.2.2-24922 Update 6です。従って、前回、2018年6月下旬の記事と比べると画面ショットなどで違いがあります。

 

作成日時 2020-05-04 04:56 更新日時 2020-06-20 03:51


『注意』ドライブのステータスが異常です。

 

メッセージ『注意』が表示されます。

メッセージ『注意: ドライブ スタータスが異常です。,,,』
なにかディスク(HDD)に問題が発生しているようです。

 

前回同様にディスクを管理している「ストレージ マネージャ」を起動して詳細を確認します。

概要からは問題がどこにあるのかは不明なので左のタグを操作して問題を確認します。

「ストレーズプール」から「ディスク1」のステータス「警告」、ドライブ1のステータス『失敗』が確認できます。

「ストレーズプール」では「ディスク情報」の詳細は確認できないので「HDD/SSD」タグを表示します。

問題のディスク情報の詳細を確認するために「HDD/SSD」タグを表示します。

不良セクターの警告設定は「不良セクターの警告を有効にする」有効がONです。
補足: 古いDMS Vsrsionだと不良セクターの数で警告。

どの段階で警告を出すかは不明ですが。。。

ドライブ1の不良セクターが原因で警告が発生しているようです。

 

不良セクター数「435」は異常ですね。

このドライブに関しては 「履歴」の「S.M.A.T」の「診断結果」のクイックテストでも『エラー』が発生しています。

 

補足:

「S.M.A.T」のチェックは「ストレージマネージャー」で定期テストのタスクを設定する必要が必要です。

ドライブの「履歴」の「S.M.A.T」の「診断ドライブの重要情報」を確認すると4月に突然問題(不良セクター)が発生しているようです。

ログを確認すると・・・・

 

問題が発生していますね。

警告からエラーへとステータスレベルが上がったのは2020-06-09ですね。

問題の発生したドライブ1を取り外します。

ボリュームステータスは「劣化」になりました。

 

最大2台のディスクの問題に対応可能なSHR2なので、NAS運用に問題は発生しませんが、問題のあるディスクを交換して安全性を確保する必要が有ります。

問題のディスク1を取り外し『ビープ音をオフ』にします。

ストレージ プール

『劣化』状態です。
2台目の問題が発生する前に新しいHDD/SSDを追加して修復したいと。。

新しいディスク

今回はWesterm Digital社製です。

 

注意: Westerm Digital社はこっそりNASには向かない記録方式に変更したという記事が最近有ります。

NAS向けHDD「WD Red」の記録方式をこっそり変更した件についてWDが釈明 (2020年04月22日)

 

今回の10TBは対象外外のようですが、今回は愛用の高信頼性のHGSTブランド(Westerm Digital社)が手に入らなかったのでWesterm Digital社製を購入したのですが、今後はブランドWesterm Digitalは要注意です。

新しいドライブ(HDD)を追加して『修復』を読み込み実行します。
 
今回のNASのHDDは全て10TByteなので今回も10Tbyteを追加しました。

修復を開始し修復の完了を待ちます。

今回問題が発生したNASサーバーは最大2台のディスクに問題が発生した場合でもサーバーとして運用を継続することが出来る設定(SHR2設定)です。従って、サーバーの運営を停止することなく修復作業を実施し作業中も平行して継続できます。

修復作業の完了。


ディスクの問題は新しいディスクとの交換で解消され通常運用になりました。

 

今回は問題の発生確認から修復完了までは延べで約10日間でした。
2台までの問題に対処出来る設定なので余裕を持って問題を解決できました。


修復後の状態

ディスク1は特に問題無く動作中です。


さて、問題は不良セクターの発生したHDDを交換することで解決され運用は通常に戻ったのですが、不良セクターの発生したHDDをテストしてしてみました。

 

問題のディスクを取り外した時の写真。
普通にゴミが。。。

手持ちのCentury社製の「裸族の双子」へ問題のディスク(HDD)でテストします。

テストモードは『Verify&Repair』モードです。

エラーが発生しますね。
んー、ディスクは問題が深刻か?

試しにイレースモードでデータを消去します。

問題無く消去出来たので、再度『Verify&Repair』を実行します。

 

正常に終了しました。

NASサーバーで利用できるかも・・・
(信頼性の問題は別にし、一定期間、例えば1年とか問題無く運営出来るなら)

NSAのホットスペアに利用できないか?

試しに挿入して設定してみます。

現在は何もありません。

ディスク7として追加します。

NASのドライブとしては問題が有るようです。

 

故障しかけているとか。。。

 

ん?

もしかして、問題のディスクを何処かに記録している可能性が。。。

試しにディスクをクイックテストしてみました。

正常に終了しました。

拡張テストはNGですが・・・。

履歴では「正常」になったのですが。。。

S.M.A.R.T.拡張テストも実施してみます。

時間がかかりますが。。。

1128分 = 19時間程度

試しに実行してみます。

S.M.A.R.T.拡張テストもPASSしました。

概要では『警告』ですね。

 

しかし、『失敗』から『警告』になりました。

 

不良セクターは400台から28になりました。
んー、この数値は未だ使えないの?

DMSのドキュメントを参照。

 

ドライブステータスは当初の『失敗』から『警告』になりました。メッセージを読む限り不良セクターに問題が有るので利用しない方がいい感じです。

 

と言うことで、保証期間内なので交換をしたいと思います。