title
わたしの日記は日々の出来事の鬱憤晴らしの毒だし日記がメインです。 相当病んでいます。くだを巻いています。許容出来る方のみのアクセスをお願いします。 また、この日記へのリンクは原則自由にして頂いても結構ですが、 写真への直リンクを張るのはご遠慮下さい。内容に関しては、一切保証致しません。
カテゴリ一覧 Network, Internet, IPv6, DC, NTT, Comp, Linux, Debian, FreeBSD, Windows, Server, Security, IRC, 大学, Neta, spam, , 生活, 遊び, Drive, TV, 仕事,
過去日記:





2015年05月02日() [晴れ]

[Server] VMware ESXiのホストサーバのRAID障害(ディスク障害)

RAID6のボリュームの内1本のディスク(SAS 300GB)が死んでいたので交換しました。
2ヶ月前に死んでいたのですが時間が取れずに、やっとこさ、新しいディスクとの交換です。
本当はよろしくないけれども、HotSpareがあったり、RAID6だと少し安心ですね。

今回健全性ステータスで異常になっていてすぐにわかりますし、物理でもオレンジLED(障害発生時)もインジケーターでわかるラックマウントサーバを利用していることから障害は早期にわかっていました。また、ホスト側にも、megacliなるものをインストールしているので色々と情報がわかります。

まずは、LogicalVolumeの情報を見てみましょう。下記のstateから、Degradedしているのがわかります。

/opt/lsi/MegaCLI # /opt/lsi/MegaCLI/MegaCli -LDinfo -Lall -aALL

Adapter 0 -- Virtual Drive Information:
Virtual Drive: 0 (Target Id: 0)
Name                :
RAID Level          : Primary-6, Secondary-0, RAID Level Qualifier-3
Size                : 1.088 TB
Sector Size         : 512
Parity Size         : 557.75 GB
State               : Partially Degraded
Strip Size          : 64 KB
Number Of Drives    : 6
Span Depth          : 1
Default Cache Policy: WriteBack, ReadAhead, Direct, Write Cache OK if Bad BBU
Current Cache Policy: WriteBack, ReadAhead, Direct, Write Cache OK if Bad BBU
Default Access Policy: Read/Write
Current Access Policy: Read/Write
Disk Cache Policy   : Enabled
Encryption Type     : None
Bad Blocks Exist: No
Is VD Cached: No

ということで、リビルドするべくディスクの交換を。

その前に、いつ問題が発生したか確認します。

# /opt/lsi/MegaCLI/MegaCli -adpeventlog -getevents -f lsi-events.20150502_01lo
---
seqNum: 0x000021a7
Time: Sun Feb 22 23:24:26 2015

Code: 0x0000010b
Class: 1
Locale: 0x02
Event Description: Command timeout on PD 04(e0xfc/s4) Path 5000c5003c0ba199, CDB: 28 00 18 54 43 28 00 00 40 00
Event Data:
===========
Device ID: 4
Enclosure Index: 252
Slot Number: 4
CDB Length: 10
CDB Data:
0028 0000 0018 0054 0043 0028 0000 0000 0040 0000 0000 0000 0000 0000 0000 0000 Sense Length: 0
Sense Data:
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000

seqNum: 0x000021a8
Time: Sun Feb 22 23:24:26 2015

上記結果から、2/22ですね。

てことで、HDDを交換したらイベントに記録されました。

seqNum: 0x00002579
Time: Sat May  2 07:02:23 2015

Code: 0x00000072
Class: 0
Locale: 0x02
Event Description: State change on PD 04(e0xfc/s4) from UNCONFIGURED_BAD(1) to UNCONFIGURED_GOOD(0)
Event Data:
===========
Device ID: 4
Enclosure Index: 252
Slot Number: 4
Previous state: 1
New state: 0

交換が完了し、リビルドが始まると次のようなメッセージ。

seqNum: 0x0000257a
Time: Sat May  2 07:02:23 2015

Code: 0x00000072
Class: 0
Locale: 0x02
Event Description: State change on PD 04(e0xfc/s4) from UNCONFIGURED_GOOD(0) to OFFLINE(10)
Event Data:
===========
Device ID: 4
Enclosure Index: 252
Slot Number: 4
Previous state: 0
New state: 16

seqNum: 0x0000257c
Time: Sat May  2 07:02:23 2015

Code: 0x00000072
Class: 0
Locale: 0x02
Event Description: State change on PD 04(e0xfc/s4) from OFFLINE(10) to REBUILD(14)
Event Data:
===========
Device ID: 4
Enclosure Index: 252
Slot Number: 4
Previous state: 16
New state: 20

リビルドが完了したら次のようなログ。

seqNum: 0x000025e1
Time: Sat May  2 08:07:35 2015

Code: 0x00000063
Class: 0
Locale: 0x02
Event Description: Rebuild complete on VD 00/0
Event Data:
===========
Target Id: 0


seqNum: 0x000025e2
Time: Sat May  2 08:07:36 2015

Code: 0x00000064
Class: 0
Locale: 0x02
Event Description: Rebuild complete on PD 04(e0xfc/s4)
Event Data:
===========
Device ID: 4
Enclosure Index: 252
Slot Number: 4


seqNum: 0x000025e3
Time: Sat May  2 08:07:38 2015

Code: 0x00000072
Class: 0
Locale: 0x02
Event Description: State change on PD 04(e0xfc/s4) from REBUILD(14) to ONLINE(18)
Event Data:
===========

リビルドはおおよそ1時間ほどで完了したようでした。

ちなみに、ディスクを交換した直後のステータスは次の通りです。

# /opt/lsi/MegaCLI/MegaCli -PDList -a0

Enclosure Device ID: 252
Slot Number: 4
Drive's position: DiskGroup: 0, Span: 0, Arm: 4
Enclosure position: N/A
Device Id: 4
WWN:
Sequence Number: 11
Media Error Count: 0
Other Error Count: 0
Predictive Failure Count: 0
Last Predictive Failure Event Seq Number: 0
PD Type: SAS

Raw Size: 279.396 GB [0x22ecb25c Sectors]
Non Coerced Size: 278.896 GB [0x22dcb25c Sectors]
Coerced Size: 278.875 GB [0x22dc0000 Sectors]
Sector Size:  0
Firmware state: Rebuild
Device Firmware Level: 010A
Shield Counter: 0
Successful diagnostics completion on :  N/A
SAS Address(0): 0x50000393c852db9a
SAS Address(1): 0x0
Connected Port Number: 5(path0)
Inquiry Data: TOSHIBA MBF2600RC       XXXXXXXXXXXXXXXX
FDE Capable: Not Capable
FDE Enable: Disable
Secured: Unsecured
Locked: Unlocked
Needs EKM Attention: No
Foreign State: None
Device Speed: 6.0Gb/s
Link Speed: 6.0Gb/s
Media Type: Hard Disk Device
Drive:  Not Certified
Drive Temperature :33C (91.40 F)
PI Eligibility:  No
Drive is formatted for PI information:  No
PI: No PI
Port-0 :
Port status: Active
Port's Linkspeed: 6.0Gb/s
Port-1 :
Port status: Active
Port's Linkspeed: Unknown
Drive has flagged a S.M.A.R.T alert : No

リビルド中というのがわかりますね。しばらくしてリビルドが完了すると、VMwareの健全ステータスがすべてグリーンになります。

[ コメントを読む(0) | コメントする ]

Diary for 1 day(s)
Powered by hns HyperNikkiSystem Project




(c) Copyright 1998-2014 tomocha. All rights reserved.