ともちゃ日記(Tomo cha) - 元大学生のＯＬ日記-

TOP / Wiki / Diary / Profile / BBS / Mail

わたしの日記は日々の出来事の鬱憤晴らしの毒だし日記がメインです。相当病んでいます。くだを巻いています。許容出来る方のみのアクセスをお願いします。また、この日記へのリンクは原則自由にして頂いても結構ですが、写真への直リンクを張るのはご遠慮下さい。内容に関しては、一切保証致しません。

カテゴリ一覧 Network, Internet, IPv6, DC, NTT, Comp, Linux, Debian, FreeBSD, Windows, Server, Security, IRC, 大学, Neta, spam, 食, 生活, 遊び, Drive, TV, 仕事,

過去日記:

2014年07月14日(月) [晴れ]

＊ [食] Calbee カラビー 2種類

ちょうどスーパーでホットスナックを見つけたので、衝動買い。2種類の新発売っぽい(?)
てことで、パッケージ。

裏面

辛沢しげきって、、、、ベタすぎ。

てことで、いただいてみると、普通。えっと、コイケヤのカラムーチョのパクリですか？というぐらいそっくりだった。厚切りは、カルビーらしさの厚切りではあったけど、普通の方は、まんま、コイケヤカラムーチョではないか。とおもうぐらいそっくり。

[ コメントを読む(0) | コメントする ]

＊ [Comp][Server] HDDが同時に死んだ…

6月29日の朝。 CTF for Girlsへいこうとしていた日。朝から、大量のアラートが上がってなんだこりゃ、とおもい原因を調べていたところ、RAID1で構成しているディスクが2本ほぼ同時期に死んでいたことが判明。

どのサーバかというと、先日 5月9日に書いた、NEC Express 5800/R120b-1 の構成につっこんだ、 TOSHIBA MQ01ABD100H 1TB (5400rpm, 8GB SSD-SLC)の構成。まずは、RAIDの状態を確認すべく、チェックをしてみると次の通り...

VMware の環境に、lsi から提供している、MegaCLI をインストールしているので、コマンドをたたいて状況を取得してみます。

# /opt/lsi/MegaCLI/MegaCli -LDinfo -Lall -aALL

Virtual Drive: 1 (Target Id: 1)
Name :
RAID Level : Primary-1, Secondary-0, RAID Level Qualifier-0
Size : 931.0 GB
Sector Size : 512
Mirror Data : 931.0 GB
State : Offline
Strip Size : 64 KB
Number Of Drives : 2
Span Depth : 1
Default Cache Policy: WriteBack, ReadAhead, Direct, Write Cache OK if Bad BBU
Current Cache Policy: WriteThrough, ReadAheadNone, Direct, Write Cache OK if Bad BBU
Default Access Policy: Read/Write
Current Access Policy: Read/Write
Disk Cache Policy : Enabled
Preserved Cache Data: Yes
Encryption Type : None
Bad Blocks Exist: No
Is VD Cached: No

# /opt/lsi/MegaCLI/MegaCli -PDList -aALL
Enclosure Device ID: 252
Slot Number: 4
Enclosure position: N/A
Device Id: 4
WWN:
Sequence Number: 2
Media Error Count: 0
Other Error Count: 0
Predictive Failure Count: 0
Last Predictive Failure Event Seq Number: 0
PD Type: SATA

Raw Size: 0 KB [0x0 Sectors]
Non Coerced Size: 0 KB [0x0 Sectors]
Coerced Size: 0 KB [0x0 Sectors]
Sector Size: 0
Firmware state: Unconfigured(bad)
Device Firmware Level: 1M
Shield Counter: 0
Successful diagnostics completion on : N/A
SAS Address(0): 0x4433221104000000
Connected Port Number: 5(path0)
Inquiry Data: ATA TOSHIBA MQ01ABD11M 931TC4YVT
FDE Capable: Not Capable
FDE Enable: Disable
Secured: Unsecured
Locked: Unlocked
Needs EKM Attention: No
Foreign State: None
Device Speed: Unknown
Link Speed: Unknown
Media Type: Hard Disk Device
Drive: Not Supported
Drive Temperature : N/A
PI Eligibility: No
Drive is formatted for PI information: No
PI: No PI
Port-0 :
Port status: Active
Port's Linkspeed: Unknown
Drive has flagged a S.M.A.R.T alert : No



Enclosure Device ID: 252
Slot Number: 5
Enclosure position: N/A
Device Id: 5
WWN:
Sequence Number: 2
Media Error Count: 0
Other Error Count: 0
Predictive Failure Count: 0
Last Predictive Failure Event Seq Number: 0
PD Type: SATA

Raw Size: 0 KB [0x0 Sectors]
Non Coerced Size: 0 KB [0x0 Sectors]
Coerced Size: 0 KB [0x0 Sectors]
Sector Size: 0
Firmware state: Unconfigured(bad)
Device Firmware Level: 1M
Shield Counter: 0
Successful diagnostics completion on : N/A
SAS Address(0): 0x4433221105000000
Connected Port Number: 4(path0)
Inquiry Data: ATA TOSHIBA MQ01ABD11M 931TC4YUT
FDE Capable: Not Capable
FDE Enable: Disable
Secured: Unsecured
Locked: Unlocked
Needs EKM Attention: No
Foreign State: None
Device Speed: Unknown
Link Speed: Unknown
Media Type: Hard Disk Device
Drive: Not Supported
Drive Temperature : N/A
PI Eligibility: No
Drive is formatted for PI information: No
PI: No PI
Port-0 :
Port status: Active
Port's Linkspeed: Unknown
Drive has flagged a S.M.A.R.T alert : No

様子を見ると、エンクロージャーの4本目と5本目が死んでいるのが判り、それにより、論理ボリュームがOffilineになっています。ここは、vmwareの健全ステータスから確認出来るのと同じですね。

ということで、ダメになっているディスクをオフラインにしようとしてもダメ。受け付けない。

/opt/lsi/MegaCLI/MegaCli -PDOffline -PhysDrv [252:5] -a3
User specified controller is not present.
Failed to get CpController object.

Exit Code: 0x01

ボリュームからディスクを切り離そうとしてもダメ。

# /opt/lsi/MegaCLI/MegaCli -PDOffline -PhysDrv [252:5] -a3

User specified controller is not present.
Failed to get CpController object.

Exit Code: 0x01

どうしようもなくて、お手上げになってしまったので、別の物理ドライブ、論理ドライブ(RAID1+0)のボリューム上のゲストマシンをサスペンドして、再起動して、MegaRAIDのBIOSからどのように見えるか確認してみたら次のような感じ。因みに、この時点で、六本木、GREEの中で作業。

完全に認識していない。後に、この状態で、MegaCli をつかって情報を取得しようとしてもなにもとれませんでした。一応、ディスクのハードウェア情報は見れましたが…。というわけで、そんなボリュームは無いといわれ、仕方なく諦めて、別の物理ドライブ、論理ドライブで動いているゲストを復活させました。今回死亡したディスク上にいたVMは、生活用のLinuxの /home と、リプレースのため、2月より構築を始めていた、tomocha.net のサーバです。tomocha.net は構築、検証、並行運用の為、データのバックアップは一切有りません。とはいっても、システムはまだ移行していないので、失ったデータは有りませんが、労力は全て失いました。とはいえ、構築の段階で構築手順書みたいな物は作っていたので、改めてその手順書に基づき再構築を行えば良いのですが…。

ということで、どうしようもないので、問題の発生した2本のディスクを抜いて貰い、宅急便で送ってもらいました。因みに、イベントを追いかけたとき、最初に1本目がダメになったのは、6/28 夜で、2本目が逝ったのは、6/29 朝の6時頃。時間差にして8時間ほどです。そりゃ、どうしようもないわ…。

んで、東京へ送ってもらうのと同時に、諦めて、RAID6(SAS 300GB * 6)の鉄板の構成にすることに…。んで、ディスクの発注を行ったら、佐川急便で送ってこられ、受け取りに逝くことに。。。

まずは、受け取りに逝くためには、車で出かける必要があり営業所へ。えっと、往復30km有るんですが…。あの対応の悪い佐川なので非常に参ります。電話でねぇし…。カスだ。営業所に着くと、連絡ってくれました? ときかれて、連絡しようとして何度電話しても出なかったのお前らだろ…だったら、繋がる番号を教えろといったら、教えれませんとか。クソが。

無事に受け取れたので、帰りのナビ。

無事受け取り、届いた交換用の純正SASディスクはこんな感じで合計8本。

問題のあったSATA SSHDのディスクはこんな感じ。

取りあえず、データのサルベージは置いておいて、ディスクに問題がないか、一旦データを書いて、チェック。

4本ずつ同時にチェックをしていきます。

さて、問題の起きたディスクのサルベージでもしましょうか…。

赤色の左下のケーブルは、MegaRAIDのHBA、青色のケーブルは、LSI LogicのRAID0,1,10,1E対応の普通のHBAです。後者の板は設定しなければJBOD用でつかえ、且つ、SASディスクも使えることから非常にデータサルベージなどには重宝します。

問題の出たディスクのS.M.A.R.Tを見てみます。

# smartctl -a /dev/sdb 
smartctl 5.40 2010-07-12 r3124 [i686-pc-linux-gnu] (local build)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Device Model:     TOSHIBA MQ01ABD100H
Serial Number:    XXXXXX
Firmware Version: AUF01M
User Capacity:    1,000,204,886,016 bytes
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   8
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:    Fri Jul  4 22:21:51 2014 JST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED


SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000b   100   100   050    Pre-fail  Always       -       0
  2 Throughput_Performance  0x0005   100   100   050    Pre-fail  Offline      -       0
  3 Spin_Up_Time            0x0027   100   100   001    Pre-fail  Always       -       2572
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       12
  5 Reallocated_Sector_Ct   0x0033   100   100   050    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000b   100   100   050    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0005   100   100   050    Pre-fail  Offline      -       0
  9 Power_On_Hours          0x0032   098   098   000    Old_age   Always       -       1195
 10 Spin_Retry_Count        0x0033   100   100   030    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       11
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       1
193 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       5664
194 Temperature_Celsius     0x0022   100   100   000    Old_age   Always       -       30 (Lifetime Min/Max 15/33)
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   253   000    Old_age   Always       -       0
220 Disk_Shift              0x0002   100   100   000    Old_age   Always       -       0
222 Loaded_Hours            0x0032   100   100   000    Old_age   Always       -       64
223 Load_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
224 Load_Friction           0x0022   100   100   000    Old_age   Always       -       0
226 Load-in_Time            0x0026   100   100   000    Old_age   Always       -       263
240 Head_Flying_Hours       0x0001   100   100   001    Pre-fail  Offline      -       0

SMART Error Log Version: 1
ATA Error Count: 16 (device log contains only the most recent five errors)
CR = Command Register [HEX]
FR = Features Register [HEX]
SC = Sector Count Register [HEX]
SN = Sector Number Register [HEX]
CL = Cylinder Low Register [HEX]
CH = Cylinder High Register [HEX]
DH = Device/Head Register [HEX]
DC = Device Command Register [HEX]
ER = Error register [HEX]
ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 16 occurred at disk power-on lifetime: 1194 hours (49 days + 18 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  50 50 01 01 00 00 00

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ff ff ff ff ff ff ff 0c      00:00:37.134  [VENDOR SPECIFIC]
  aa aa aa aa aa aa aa ff      00:00:36.479  [RESERVED]
  ec 00 00 00 00 00 a0 00      00:00:31.472  IDENTIFY DEVICE
  ff ff ff ff ff ff ff 0c      00:00:31.427  [VENDOR SPECIFIC]
  aa aa aa aa aa aa aa ff      00:00:30.686  [RESERVED]

因みに中身がサルベージ出来るか、確認してみたところ次のような感じで全くディスクにアクセスが出来ません。

# dd if=/dev/sdb conv-sync,noerror bs=512k
dd: reading `/dev/sdb': Input/output error
0+0 records in
0+0 records out
0 bytes (0 B) copied, 0.33083 s, 0.0 kB/s
dd: reading `/dev/sdb': Input/output error
0+1 records in
1+0 records out
524288 bytes (524 kB) copied, 0.577474 s, 908 kB/s
dd: reading `/dev/sdb': Input/output error
0+2 records in
2+0 records out
1048576 bytes (1.0 MB) copied, 0.820808 s, 1.3 MB/s
dd: reading `/dev/sdb': Input/output error
0+3 records in
3+0 records out
1572864 bytes (1.6 MB) copied, 2.26415 s, 695 kB/s
0+4 records in
3+0 records out
^C1572864 bytes (1.6 MB) copied, 3.00568 s, 523 kB/s

中身を拝むことも出来ないので、どうしようもなく。ハードウェア的に読み書きが禁止されている状態ですね。代わりに、同型番の正常なHDDを持ってきて、コントローラを交換してみましたが、結果同じです。S.M.A.R.T の統計データはコントローラ毎にもっているようですが、ディスクのエラー状態はディスク上に記録されているようで、S.M.A.R.T でみた、エラーの内容はコントローラを置きかえても同じデータが参照出来ました。因みに、読み取りは同じく出来ませんでした。

更に調べていると、ディスクの書き込みを禁止しているのを解除出来るかなと思い、HDAT2を試みてみましたが、結局ダメ。こんな感じ。

正常なディスク。型番は違うけど…。

DCO frozen になってる…。

DCO area が disable, DCO frozen になっており、何も出来ず。

正常な同型番のHDD。
DCOサイズが、1TBになっている。

この辺のロックをとけたらなんとかなりそうなんだけど、やり方判らず。断念orz

[ コメントを読む(0) | コメントする ]

Diary for 1 day(s)