「無聲資料損毀」難防 Btrfs檔案系統來保護 - kylessukaichang/kylessukaichang.github.io GitHub Wiki

  • 「無聲資料損毀」難防 Btrfs檔案系統來保護
    • Btrfs
    • Silent Data Corruption
      • 儲存裝置資料錯誤
        • 硬碟運作時的震動
        • 資料當初就到寫入錯誤的位置(Misdirected Write)
        • 不完全寫入(Torn Write)
        • 儲存單元不斷縮小造成的訊噪比下降
        • 高速讀寫
    • 容錯能力
      • 儲存裝置
        • Firmware
          • 將壞軌重新映射到備用磁軌
            • NAS專用硬碟
              • 大約每11TiB的資料讀取,才會發生一次韌體無法修復的讀取錯誤。
      • 藉由軟體層為每個資料區塊(Data Block)記錄額外的Checksum
        • 捕捉硬碟韌體所無法處理的資料損毀事件
          • 50萬顆硬碟在41個月的運作期間,總計偵測到超過四十萬次的Checksum不一致事件。
          • 約100PiB的資料流量中,有192MiB的資料發生無聲損毀。
      • 傳統RAID架構的限制
        • 偵錯代價大
          • 隨機小檔案讀取時I/O放大的現象
            • RAID讀取時是不會特別去做同位元檢查。
        • 難以定位錯誤
          • 在發現不一致時,總是假設Parity正確並去修復資料,越修越壞的可能性其實蠻大。
      • 新一代的檔案系統
        • Btrfs, ZFS, ReFS
        • 全面為Metadata和Data提供Checksum的能力。
        • 資料與checksum皆有備份可以比對驗證何者有誤