Bcachefs
Bcachefs 是新一代的寫時複製(CoW)文件系統,旨在提供類似 Btrfs 與 ZFS 的功能,同時讓代碼更簡潔,文件系統更穩定、速度更快,以及使用 GPL 兼容的許可證。
Bcachefs 基於 Bcache,兩者都主要由 Kent Overstreet 開發。
安裝[編輯 | 編輯原始碼]
自 2024 年 1 月內核發佈 6.7 版本起,Bcachefs 已被合併到上游,因此可以直接安裝 linux包 或是 linux-zen包 來使用。其他的內核軟件包可能基於低於 6.7 版本的內核,所以可能會需要額外的補丁才能使用 Bcachefs。
bcachefs-tools包 是 Bcachefs 用戶空間的工具。
配置[編輯 | 編輯原始碼]
單盤[編輯 | 編輯原始碼]
# bcachefs format /dev/sdX # mount -t bcachefs /dev/sdX /mnt
多盤[編輯 | 編輯原始碼]
與 RAID0 類似,Bcachefs 默認會將數據條帶化存儲 (stripe)。數據冗餘由 replicas 選項進行處理。 對 2 個存儲設備使用 --replicas=2
相當於 RAID1,對 4 個存儲設備使用 --replicas=2
相當於 RAID10,以此類推。
# bcachefs format /dev/sdX /dev/sdY --replicas=n # mount -t bcachefs /dev/sdX:/dev/sdY /mnt
Bcachefs 支持混合使用不同的儲存設備。如果儲存設備的大小不同,為了讓每個儲存設備以相同的速率填滿數據,文件系統在某些儲存設備上會使用更大的條帶。如果儲存設備的速度不同,對冗餘數據的讀取請求會被發往 IO 延遲最低的設備。如果有些儲存設備比其他更可靠(例如硬件 RAID),可以通過 --durability=2 device
來把上面的每份數據副本算成兩份。
SSD 緩存[編輯 | 編輯原始碼]
Bcachefs 有三個儲存目標(storage targets): background、foreground 和 promote。對文件系統進行的寫入優先使用 foreground,然後隨着時間推移移動至 background。對文件系統的讀取會緩存在 promote 上。
推薦的一種配置是使用一組 SSD 作為 foreground 和 promote,使用一組 HDD 作為 background(也就是回寫緩存)。
# bcachefs format \ --label=ssd.ssd1 /dev/sdA \ --label=ssd.ssd2 /dev/sdB \ --label=hdd.hdd1 /dev/sdC \ --label=hdd.hdd2 /dev/sdD \ --label=hdd.hdd3 /dev/sdE \ --label=hdd.hdd4 /dev/sdF \ --replicas=2 \ --foreground_target=ssd \ --promote_target=ssd \ --background_target=hdd # mount -t bcachefs /dev/sdA:/dev/sdB:/dev/sdC:/dev/sdD:/dev/sdE:/dev/sdF /mnt
如果想配置直寫緩存,和上面操作基本一致,不過要對每個 SSD 設備設置 --durability=0 device
。
如果想配置繞寫緩存,只需把 HDD 設為 foreground,把 SSD 設為 promote。
配置[編輯 | 編輯原始碼]
大多數選項都可以在使用 bcachefs format
格式化時,在掛載時 (mount -o option=value
),或是通過 sysfs (echo X > /sys/fs/bcachefs/UUID/options/option
) 設置。格式化時的設置與通過 sysfs 更改的設置會被保存到文件系統的超級塊中,成為設備的默認選項。掛載時的選項會覆蓋這些默認值。
一些可用選項舉例如下:
選項 | 描述 |
---|---|
metadata_checksum | 指定用於元數據寫入的校驗和 (checksum)算法。默認情況下,算法為 crc32c。可以從none 、crc32c 、crc64 、xxhash 中選擇其一。
|
data_checksum | 指定用於數據寫入的校驗和 (checksum)算法,與metadata_checksum 具有相同的默認值和選項。
|
compression | 指定用於(前台)壓縮的算法。默認情況下此選項為none 。可以從none 、lz4 、gzip 、zstd 中選擇其一。
|
background_compression | 指定用於後台壓縮的算法,與compression 具有相同的默認值和選項。
|
str_hash | 指定用於directory entries和 xattrs 的哈希函數。可以從crc32c 、crc64 和siphash 中選擇其一。
|
nocow | 在可能的情況下,所有寫入都將就地完成。快照 (snapshot) 和 reflink 仍會導致 COW 寫入。該選項會隱式禁用數據校驗、壓縮和加密。 |
encrypted | 啟用文件系統加密(chacha20/poly1305);將提示輸入密碼。 |
更多選項可以在 bcachefs 文檔中找到。
以下內容可以通過 bcachefs setattr file --option=value
按每個文件或目錄進行設置。如果在一個目錄中設置,它會進行遞歸傳遞。
- 數據冗餘數 (data_replicas)
- 數據校驗和 (data_checksum)
- 前台壓縮 (compression)、後台壓縮 (background_compression)
- 存儲組配置:foreground_target、background_target、promote_target
要檢查哪些選項處於活動狀態,可以執行 getfattr -d -m 'bcachefs_effective\.' directory/file
更改設備所屬儲存組[編輯 | 編輯原始碼]
可以通過 sysfs 更改所屬儲存組:
# echo group.drive_name > /sys/fs/bcachefs/filesystem_uuid/dev-X/label
添加設備[編輯 | 編輯原始碼]
# bcachefs device add --label=group.drive_name /mnt /dev/device
若這是某儲存組中的第一個設備,則需要修改儲存目標的設置才能使用。以下例子添加了一個緩存設備。
# echo new_group > /sys/fs/bcachefs/filesystem_uuid/options/promote_target # echo new_group > /sys/fs/bcachefs/filesystem_uuid/options/foreground_target # echo old_group > /sys/fs/bcachefs/filesystem_uuid/options/background_target
移除設備[編輯 | 編輯原始碼]
首先請確保至少設備上有兩份元數據(設備移除(evacuate)功能似乎對元數據不奏效)。如果數據和元數據都已經有冗餘了,可以跳過這一步。
# echo 2 > /sys/fs/bcachefs/UUID/options/metadata_replicas # bcachefs data rereplicate /mnt # bcachefs device set-state ro device # bcachefs device evacuate device
將狀態設置為 ro,表示只讀。
若想移除設備:
# bcachefs device remove device # bcachefs data rereplicate /mnt
冗餘[編輯 | 編輯原始碼]
元數據和數據副本可以根據用戶所需的冗餘級別單獨配置。有五個與冗餘相關的選項:
--replicas=X
同時設置元數據和數據副本的數量。--metadata_replicas=X
設置最終寫入的元數據副本的數量。--data_replicas=X
設置最終寫入的數據副本數量。--metadata_replicas_required=X
設置在元數據被視為「已寫入」之前必須寫入的元數據副本數量。--data_replicas_required=X
設置在數據被視為「已寫入」之前必須寫入的數據副本數量。
--[meta]data_replicas_required
和 --[meta]data_replicas
之間的區別很重要,因為「所需副本」(replicas required)值設定了立即寫入副本數量的下限,而「副本」(replicas)值設定了最終寫入副本的目標數量。提示和技巧[編輯 | 編輯原始碼]
請查看 Systemd/Journal 以獲取更多有用的錯誤信息。
標誌順序[編輯 | 編輯原始碼]
一些 bcachefs format
標誌是根據其參數順序設置的,並且僅影響切換標誌後出現的驅動器。例如,如果希望 SSD 具有 --durability=0
並啟用 --discard
而 HDD 使用默認值,請確保按以下順序傳遞參數:
# bcachefs format \ --label=hdd.hdd1 /dev/sdC \ --label=hdd.hdd2 /dev/sdD \ --label=hdd.hdd3 /dev/sdE \ --label=hdd.hdd4 /dev/sdF \ --durability=0 --discard \ --label=ssd.ssd1 /dev/sdA \ --label=ssd.ssd2 /dev/sdB \ --replicas=2 \ --foreground_target=ssd \ --promote_target=ssd \ --background_target=hdd
故障排除[編輯 | 編輯原始碼]
32 位程序無法查看目錄內容[編輯 | 編輯原始碼]
部分 32 位程序可能無法獲取 Bcachefs 目錄中的內容,這是由於執行 readdir(3) syscall 時文件系統返回的數據不兼容所導致。[1]
要解決這個問題,可以暫時使用不同的文件系統供程序讀寫,比如 tmpfs。
swapfile 包含空洞或其他不支持的擴展[編輯 | 編輯原始碼]
Bcachefs 目前不支持交換文件。
多設備 fstab[編輯 | 編輯原始碼]
systemd 目前存在一個錯誤,無法在啟動時使用 fstab 中用冒號分隔的設備掛載多設備 bcachefs 文件系統。在執行 mount -a 時可以正常工作,但無法在啟動時加載。
# /dev/nvme0n1:/dev/nvme1n1:/dev/sda:/dev/sdb /mnt bcachefs defaults,nofail 0 0
要在啟動時掛載多設備文件系統,必須在 fstab 中使用 OLD_BLKID_UUID
。
# OLD_BLKID_UUID=10176fc9-c4fa-4a30-9fd0-a756d861c4cd /mnt bcachefs defaults,nofail 0 0
文件系統 UUID / 外部 UUID 可以通過以下任意一種方法找到:
# bcachefs fs usage # bcachefs show-super device
掛載加密設備錯誤[編輯 | 編輯原始碼]
對於使用 --encrypted
選項創建的設備,當 bcachefs unlock /dev/sdXY
後掛載失敗時,出現
ERROR - bcachefs::commands::cmd_mount: Fatal error: Required key not available
可以通過手動將密鑰連結到會話來解決這個問題[2]:
# keyctl link @u @s # mount /dev/sdXY /mnt Enter passphrase:
不需要輸入 mount 要求的密碼(按回車鍵
即可)。