我需要將20TB數據複製到一個雷電陣列上。數據存在的盒子沒有雷電連接,因此我將需要利用本地1GB網絡。 (是的,這將永遠存在。)
我嘗試使用Filezilla / sftp,但是當隊列變得非常大時崩潰了。是rsync還是scp走?
我需要將20TB數據複製到一個雷電陣列上。數據存在的盒子沒有雷電連接,因此我將需要利用本地1GB網絡。 (是的,這將永遠存在。)
我嘗試使用Filezilla / sftp,但是當隊列變得非常大時崩潰了。是rsync還是scp走?
rsync是一個很好的方法(scp幾乎相同,但功能較少)。您可能需要使用 -Z
選項,該選項將啟用zlib壓縮。根據您的驅動器/計算機的速度,它可能比發送未壓縮的速度(即,網絡鏈接已飽和)要快。您可能還需要存檔模式選項 -a
,它將保留符號鏈接,權限和創建/修改時間,以及遞歸複製目錄。根據您要復制的內容,您可能需要 -E
來保留擴展屬性和mac資源派生。最後,-progress
將為您顯示進度信息。
雖然不如rsync普遍存在,但我過去使用的工具名為“ mpscp”- http://www.sandia.gov/MPSCP/mpscp_design.htm
來自Sandia National Labs,它是一種在SSH上運行的文件複製工具,該工具經過特別優化,可以使封閉系統之間的高速網絡飽和(例如,在同一站點的兩台超級計算機之間複製10TB的數據,通過10Gb +或Infiniband連接) 。它運作良好,但設置起來可能有些麻煩。在測試中,我很容易看到它的運行速度比rsync快2到3倍。
使用rsync並考慮將其與rsyncd一起使用。如果您在不使用rsyncd的情況下使用rsync,那麼您將無法使用ssh,這意味著使用某種加密。您可能正在將數據從較舊的計算機複製到較新的計算機,並且較舊的計算機可能沒有CPU負擔,無法加密數據以進行足夠快的傳輸以保持千兆位以太網鏈路飽和。使用這兩種方法測試傳輸文件批次,看看哪種方法更快。
出於相同的原因,在建議使用rsync壓縮選項之前,我建議您先對其進行測試。壓縮是另一項占用大量CPU資源的活動,在較舊的硬件上嘗試時,壓縮速度可能無法跟上千兆以太網的速度。 rsync是一個具有15年曆史的程序,當甚至在第一世界國家中,大多數人都通過撥號調製解調器訪問Internet時,它便可以回寫。網絡帶寬與CPU權衡之間的差異就很大。
這個20Tb是打包在少量大文件(例如視頻,怪物數據庫)還是數百萬個小文件中嗎?
如果有很多小文件,我會使用rsync來實現可重新啟動性,或者使用管道tar流來提高效率(很多網絡連接,如果失敗則從頭開始重新啟動)
tar -cf-* | (cd newhome; tar -xf-)
必須安裝遠程文件夾。
您可以將新陣列直接連接到其他接口嗎?本地rsync不使用ssh,因此您可以刪除該故障點。是的,Firewire 800比千兆以太網慢,但您無法將以太網加載到100%-火線可能會更快。僅供參考,如果盒子距離足夠近,您還可以聯網使用火線。在系統偏好設置->網絡中添加界面。
另一種選擇是嘗試使用Bittorrent Sync( http://www.bittorrent.com/sync)。我已經使用它在WAN上在我們家庭成員之間同步家庭照片和視頻,但是沒有理由它不適用於本地網絡。它使用對等連接,因此數據不會像嘗試使用保管箱那樣通過服務器傳輸(不是我認為您有20TB的保管箱空間或想要等待那麼長時間才能上傳那麼多文件)數據!)
它在多個平台上也受支持,因此比rsync和tar具有更大的靈活性。