使用 C# 讀取 zip 壓縮包解壓文件的方法及注意事項(xiàng)
從 .NET Framework 4.5 版本開(kāi)始,微軟為 .NET 類(lèi)庫(kù)增加了一個(gè)名為 ZipFile 的類(lèi)型。該類(lèi)型在?System.IO.Compression?命名空間下,提供創(chuàng)建、解壓縮和打開(kāi) zip 存檔的靜態(tài)方法。若要在 .NET Framework 應(yīng)用中使用 ZipFile 類(lèi),必須添加對(duì)程序集 System.IO.Compression.FileSystem 的引用。
參考鏈接:
https://docs.microsoft.com/zh-cn/dotnet/api/system.io.compression.zipfile?view=net-6.0
使用以下代碼讀取壓縮文件內(nèi)容:
var fn = @"test.zip";using (var zip = ZipFile.OpenRead(fn)){foreach (var entry in zip.Entries){Console.WriteLine("文件名:{0}", entry.FullName);using (var stream = entry.Open())using (var reader = new StreamReader(stream)){var str = reader.ReadToEnd();Console.WriteLine(str);}}}
但是,有時(shí)候上述代碼會(huì)不好用。當(dāng)遇到一個(gè)較大的 zip 文件時(shí)可能會(huì)報(bào)錯(cuò):
Number of entries expected in End Of Central Directory does not correspond to number of entries in Central Directory.
關(guān)于該錯(cuò)誤,只能搜索到零星的答案,而且大部分都是從國(guó)外網(wǎng)站機(jī)翻的沒(méi)有任何參考價(jià)值。
SharpZipLib?
在 NuGet 上以 zip 為關(guān)鍵詞搜索時(shí),排名第二的是一個(gè)名為 SharpZipLib 的軟件包。
SharpZipLib :https://www.nuget.org/packages/SharpZipLib/
示例代碼:
var fn = @"test.zip";using (var zip = new ZipFile(fn)){foreach (ZipEntry entry in zip){Console.WriteLine("文件名:{0}", entry.Name);using (var stream = zip.GetInputStream(entry))using (var reader = new StreamReader(stream)){var str = reader.ReadToEnd();Console.WriteLine(str);break;}}}
在遇到同樣的 zip 包時(shí),上述代碼沒(méi)有報(bào)錯(cuò),但結(jié)果仍是錯(cuò)誤的:ZipFile 類(lèi)型有一個(gè)名為 Count 的屬性,用于獲取該 zip 包中的文件數(shù)量。使用一個(gè)包含 95 萬(wàn)個(gè)小文件的壓縮包進(jìn)行測(cè)試時(shí),該屬性的取值卻只有 39866 ,也只能獲取到 39866 個(gè)文件。這說(shuō)明該組件更坑,雖然沒(méi)報(bào)錯(cuò)但給了錯(cuò)誤的數(shù)據(jù):
DotNetZip
排名第三的軟件包是:DotNetZip ,也是一個(gè)比較流行的類(lèi)庫(kù)。
DotNetZip :?https://www.nuget.org/packages/DotNetZip/
他的用法和微軟自帶類(lèi)庫(kù)的用法相似:
var fn = @"test.zip";using (var zip = ZipFile.Read(fn)){foreach (var entry in zip.Entries){Console.WriteLine("文件名:{0}", entry.FileName);using (var stream = entry.OpenReader())using (var reader = new StreamReader(stream)){var str = reader.ReadToEnd();Console.WriteLine(str);}}}
經(jīng)測(cè)試,該類(lèi)庫(kù)在處理上文提到的文件時(shí)沒(méi)有報(bào)錯(cuò),且獲得了正確的文件內(nèi)容。唯一的遺憾是 Read 方法打開(kāi)文件時(shí)耗時(shí)較長(zhǎng)。
總結(jié)
在處理 zip 文件時(shí),微軟自帶的類(lèi)庫(kù)能滿(mǎn)足大多數(shù)需求。如果遇到報(bào)錯(cuò)的情況,在確認(rèn)源文件正常的情況下可以更換其他類(lèi)庫(kù)讀取。即使在成功讀取后,也需要核對(duì)讀取結(jié)果的正確性:沒(méi)有報(bào)錯(cuò),也不代表讀取到的數(shù)據(jù)就是正確的。
附錄
測(cè)試文件下載地址:
ftp://opendata:[email protected]/Applicant/Full/APPLICANTS_20201109_0001.zip

