各种语言【Python,Java,Go,Pascal,C++】不解压直接读取压缩包【rar,zip,7z,gz,tar,z...】中文本行

news2025/1/17 9:09:01

文章目录

  • (零)前言
  • (一)【ZIP】格式
    • (1.1)Python ⭐️
    • (1.2)Java ⭐️
    • (1.3)Golang ⭐️
    • (1.4)Pascal
      • (1.4.1)Lazarus(Free Pascal)
      • (1.4.2)Delphi ⭐️
    • (1.5)C++
  • (二)【GZIP】格式
    • (2.1)Python ⭐️
    • (2.2)Java ⭐️
    • (2.3)Golang ⭐️
    • (2.4)Pascal
      • (2.4.1)Lazarus(Free Pascal)
      • (2.4.2)Delphi ⭐️
    • (2.5)C++ ⭐️
  • (三)【TAR】格式
    • (3.1)Python ⭐️
    • (3.2)Java ⭐️
    • (3.3)Golang ⭐️
    • (3.4)Pascal
      • (3.4.1)Lazarus(Free Pascal)
      • (3.4.2)Delphi ⭐️
  • (四)【RAR】格式
    • (4.1)Python
    • (4.2)Java
    • (4.3)Golang ⭐️
  • (五)【7Zip】格式
    • (5.1)Python ⭐️
    • (5.2)Java ⭐️
    • (5.3)Golang ⭐️
  • (六)【Unix Z】格式
    • (6.1)Python ⭐️
    • (6.2)Java ⭐️
    • (6.3)Golang ⭐️

(零)前言

通常的情况下遇到压缩包,都是解开后再进行文件操作。
比如把A.zip 解压缩成-> a.txt,再用程序打开a.txt正常读取。
上网查各种例子也是文件解开到文件。

很多年前我们也是这么干的,直到发现了这些情况:

  1. 似乎是4G时代吧,VoLTE的时代,各个厂商都用极其冗长的格式来存储并传输数据。
    导致压缩比非常大比如大到100:1。也就是1GB的压缩包,解开后是100GB的数据。
    这些无谓的磁盘开销改为直接读取压缩包就可以完全避免。

  2. 服务器虚拟化后,有些磁盘读写(尤其是写)特别慢。
    比如200MB的数据如果解压成4GB再进行处理,单个数据节点需要4小时,不解压只要2分钟左右。
    时间的差距实在是巨大。

所以不得已,只能直接读写压缩文件了。
不能调用外部的命令,还得兼顾跨平台,各种语言实现的方式都不太一样。
能读通常就能写,加上读文本比读二进制块更“高级”,所以就用读文本做例子吧。

带有⭐️的例子,能够完成“直接读文本行”的功能,其它例子得自己改。

(一)【ZIP】格式

是Windows下最常见的格式。
单个压缩包内可以包含多个文件
虽然压缩率不及RAR和7Z,读取速度不及GZIP,但是在Windows下兼容性是最好的。
常见的软件:WinZip。

(1.1)Python ⭐️

我完全不懂python,不过挺好用呢。
对zip的支持是自带的。
参考:🔗Python的数据压缩与存档。

import zipfile
...
if not zipfile.is_zipfile(SourceFile):
	raise Exception(SourceFile+" is not in ZIP format!")
with zipfile.ZipFile(SourceFile) as zipMy:
	for oneItem in zipMy.infolist():
	    with zipMy.open(oneItem) as filein:
	        lines = filein.readlines()
	        # do what ever with lines.

(1.2)Java ⭐️

看上去Java是流式处理。
如果某文件被zip重复压缩了几次,用Java也可以一次读出最内层的数据(理论如此,没试过)。
org.apache.commons.compress

pom.xml中添加依赖:

<!-- https://mvnrepository.com/artifact/org.apache.commons/commons-compress -->
<dependency>
    <groupId>org.apache.commons</groupId>
    <artifactId>commons-compress</artifactId>
    <version>1.24.0</version>
</dependency>

.java代码文件中:

import org.apache.commons.compress.archivers.zip.ZipArchiveEntry;
import org.apache.commons.compress.archivers.zip.ZipFile;
...

try(ZipFile zipFile =  new ZipFile(SourceFile, "GBK")){
	Enumeration<?> enums = zipFile.getEntries();
	while(enums.hasMoreElements()){
		ZipArchiveEntry entry = (ZipArchiveEntry) enums.nextElement();
		if(!entry.isDirectory()){
			try(BufferedReader br = new BufferedReader(new InputStreamReader(zipFile.getInputStream(entry), Charset.forName("GBK"))))
			{
				String aLine;
				while((aLine=br.readLine()) != null) {
					// do what ever with every Line.
				}
			}
		}
	}
}

(1.3)Golang ⭐️

同上,发现Go的Reader也能流式处理。
本身代码没几行,但是error处理占了不少代码。
还有defer close,显然没有Python的with简练,也比不过Java的try with resource,哎这也是Go的一大特点。

import (
	...
	"archive/zip"
	...
)
...

zipReader, err := zip.OpenReader(SourceFile)
if err != nil {
	panic(err)
}
defer func(zipReader *zip.ReadCloser) {
	err := zipReader.Close()
	if err != nil {
		panic(err)
	}
}(zipReader)
for _, f := range zipReader.File {
	if !f.FileInfo().IsDir() {
		inFile, err := f.Open()
		if err != nil {
			panic(err)
		}
		OneReader := bufio.NewReader(inFile)
		for {
			line, _, err := OneReader.ReadLine()
			if err == io.EOF {
				MyEof = true
				break
			}
			if err != nil {
				panic(err)
			}
			// do what ever with every Line.
		}
	}
}

(1.4)Pascal

(1.4.1)Lazarus(Free Pascal)

在Lazarus(FPC)官方WIKI关于paszlib中有接近的方式:

  1. 不设置TUnZipper的OutputPath。
  2. 在事件中创建和读取Stream。
  3. 我们可以用自己的Steam来取得其中内容,再按行读取(虽然曲折,也算间接实现了吧)。

FPC官方相关的代码如下(稍改就行):

uses
  Zipper;

...

procedure TForm1.Button1Click(Sender: TObject);
begin
  ExtractFileFromZip(FileNameEdit1.FileName,Edit1.Text);
end;

procedure TForm1.DoCreateOutZipStream(Sender: TObject; var AStream: TStream;
  AItem: TFullZipFileEntry);
begin
  AStream:=TMemorystream.Create;
end;

procedure TForm1.DoDoneOutZipStream(Sender: TObject; var AStream: TStream;
  AItem: TFullZipFileEntry);
begin
  AStream.Position:=0;
  Memo1.lines.LoadFromStream(Astream);
  Astream.Free;
end;

procedure TForm1.ExtractFileFromZip(ZipName, FileName: string);
var
  ZipFile: TUnZipper;
  sl:TStringList;
begin
  sl:=TStringList.Create;
  sl.Add(FileName);
  ZipFile := TUnZipper.Create;
  try
    ZipFile.FileName := ZipName;
    ZipFile.OnCreateStream := @DoCreateOutZipStream;
    ZipFile.OnDoneStream:=@DoDoneOutZipStream;
    ZipFile.UnZipFiles(sl);
  finally
    ZipFile.Free;
    sl.Free;
  end;
end;

(1.4.2)Delphi ⭐️

新版Delphi可以这样:

uses
	System.Zip,
	...
var
	line:String;
	aLH:TZipHeader
	...
begin	
	LZip:=TZipFile.Create;
	LZip.Open(SourceFile,zmRead);
	LZip.Encoding:=TEncoding.GetEncoding(936);
	for i:=0 to LZip.FileCount-1 do
	begin
	  LOutput := TMemoryStream.Create();
	  LZip.Read(i,LOutput,aLH);
	  var asr:=TStreamReader.Create(LOutput);
	  while not asr.EndOfStream do
	  begin
	    line:String;
	    line:=asr.ReadLine;
	    // do what ever with every Line.
	  end;
	  FreeAndNil(asr);
      FreeAndNil(LOutput);
    end;
    FreeAndNil(LZip);
end;

(1.5)C++

使用zlib。下面的例子用的是zlib1.3(August 18, 2023)

如果是从实际的zip文件来处理,似乎可以这样。
PS:同样是zlib提供的,gz可以按行读取(见下面gz的部分),而zip只能读数据块。
⚠️按行读字符串需要再判断一下\n的位置啥的,自己组成字符串。。

unzFile zfile = unzOpen64(SourceFile);
unz_global_info64 globalInfo;
if (UNZ_OK != unzGoToFirstFile(zfile))
{
	return false;
}

char fileName[512] = { 0 };
unz_file_info64 fileInfo;
do
{
	if (UNZ_OK != unzGetCurrentFileInfo64(zfile, &fileInfo, fileName, sizeof(fileName), nullptr, 0, nullptr, 0))
	{
		return false;
	}
	if (fileInfo.external_fa == FILE_ATTRIBUTE_DIRECTORY)	// 文件夹
	{
		//如果需要处理,就自己建目录啊。
	}
	else	// 普通文件
	{
		if (UNZ_OK != unzOpenCurrentFile(zfile))
		{
			return false;
		}
		int size = 0;
		while (unzReadCurrentFile(zfile, Buffer, bufferSize) != NULL)
		{
			//do what ever with Buffer
		}
	}
} while (unzGoToNextFile(zfile) != UNZ_END_OF_LIST_OF_FILE);
unzClose(zfile);

(二)【GZIP】格式

是Linux/Unix下最常见的压缩格式。
单个压缩包内只能包含单个文件

  • 可以保存压缩前的原始文件名的信息到meta data里。
  • 也可以不保存(去掉.gz后缀就是原始文件名)。

(2.1)Python ⭐️

对gz的支持是自带,不用额外安装包。
根本和打开文件文件没区别。
似乎读不到Meda data中的原始文件名。

import gzip
...
with gzip.open(SourceFile,'r') as gzMy:
    lines=gzMy.readlines()
    # do what ever with lines.

(2.2)Java ⭐️

可以用GzipCompressorInputStream.getMetaData().getFilename()读取原始文件名(没存就为空)。

<!-- https://mvnrepository.com/artifact/org.apache.commons/commons-compress -->
<dependency>
    <groupId>org.apache.commons</groupId>
    <artifactId>commons-compress</artifactId>
    <version>1.24.0</version>
</dependency>
import org.apache.commons.compress.compressors.gzip.GzipCompressorInputStream;
import org.apache.commons.compress.compressors.gzip.GzipCompressorOutputStream;
...

try(BufferedReader br = new BufferedReader(new InputStreamReader(new GzipCompressorInputStream(Files.newInputStream(Paths.get(SourceFile))), Charset.forName("GBK"))))
{
	String aLine;
	while((aLine=br.readLine()) != null) {
		// do what ever with every Line.
	}
}

(2.3)Golang ⭐️

可以从*gzip.Reader.Name中读取原始文件名(没存就为空)。

import (
	...
	"compress/gzip"
	...
)
...

fz, err := gzip.NewReader(SourceFile)
if err != nil {
	panic(err)
}
defer func(fz *gzip.Reader) {
	err := fz.Close()
	if err != nil {
		panic(err)
	}
}(fz)
OneReader := bufio.NewReader(fz)
for {
	line, _, err := OneReader.ReadLine()
	if err == io.EOF {
		MyEof = true
		break
	}
	if err != nil {
		panic(err)
	}
	// do what ever with every Line.
}

(2.4)Pascal

(2.4.1)Lazarus(Free Pascal)

也是官方的例子,似乎没有读一行的方式。
不过改改也能用是吧(下面是张图片,代码请参考官方文档)。
code

(2.4.2)Delphi ⭐️

新版Delphi可以这样:

uses
	System.ZLib,
	...
var
	line:String;
	...
begin	
	LInput := TFileStream.Create(SourceFile, fmOpenRead);
	LUnGZ := TZDecompressionStream.Create(LInput,15 + 16);
	var asr:=TStreamReader.Create(LUnGZ);
	while not asr.EndOfStream do
	begin
	  line:String;
	  line:=asr.ReadLine;
	  // do what ever with every Line.
	end;
	FreeAndNil(asr);
    FreeAndNil(LUnGZ);
    FreeAndNil(LInput);
end;

(2.5)C++ ⭐️

使用zlib。下面的例子用的是zlib1.3(August 18, 2023)

如果是从实际的gz文件来处理,似乎可以这样。
PS:严谨些需要判断读到的内容长度是否为bufferSize-1(没到换行符呢),自己再处理一下。

gzFile gzf = gzopen(SourceFile, "r");
while (gzgets(gzf, Buffer, bufferSize)!=NULL)
{
	//do what ever with Buffer as char*
}
gzclose(gzf);

但如果来自流,比如下面的InputStream,那么代码就有点长了。

⚠️下面的代码没有提供readline这种方便的方式。
需要自己把解开的outBuffer复制到自己的缓存中,再判断一下\n的位置啥的,自己组成字符串。
如果还需要自由的fseek移动位置,那么还是全部写入内存流当中再操作比较好。

供参考(改改才能用):

z_stream zlibStream;
memset(&zlibStream, 0, sizeof(zlibStream));
zlibStream.next_in = nullptr;
zlibStream.avail_in = 0;
zlibStream.next_out = nullptr;
zlibStream.avail_out = 0;
zlibStream.zalloc = Z_NULL;
zlibStream.zfree = Z_NULL;
zlibStream.opaque = Z_NULL;

if (inflateInit2(&zlibStream, 16 + MAX_WBITS) != Z_OK) {
	// show error
	if (error_list_.end() == error_list_.find(path))
	{
		error_list_[path] = 0x00;
	}
	error_list_[path] |= 0x04;
	continue;
}

char* inBuffer = new char[bufferSize];
char* outBuffer = new char[bufferSize];

int zlibResult;
do {
	InputStream.read(inBuffer, bufferSize);
	zlibStream.next_in = reinterpret_cast<Bytef*>(inBuffer);
	zlibStream.avail_in = (uInt)InputStream.gcount();
	do {
		zlibStream.next_out = reinterpret_cast<Bytef*>(outBuffer);
		zlibStream.avail_out = bufferSize;

		zlibResult = inflate(&zlibStream, Z_NO_FLUSH);
		if (zlibResult == Z_STREAM_ERROR) {
			// show error
			inflateEnd(&zlibStream);
			if (error_list_.end() == error_list_.find(path))
			{
				error_list_[path] = 0x00;
			}
			error_list_[path] |= 0x04;
			continue;
		}
		//Do something with decompressed data, write to some file? 
		//OutputStream.write(outBuffer, bufferSize - zlibStream.avail_out);
	} while (zlibStream.avail_out == 0);
} while (InputStream.good() || zlibResult == Z_OK);

delete[] inBuffer;
delete[] outBuffer;

inflateEnd(&zlibStream);
OriginalFile.flush();
OriginalFile.close();

(三)【TAR】格式

是Linux/Unix下最常见的打包格式。
单个压缩包内可以包含多个文件
打包通常和压缩同时使用,比如:.tar.gz.tgz.tar.xz

(3.1)Python ⭐️

对tar的支持是自带,不用额外安装包。
下面例子是.tar.gz.tgz的,其它的格式类似。
Python不用依次串起来解gz和解tar。只需要指定open时的参数。
可以从TarInfo.name得到包中每个文件的名字。

import tarfile
...
with tarfile.open(SourceFile,'r:gz') as tarMy:
    for oneItem in tarMy.getmembers():
        with tarMy.extractfile(oneItem) as filein:
            lines = filein.readlines()
    		# do what ever with lines.

(3.2)Java ⭐️

同上例子是单独的.tar
可以从org.apache.tools.tar.TarEntry.getName()得到包中每个文件的名字。

<!-- https://mvnrepository.com/artifact/org.apache.ant/ant -->
<dependency>
    <groupId>org.apache.ant</groupId>
    <artifactId>ant</artifactId>
    <version>1.10.14</version>
</dependency>
import org.apache.tools.tar.TarEntry;
import org.apache.tools.tar.TarInputStream;
...

try (TarInputStream in = new TarInputStream(Files.newInputStream(new File(SourceFile).toPath()),"UTF8")) {
	TarEntry entry;
	while ((entry = in.getNextEntry()) != null) {
		if (entry.isFile()) {
			try(BufferedReader br = new BufferedReader(new InputStreamReader(in, Charset.forName("GBK"))))
			{
				String aLine;
				while((aLine=br.readLine()) != null) {
					// do what ever with every Line.
				}
			}
		}
	}
}

(3.3)Golang ⭐️

同上例子是单独的.tar文件。
如果是tar.gz则和解gz串起来就好了。
类似:OneTAR := tar.NewReader(GZReader)这样。
可以从*tar.Header.FileInfo().Name()得到包中每个文件的名字。

import (
	...
	"archive/tar"
	...
)
...

OneTAR := tar.NewReader(SourceFile)
for {
	h, err := OneTAR.Next()
	if err == io.EOF {
		break
	} else if err != nil {
		panic(err)
	}
	if !h.FileInfo().IsDir() {
		OneReader := bufio.NewReader(OneTAR)
		for {
			line, _, err := OneReader.ReadLine()
			if err == io.EOF {
				MyEof = true
				break
			}
			if err != nil {
				panic(err)
			}
			// do what ever with every Line.
		}
	}
}

(3.4)Pascal

(3.4.1)Lazarus(Free Pascal)

请参考官方文档。

(3.4.2)Delphi ⭐️

新版Delphi可以这样:
需要LibTar(Tar Library),也许还有其它实现方式,不太清楚。
同上例子是单独的.tar文件。
如果是tar.gz则和解gz串起来就好了。

uses
	LibTar,
	...
var
	line:String;
	DirRec:TTarDirRec;
	...
begin
	LInput := TFileStream.Create(SourceFile, fmOpenRead);
    TarStream:= TTarArchive.Create(LInput);
    TarStream.Reset;
    while TarStream.FindNext(DirRec) do
    begin
		LOutput := TMemoryStream.Create();
		TarStream.ReadFile(LOutput);
		var asr:=TStreamReader.Create(LOutput);
		while not asr.EndOfStream do
		begin
		  line:String;
		  line:=asr.ReadLine;
		  // do what ever with every Line.
		end;
		FreeAndNil(asr);
		FreeAndNil(LOutput);
	end;
	FreeAndNil(TarStream);
	FreeAndNil(LInput);
end;

(四)【RAR】格式

是Windows下主流的压缩格式。
单个压缩包内可以包含多个文件
压缩比较高,最新的是RAR5格式。
常见的软件:🔗WinRAR。

(4.1)Python

需要pip install rarfile
用法和zip基本没区别,实测没成功,需要调用unrar.exe什么的。
此项暂时保留(参考zipfile的方式真的几乎一样)。

(4.2)Java

com.github.junrar不能处理RAR5格式.
net.sf.sevenzipjbinding可以处理RAR5,但直接用只能read数据块。

  • 用这种方法不仅可以读RAR,还可以解压非常多的格式,包括7Z,ZIP,TAR,GZ,ARJ,CAB,WIM,etc……💡
    如果仅仅需要解压成文件,那么单这一种方式就可以处理常见的所有压缩格式啦。

  • 下面取得文件名那部分和解压RAR无关,主要是gz格式有取不到文件名的情况(no metadata)。

  • 修改pom中的依赖为sevenzipjbinding-all-platforms,支持更多的平台(MAC,ARM……)💡。

<!-- https://mvnrepository.com/artifact/net.sf.sevenzipjbinding/sevenzipjbinding -->
<dependency>
    <groupId>net.sf.sevenzipjbinding</groupId>
    <artifactId>sevenzipjbinding</artifactId>
    <version>16.02-2.01</version>
</dependency>

<!-- https://mvnrepository.com/artifact/net.sf.sevenzipjbinding/sevenzipjbinding-windows-amd64 -->
<dependency>
    <groupId>net.sf.sevenzipjbinding</groupId>
    <artifactId>sevenzipjbinding-windows-amd64</artifactId>
    <version>16.02-2.01</version>
</dependency>

<!-- https://mvnrepository.com/artifact/net.sf.sevenzipjbinding/sevenzipjbinding-linux-amd64 -->
<dependency>
    <groupId>net.sf.sevenzipjbinding</groupId>
    <artifactId>sevenzipjbinding-linux-amd64</artifactId>
    <version>16.02-2.01</version>
</dependency>

代码中的SevenZip.openInArchive(null...为啥用null,是为了自动检测格式。
顺便吐槽匿名函数,不熟悉看不懂在干嘛。
实际上是在处理ISequentialOutStream->write(byte[] data)

import actp.tnu.api.CrossLog;
import net.sf.sevenzipjbinding.ExtractOperationResult;
import net.sf.sevenzipjbinding.IInArchive;
import net.sf.sevenzipjbinding.SevenZip;
import net.sf.sevenzipjbinding.SevenZipException;
import net.sf.sevenzipjbinding.impl.RandomAccessFileInStream;
import net.sf.sevenzipjbinding.simple.ISimpleInArchive;
import net.sf.sevenzipjbinding.simple.ISimpleInArchiveItem;

import java.io.File;
import java.io.FileOutputStream;
import java.io.RandomAccessFile;
...

public static void Uncompress(File inputFile, String targetFileDir) throws Exception {
    File newdir = new File(targetFileDir);
    if (!newdir.exists() && !newdir.mkdirs()) {
        throw new Exception("Create Dir failed! : " + targetFileDir);
    }
    try (RandomAccessFile randomAccessFile = new RandomAccessFile(inputFile, "r");
         IInArchive inArchive = SevenZip.openInArchive(null, new RandomAccessFileInStream(randomAccessFile))) {
        ISimpleInArchive simpleInArchive = inArchive.getSimpleInterface();
        for (final ISimpleInArchiveItem item : simpleInArchive.getArchiveItems()) {
            if (!item.isFolder()) {
                ExtractOperationResult result = item.extractSlow(data -> {
                    try {
                        String fileName = GetNameAndPathOK(inputFile, targetFileDir, item);
                        try (FileOutputStream fos = new FileOutputStream(targetFileDir + File.separator + fileName, true)) {
                            fos.write(data);
                            //change sth here, if you want to read line
                        }
                    } catch (Exception e) {
                        throw new SevenZipException(e.getMessage());
                    }
                    return data.length;
                });

                if (result != ExtractOperationResult.OK) {
                    //error
                }
            }
        }
    }
}

private static String GetNameAndPathOK(File inputFile, String targetFileDir, ISimpleInArchiveItem item) throws Exception {
    String fileName = item.getPath();
    if (fileName == null || fileName.isEmpty()) {
        fileName = inputFile.getName().substring(0, inputFile.getName().lastIndexOf("."));
    }
    if (fileName.indexOf(File.separator) > 0) {
        String path = targetFileDir + File.separator + fileName.substring(0, fileName.lastIndexOf(File.separator));
        File newdir1 = new File(path);
        if (!newdir1.exists() && !newdir1.mkdirs()) {
            throw new Exception("Create Dir failed! : " + path);
        }
    }
    return fileName;
}

(4.3)Golang ⭐️

使用github.com/nwaples/rardecode
也有其它的方式处理RAR,比如archiver.NewRar().Unarchive(Source,Dest)是从文件解压到文件,但不能直接读压缩包的内容。

import (
	...
	"github.com/nwaples/rardecode"
	...
)
...

RARReader, err := rardecode.OpenReader(SourceFile, "")
if err != nil {
	panic(err)
}
defer func(RARReader *rardecode.ReadCloser) {
	err := RARReader.Close()
	if err != nil {
		panic(err)
	}
}(RARReader)

for {
	f, err := RARReader.Next()
	if err != nil {
		break
	}

	if !f.IsDir {
		OneReader := bufio.NewReader(RARReader)
		for {
			line, _, err := OneReader.ReadLine()
			if err == io.EOF {
				MyEof = true
				break
			}
			if err != nil {
				panic(err)
			}
			// do what ever with every Line.
		}
	}
}

(五)【7Zip】格式

是Windows下新晋的压缩格式,扩展名.7z
单个压缩包内可以包含多个文件
压缩比较高,处理速度较快。
常用的软件:🔗7Zip。不过我比较喜欢基于它的:🔗NanaZip。
💡Nana = なな = 七。

(5.1)Python ⭐️

需要安装包:pip install py7zr

import py7zr
...
if not py7zr.is_7zfile(SourceFile):
    raise Exception(SourceFile+" is not in 7Z format!")
with py7zr.SevenZipFile(SourceFile) as sevenMy:
    for oneItem in sevenMy.files:
        filein = sevenMy.read([oneItem.filename])
        lines = filein[oneItem.filename].readlines()
    	# do what ever with lines.

(5.2)Java ⭐️

org.apache.commons.compress

 <!-- https://mvnrepository.com/artifact/org.apache.commons/commons-compress -->
 <dependency>
     <groupId>org.apache.commons</groupId>
     <artifactId>commons-compress</artifactId>
     <version>1.24.0</version>
 </dependency>
import org.apache.commons.compress.archivers.sevenz.SevenZArchiveEntry;
import org.apache.commons.compress.archivers.sevenz.SevenZFile;
...

try (SevenZFile z7In = new SevenZFile(SourceFile)){
    SevenZArchiveEntry entry;
    while ((entry = z7In.getNextEntry()) != null) {
        if (!entry.isDirectory()) {
            try(BufferedReader br = new BufferedReader(new InputStreamReader(z7In.getInputStream(entry), Charset.forName("GBK"))))
            {
                String aLine;
                while((aLine=br.readLine()) != null) {
                    // do what ever with every Line.
                }
            }
        }
    }
}

(5.3)Golang ⭐️

使用github.com/bodgit/sevenzip

import (
	...
	"github.com/bodgit/sevenzip"
	...
)
...

sevenReader, err := sevenzip.OpenReader(SourceFile)
if err != nil {
	panic(err)
}
defer func(sevenReader *sevenzip.ReadCloser) {
	err := sevenReader.Close()
	if err != nil {
		panic(err)
	}
}(sevenReader)
for _, f := range sevenReader.File {
	if !f.FileInfo().IsDir() {
		inFile, err := f.Open()
		if err != nil {
			panic(err)
		}
		OneReader := bufio.NewReader(inFile)
		for {
			line, _, err := OneReader.ReadLine()
			if err == io.EOF {
				MyEof = true
				break
			}
			if err != nil {
				panic(err)
			}
			// do what ever with every Line.
		}
	}
}

(六)【Unix Z】格式

是Linux/Unix下古老的压缩格式,扩展名.z
单个压缩包内只能包含单个文件

  • 和gzip不同,Unix Z格式似乎不能保存原始文件名(去掉.z后缀就是原始文件名)。

(6.1)Python ⭐️

需要pip install unlzw3

import unlzw3
...
    unCompress = BytesIO(unlzw3.unlzw(Path(fileNameFull).read_bytes()))
    lines=unCompress.readlines()
    # do what ever with lines.

(6.2)Java ⭐️

org.apache.commons.compress

 <!-- https://mvnrepository.com/artifact/org.apache.commons/commons-compress -->
 <dependency>
     <groupId>org.apache.commons</groupId>
     <artifactId>commons-compress</artifactId>
     <version>1.24.0</version>
 </dependency>
import org.apache.commons.compress.compressors.z.ZCompressorInputStream;
...

try(BufferedReader br = new BufferedReader(new InputStreamReader(new ZCompressorInputStream(Files.newInputStream(Paths.get(SourceFile))), Charset.forName("GBK"))))
{
    String aLine;
    while((aLine=br.readLine()) != null) {
        // do what ever with every Line.
    }
}

(6.3)Golang ⭐️

github.com/hotei/dcompress

import (
	...
	"github.com/hotei/dcompress"
	...
)
...
fi, err := os.Open(filepath.Join(SourcePath, SourceFile))
if err != nil {
	panic(err)
}
defer fi.Close()
dcompress.Verbose = true
fz, err := dcompress.NewReader(OneIn)
if err != nil {
	panic(err)
}
OneReader := bufio.NewReader(fz)
for {
	line, _, err := OneReader.ReadLine()
	if err == io.EOF {
		MyEof = true
		break
	}
	if err != nil {
		panic(err)
	}
	// do what ever with every Line.
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1104311.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

02. IMX启动方式

02. IMX启动方式 硬件启动方式的选择启动方式的选择串行下载内部BOOT模式 启动设备的选择 启动头文件BOOT ROM做的事情IVT和BOOT Data数据 DCD数据其他的数据 硬件启动方式的选择 启动方式的选择 6ULL是怎么支持从多种外置flash启动程序的? BOOT_MODE0和BOOT_MODE1&#xff…

Ubuntu 18.04 LTS中cmake-gui编译opencv-3.4.16并供Qt Creator调用

一、安装opencv 1.下载opencv-3.4.16的源码并解压 2.在解压后的文件夹内新建文件夹build以及opencv_install 3.启动cmake-gui并设置 sudo cmake-gui&#xff08;1&#xff09;设置界面中source及build路径 &#xff08;2&#xff09;点击configure&#xff0c;选择第一个def…

Linux篇 四、Linux修改用户名

Linux系列文章目录 一、香橙派Zero2设置开机连接wifi 二、香橙派Zero2获取Linux SDK源码 三、香橙派Zero2搭建Qt环境 文章目录 Linux系列文章目录前言一、更改用户名准备二、修改用户名总结 前言 主要讲述了修改普通用户名的过程 一、更改用户名准备 LubanCat 镜像出厂默认是…

算法通关村第18关【黄金】| 继续回溯

1.复原IP地址 思路&#xff1a; 单层for循环start控制开始位置&#xff0c;逐个遍历情况取&#xff0c;附带剪枝&#xff0c;递归返回后进行point回溯 深度递归pointNum三层&#xff0c;确定终止条件 class Solution {List<String> result new ArrayList<>();p…

如何查看前端项目vue版本

&#xff08;1&#xff09;点击package.json文件 &#xff08;2&#xff09;找到dependencies下面的value &#xff08;2&#xff09;查看vue版本 2开头为vue2 3开头为vue3

与 Harbor 构建高效的镜像加速工作流

镜像是容器的基础&#xff0c;如今有很多用户在实践使用 Harbor 作为镜像存储与分发方案&#xff0c;本文介绍了 Harbor 在支持镜像加速方面的能力&#xff0c;以及 Nydus 这种改进的镜像格式&#xff0c;用于解决镜像在网络&#xff0c;存储&#xff0c;端到端可信方面的问题。…

从外网 log4j2 RCE 再到内网组合拳漏洞 CVE-2021-42287、CVE-2021-42278 拿到 DC

网络拓扑 信息搜集 渗透测试第一步当然是信息搜集 拿到 IP192.168.81.151我们先使用nmap对他进行常规TCP端口的扫描 nmap -v -Pn -T3 -sV -n -sT --open -p 22,1222,2222,22345,23,21,445,135,139,5985,2121,3389,13389,6379,4505,1433,3306,5000,5236,5900,5432,1521,1099,5…

银河麒麟服务器x86安装qemu虚拟机,并安装windows server 2019

安装虚拟机 桌面右键&#xff0c;选择在终端中打开 输入下面的脚本 yum install -y virt-viewer virt-v2v libvirt* qemu* virt-manager 等待安装完成 安装成功 打开虚拟机软件 新建虚拟操作系统&#xff0c;以windows server 2019为例 选择镜像 点击前进 点击&#xff1a;是…

C语言实现编一程序显示由符号组成的三角形图案,行数与图形均可自行输入改变

* *** ***** ******* 完整代码&#xff1a; /*编一程序显示由符号组成的三角形图案&#xff0c;行数与图形均可自行输入改变。********* ******* */ #include<stdio.h>int main(){//n表示图案的行数int n;printf("请输入图案的行数:");scanf("%d"…

【数字图像处理笔记】01-数字图像基础

01-数字图像基础 图像类型 黑白(二值)图像 只有黑白两种颜色的图像称为黑白图像或单色图像&#xff0c;图像的每个像素只能是黑或白&#xff0c;没有中间的过渡&#xff0c;故又称为二值图像。 二值图像的像素值只能为0或1&#xff0c;图像中的每个像素值用1位存储。图像矩阵中…

新版外国人永居证身份证读卡器C++开发SDK接口

近期&#xff0c;国家移民管理局对外国人永久居留身份证&#xff08;以下简称永居证&#xff09;进行了升级改造和便利化应用工作&#xff0c;新版永居证将于 2023年 12 月 1 日起正式签发。新版永居证调整了号码规则&#xff0c;改进了信 息储存&#xff0c;优化了图案设计&am…

C++标准模板(STL)- 类型支持 (数值极限,epsilon,round_error,infinity)

数值极限 提供查询所有基础数值类型的性质的接口 定义于头文件 <limits> template< class T > class numeric_limits; numeric_limits 类模板提供查询各种算术类型属性的标准化方式&#xff08;例如 int 类型的最大可能值是 std::numeric_limits<int>::m…

Android查看签名信息系列 · 使用Android Studio获取签名

前言 Android查看签名信息系列 之使用Android Studio获取签名&#xff0c;通过Android Studio自带的gradle来获取签名信息。 优点&#xff1a;此法可查看 MD5、SHA1 等信息。 缺点&#xff1a;升级某个Studio版本后&#xff0c;没有签名任务了&#xff0c;特别不方便。 实现…

简单的对称加密

异或 异或算法的好处便是数A和数B异或后&#xff0c;把结果再和数A异或便可得到B&#xff0c;或者和数B异或可重新得到数据A。利用异或的这个特性可简单实现数据的加密和解密算法。 恺撒密码 恺撒密码的替换方法是通过排列明文和密文字母表&#xff0c;密文字母表示通过将明…

【C++11】智能指针的使用以及模拟实现(shared_ptr,unique_ptr,auto_ptr,weak_ptr)

&#x1f30f;博客主页&#xff1a; 主页 &#x1f516;系列专栏&#xff1a; C ❤️感谢大家点赞&#x1f44d;收藏⭐评论✍️ &#x1f60d;期待与大家一起进步&#xff01; 文章目录 一、 RAII概念一、auto_ptr1.基本使用2.模拟实现 二、unique_ptr1.基本使用2.模拟实现…

如何禁止在堆上和栈上创建对象

背景 首先需要知道的是&#xff1a; 在栈新建一个对象&#xff0c;不需要调用operator new&#xff0c;创建栈对象时会移动栈顶指针以“挪出”适当大小的空间&#xff0c;然后在这个空间上直接调用对应的构造函数以形成一个栈对象。当对象在栈上创建时&#xff0c;虽然编译器…

Apache Dubbo的主要项目模块

Apache Dubbo的项目结构或者主要项目模块如下所示&#xff1a;

Web架构安全分析/http/URL/Cookie攻击

Web 架构安全分析 Web 工作机制及基本概念 传统 Web 架构 LAMP 网页 概念 网页就是我们可以通过浏览器上网看到的精美页面&#xff0c;一般都是经过浏览器渲染过的 .html 页面&#xff0c;html 语言在浏览器中渲染。其中包含了CSS、JavaScript 等前端技术。通过浏览器访问…

excel 日期与时间戳的相互转换

1、日期转时间戳&#xff1a;B1INT((A1-70*365-19)*86400-8*3600)*1000 2、时间戳转日期&#xff1a;A1TEXT((B1/10008*3600)/8640070*36519,"yyyy-mm-dd hh:mm:ss") 以上为精确到毫秒&#xff0c;只精确到秒不需要乘或除1000。 使用以上方法可以进行excel中日期…

07AC91 GJR5252300R0101 什么是机器人技术

07AC91 GJR5252300R0101 什么是机器人技术 什么是机器人技术&#xff1f; 机器人学是工程学的一个分支&#xff0c;研究机器人的概念、设计、构造、操作、应用和使用。再深入一点&#xff0c;我们看到机器人被定义为自动操作的机器&#xff0c;它独立地执行一系列动作&#x…