Java 提取HTML文件中的文本内容

news2026/2/12 10:14:55

从 HTML 文件中提取文本内容是数据抓取中的一个常见任务，你可以将提取的文本信息用于编制报告、进行数据分析或其他处理。本文分享如何使用免费 Java API 从HTML 文件中提取文本内容。

安装免费Java库：

要通过Java提取HTML文本，需要用到Free Spire.Doc for Java免费库。以下提供两种安装方式：

1. 通过Maven仓库安装：

<repositories>
    <repository>
        <id>com.e-iceblue</id>
        <name>e-iceblue</name>
        <url>https://repo.e-iceblue.cn/repository/maven-public/</url>
    </repository>
</repositories>
<dependency>
    <groupId>e-iceblue</groupId>
    <artifactId>spire.doc.free</artifactId>
    <version>5.2.0</version>
</dependency>

2. 下载Free Spire.Doc for Java库，解压后手动将Spire.Doc.jar添加到程序中。

使用Java从HTML文件中提取文本内容

基本步骤：

导入需要的类库；
通过 loadFromFile() 方法加载HTML文件；
通过 getText() 方法获取HTML文件中的文本内容。
创建一个 FileWriter 对象，将提取的文本内容写入一个txt文件中

示例代码：

import com.spire.doc.Document;
import com.spire.doc.FileFormat;

import java.io.FileWriter;
import java.io.IOException;

public class ExtractTextFromHTML {
    public static void main(String[] args) throws IOException {

        //创建Document对象
        Document doc = new Document();

        //加载一个HTML文件
        doc.loadFromFile("input.html", FileFormat.Html);

        //获取HTML文件中的文本
        String text = doc.getText();

        //将文本写入TXT文件
        FileWriter fileWriter = new FileWriter("提取HTML文本.txt");
        fileWriter.write(text);
        fileWriter.close();
    }
}

运行结果：

参考文章：

Java: Extract Text from HTMLUse Spire.Doc for Java to extract text from an HTML file or a URL easily, without the need for any third-party libraries.https://www.e-iceblue.com/Tutorials/Java/Spire.Doc-for-Java/Program-Guide/Conversion/Java-Extract-Text-from-HTML.html在实际应用中，有问题可前往论坛讨论。