Java爬取哔哩哔哩视频(可视化)

news2025/1/23 0:01:01

链接:我的讲解视频https://www.bilibili.com/video/BV14e411Q7oG/
本文仅供学术用途

先上图

在这里插入图片描述

代码

爬虫核心

import com.alibaba.fastjson2.JSON;
import com.alibaba.fastjson2.JSONObject;
import com.gargoylesoftware.htmlunit.*;
import org.apache.commons.exec.CommandLine;
import org.apache.commons.exec.DefaultExecutor;
import org.apache.commons.exec.Executor;
import org.apache.commons.exec.PumpStreamHandler;
import org.apache.commons.io.IOUtils;

import java.io.*;
import java.net.URL;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

class Spider {
    public void catchvideo(String url,String addr) throws IOException {
        //TODO 建立无头浏览器
        WebClient webClient = new WebClient();
        webClient.getOptions().setJavaScriptEnabled(false);
        webClient.getOptions().setCssEnabled(false);
        webClient.getOptions().setThrowExceptionOnFailingStatusCode(true);
        webClient.getOptions().setThrowExceptionOnScriptError(true);
        webClient.addRequestHeader("Referer", "https://www.bilibili.com/index.html");
        webClient.addRequestHeader("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36 Edg/117.0.2045.40");
        //TODO 设置请求参数,建立请求
        WebRequest webRequest = new WebRequest(new URL(url), HttpMethod.GET);

        //TODO 获取响应体
        Page page = webClient.getPage(webRequest);
        WebResponse webResponse = page.getWebResponse();
        String contentAsString = webResponse.getContentAsString();
//        System.out.println(contentAsString);

        //TODO 模式匹配找视频总数
        Pattern pattern = Pattern.compile("<script>window.__INITIAL_STATE__=(.*?);\\(function\\(\\)");
        Matcher matcher = pattern.matcher(contentAsString);
        String s = null;
        if (matcher.find())
            s = matcher.group(1);
        JSONObject jsonObject = JSON.parseObject(s);
        int videonum = jsonObject.getJSONObject("videoData").getIntValue("videos");
//        System.out.println("视频总数" + videonum);

        //TODO 获取目录名
        pattern = Pattern.compile("<meta data-vue-meta=\"true\" property=\"og:title\" content=\"(.*?)_哔哩哔哩_bilibili\">");
        matcher = pattern.matcher(contentAsString);
        String s1 = null;
        if (matcher.find())
            s1 = matcher.group(1);
        else
            System.out.println("没有找到");
        //目录名去除./&*这些字符
        String content = s1.replaceAll("[/&*_,《》\\s+]", "");
//        System.out.println("目录名" + content);

        //TODO 建立目录
        String dir = addr+"\\" + content + "\\";
        File directory = new File(dir);
        if (!directory.exists())
            directory.mkdirs();

        for (int i = 1; i <= videonum; i++) {
            //TODO 设置请求参数,建立请求
            webRequest = new WebRequest(new URL(url + "?p=" + i), HttpMethod.GET);
//            System.out.println(webRequest);
            //TODO 获取响应体
            page = webClient.getPage(webRequest);
            webResponse = page.getWebResponse();
            contentAsString = webResponse.getContentAsString();
            //TODO 获取视频链接
            pattern = Pattern.compile("<script>window.__playinfo__=(.*?)</script>");
            matcher = pattern.matcher(contentAsString);
            String s2 = null;
            if (matcher.find())
                s2 = matcher.group(1);
            else
                System.out.println("没有找到");
            String videolink = JSON.parseObject(s2).getJSONObject("data").getJSONObject("dash").getJSONArray("video").getJSONObject(0).getString("baseUrl");
            String audiolink = JSON.parseObject(s2).getJSONObject("data").getJSONObject("dash").getJSONArray("audio").getJSONObject(0).getString("baseUrl");
//            System.out.println("视频下载链接\n" + videolink);
//            System.out.println("音频下载链接\n" + audiolink);

            //TODO 获取视频名称
            pattern = Pattern.compile("<title data-vue-meta=\"true\">(.*?)_哔哩哔哩_bilibili</title>");
            matcher = pattern.matcher(contentAsString);
            String s3 = null;
            if (matcher.find())
                s3 = matcher.group(1);
            else
                System.out.println("没有找到");
            //目录名去除./&*这些字符
            String videoname = s3.replaceAll("[/&*_,《》\\s+]", "");
            System.out.println(i + "_________________________" + videoname);
            String videofile = dir + "tmp_" + videoname + ".mp4";
            String audiofile = dir + "tmp_" + videoname + ".mp3";

            //TODO 下载视频
            webRequest = new WebRequest(new URL(videolink), HttpMethod.GET);
            page = webClient.getPage(webRequest);
            webResponse = page.getWebResponse();
            InputStream inputStream = webResponse.getContentAsStream();
            OutputStream outputStream = new FileOutputStream(videofile);
            IOUtils.copy(inputStream, outputStream);
            inputStream.close();
            outputStream.close();


            //TODO 下载音频
            webRequest = new WebRequest(new URL(audiolink), HttpMethod.GET);
            page = webClient.getPage(webRequest);
            webResponse = page.getWebResponse();
            inputStream = webResponse.getContentAsStream();

            outputStream = new FileOutputStream(audiofile);
            IOUtils.copy(inputStream, outputStream);
            inputStream.close();
            outputStream.close();

            //TODO 执行合并命令

            // 创建命令行
            CommandLine commandLine = CommandLine.parse("ffmpeg -i " + videofile + " -i " + audiofile + " -c:v copy -c:a aac -strict experimental " + dir + i + "_" + videoname + ".mp4"); // 使用 Windows cmd 命令作为示例
            // 创建执行器
            Executor executor = new DefaultExecutor();
            // 设置输出流处理器(可选)
            PumpStreamHandler streamHandler = new PumpStreamHandler(System.out, System.err); // 将标准输出和错误输出重定向到控制台
            executor.setStreamHandler(streamHandler);
            // 执行命令
//            System.out.println(commandLine);
            executor.execute(commandLine);
//            int exitValue = executor.execute(commandLine); // 执行命令并获取退出值
//            System.out.println("Exit value: " + exitValue); // 打印退出值(通常为0表示成功)

            File file = new File(audiofile);
            file.delete();

            file = new File(videofile);
            file.delete();
        }
    }
}

可视化代码

import javax.swing.*;
import java.awt.*;
import java.awt.event.ActionEvent;
import java.awt.event.ActionListener;
import java.io.File;
import java.io.IOException;

public class SwingDemo {
    public static void main(String[] args) {
        JFrame jFrame = new JFrame("Swing frame");
        //设置关闭退出程序
        jFrame.setDefaultCloseOperation(JFrame.EXIT_ON_CLOSE);
        JPanel panel = new JPanel();
        jFrame.setContentPane(panel);
        jFrame.setLocationRelativeTo(null);
        panel.setLayout(new FlowLayout());

        JLabel jLabel = new JLabel("下载地址");
        JTextField jTextField = new JTextField(20);
        jTextField.setToolTipText("下载地址");
        JButton download = new JButton("下载");

        panel.add(jLabel);
        panel.add(jTextField);
        panel.add(download);


        JLabel jLabel1 = new JLabel("文件保存位置");
        JTextField jTextField1 = new JTextField(20);
        jTextField1.setText("D:\\videos\\");
        jTextField1.setToolTipText("文件保存位置");
        JButton fileaddr = new JButton("选择文件夹");

        panel.add(jLabel1);
        panel.add(jTextField1);
        panel.add(fileaddr);

        fileaddr.addActionListener(e -> {
            JFileChooser fileChooser = new JFileChooser();
            fileChooser.setFileSelectionMode(JFileChooser.DIRECTORIES_ONLY);
            int returnValue = fileChooser.showOpenDialog(null);
            if (returnValue == JFileChooser.APPROVE_OPTION) {
                File selectedFile = fileChooser.getSelectedFile();
                jTextField1.setText(selectedFile.getAbsolutePath());
            }
        });

        download.addActionListener(e -> {
            String url = jTextField.getText()+"/";
            String fileAddr = jTextField1.getText();
            System.out.println(url);
            System.out.println(fileAddr);
            try {
                Spider spider = new Spider();
                spider.catchvideo(url,fileAddr);
            } catch (IOException ioException) {
                ioException.printStackTrace();
            }
        });

        //自适应
        jFrame.pack();
        jFrame.setVisible(true);

    }
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1214741.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【500强 Kubernetes 课程】第3章 运行docker容器

一 - 三 &#xff0c;docker基础操作见 第2章7节 四、docker部署web网站 1、安装 nginx &#xff08;适合场景&#xff1a;学习 - 略&#xff09; 2、docker 安装 nginx Stage 1 &#xff1a;docker hub 上 搜索 nginx 镜像 Stage 2&#xff1a;拉取官方镜像 Stage 3&…

【开源】基于微信小程序、Vue和SpringBoot的智慧家政系统

项目编号&#xff1a; S 063 &#xff0c;文末获取源码。 \color{red}{项目编号&#xff1a;S063&#xff0c;文末获取源码。} 项目编号&#xff1a;S063&#xff0c;文末获取源码。 目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块三、系统展示四、核心代码4.1 查询家政服…

软件自动化测试代码覆盖率

在<professional software testing with visual studio 2005 team system tools for software developer>中提到了代码覆盖率&#xff0c;我很久没有去书店了&#xff0c;不知道是不是出了新的版本&#xff0c;觉得书里面关于代码覆盖率方面的知识有些地方没有讲&#xf…

wpf devexpress数据统计

GridControl允许显示总结信息关于单个数据行分组。例如&#xff0c;你可以显示记录数量&#xff0c;最小和最大值。这个统计信息可以叫做数据统计。 创建统计 GridControl 支持总结和分组统计&#xff1a; 总结统计 - 一个总结函数值计算对于所有列和视图显示统计面板和固定统…

04.智慧商城——短信验证码倒计时、登录请求、响应拦截器统一处理、请求loading效果

01. 短信验证倒计时功能 (1) 倒计时基础效果 准备 data 数据 data () {return {totalSecond: 60, // 总秒数second: 60, // 倒计时的秒数timer: null // 定时器 id} },给按钮注册点击事件 <button click"getCode">{{ second totalSecond ? 获取验证码 : s…

Go 使用Viper处理Go应用程序的配置

在开发Go应用程序时&#xff0c;处理配置是一个常见的需求。配置可能来自于配置文件、环境变量、命令行参数等等。Viper是一个强大的库&#xff0c;可以帮助我们处理这些配置。 什么是Viper&#xff1f; Viper是一个应用程序配置解决方案&#xff0c;用于Go应用程序。它支持JS…

Go fsnotify简介

fsnotify是一个用Go编写的文件系统通知库。它提供了一种观察文件系统变化的机制&#xff0c;例如文件的创建、修改、删除、重命名和权限修改。它使用特定平台的事件通知API&#xff0c;例如Linux上的inotify&#xff0c;macOS上的FSEvents&#xff0c;以及Windows上的ReadDirec…

220V交流转直流的简易电源设计

220V交流转直流的简易电源设计 设计简介设计原理电路图变压器电路交流转直流电路3.3V电源接口电路 PCB3D图 实践检验 设计简介 通过模拟电路的相关知识&#xff0c;尝试将220V的交流电转化为我们指定电压的直流电。 设计原理 将220V交流电转化为直流电的方法常用的有通过变压器…

(四)什么是Vite——冷启动时vite做了什么(源码、middlewares)

vite分享ppt&#xff0c;感兴趣的可以下载&#xff1a; ​​​​​​​Vite分享、原理介绍ppt 什么是vite系列目录&#xff1a; &#xff08;一&#xff09;什么是Vite——vite介绍与使用-CSDN博客 &#xff08;二&#xff09;什么是Vite——Vite 和 Webpack 区别&#xff0…

IO流回顾与装饰者模式

目录 代码图示原理 代码 // 初始化服务器System.out.println("初始化服务器");ServerSocket serverSocket new ServerSocket(8087);System.out.println("服务器初始化成功");// 监听服务器Socket accept serverSocket.accept();System.out.println("…

vue-vuex详解

​&#x1f308;个人主页&#xff1a;前端青山 &#x1f525;系列专栏&#xff1a;Vue篇 &#x1f516;人终将被年少不可得之物困其一生 依旧青山,本期给大家带来vue篇专栏内容:vue-vuex详解 目录 Vuex 1.vuex是什么&#xff1f; 2.vuex核心概念 3.vuex模块化 4. Vuex中ac…

【Java 进阶篇】JQuery 动画:为页面添彩的魔法

在现代的Web开发中&#xff0c;用户体验的提升是至关重要的一环。而动画作为页面交互中的重要组成部分&#xff0c;更是为用户带来了全新的感官体验。本篇博客将深入探讨 JQuery 中动画的应用&#xff0c;带你进入一个充满活力的前端世界。 前言 动画是网页设计的一种重要手段…

YOLO目标检测——树叶检测数据集下载分享【含对应voc、coco和yolo三种格式标签】

实际项目应用&#xff1a;生物多样性研究、林业管理、环境监测和教育科研等方面数据集说明&#xff1a;树叶分类检测数据&#xff0c;真实场景的高质量图片数据&#xff0c;数据场景丰富&#xff0c;总共十个类别。标签说明&#xff1a;使用lableimg标注软件标注&#xff0c;标…

力扣刷题篇之数与位1

系列文章目录 目录 系列文章目录 前言 一、进制转换 总结 前言 本系列是个人力扣刷题汇总&#xff0c;本文是数与位。刷题顺序按照[力扣刷题攻略] Re&#xff1a;从零开始的力扣刷题生活 - 力扣&#xff08;LeetCode&#xff09; 一、进制转换 67. 二进制求和 - 力扣&…

(免费领源码)Java#SpringBoot#mysql高校实验室资产管理系统85189-计算机毕业设计项目选题推荐

摘 要 随着计算机技术的发展&#xff0c;特别是计算机网络技术与数据库技术的发展&#xff0c;使人们的生活与工作方式发生了很大的改观。本课题研究的高校实验室资产管理系统&#xff0c;主要功能模块包括后台首页&#xff0c;轮播图&#xff0c;公告管理&#xff0c;资源管理…

一看就会的jni,不会你来打我!

环境配置 Android Studio&#xff0c;这个不多说了。 简单说一下NDK的下载和环境变量&#xff0c;方便在Terminal里使用命令(mac版)。 下载 1.可以通过Android Studio内置的Settings-Android SDK-SDK Tools安装NDK&#xff0c;下载目录为 /Users/mac-xxx(Username)/Library…

服务号可以升级为订阅号吗

服务号和订阅号有什么区别&#xff1f;服务号转为订阅号有哪些作用&#xff1f;在推送频率上来看&#xff0c;服务号每月能推送四条消息&#xff0c;而订阅号可以每天&#xff08;24小时&#xff09;推送一条消息。如果企业开通公众号的目的是提供服务&#xff0c;例如售前资讯…

WPS文件丢失如何恢复?4个方法教你快速恢复!

“在WPS里保存了一些比较重要的文档&#xff0c;由于某些原因导致文件丢失了&#xff0c;这种情况下&#xff0c;还有办法成功恢复WPS文件吗&#xff1f;” WPS Office是许多用户在电脑上创建和编辑文档的首选工具。然而&#xff0c;有时文件会意外丢失&#xff0c;可能是由于误…

Linux_在命令行中以树状结构显示目录_tree

1、安装tree命令 使用tree命令&#xff0c;可以在命令行中以树状结构显示目录&#xff0c;当你想知道一个路径下文件的结构时十分方便&#xff0c;还有别的选项功能&#xff0c;下面会介绍其中的一些&#xff0c;完整的介绍Linux命令 - tree—LZL在线工具。 sudo apt updates…

头部厂商Q3交付量环比下滑!激光雷达,现实很骨感

由于中国自主品牌车企在高阶智驾赛道上的激进策略&#xff0c;全球激光雷达行业的走势&#xff0c;也无疑受到中国市场的影响。 本周&#xff0c;禾赛科技发布2023年度三季报&#xff0c;季度激光雷达交付量为47,440台&#xff0c;同比增长125.5%&#xff0c;其中ADAS激光雷达交…