短视频评论截取提取软件技术思路

news2024/11/20 12:38:14

关于开发短视频评论所需要用到得技术第一篇

前言:根据业务需要,我们需要通过短视频找到准客户,这个软件应该是叫短视频评论提取软件,或者是短视频评论采集。无所谓叫什么都可以 进入正题。

第一篇只讲解所应该用到得基础工作

一:视频页面分析

找到对应得视频页面,此页面必须带评论。分析出页面中包含得 1:视频名称 2:作者名称

3:作者UID得url 4:获取评论显示得位置 (注意这里得视频评论显示位置,必须登录某视频账号才能进行查看、是否需要点击元素查看评论)

这里展示一下我们第一个版本的douyin视频评论截取软件截图。

V:290615413 

string htmlContent = html;
            try
            {
                // string title = "";//获取title值 标题 视频名称
                Regex regex = new Regex(@"<span class=""j5WZzJdp IoRNNcMW hVNC9qgC"">(.*?)</span>", RegexOptions.IgnoreCase);
                Match match = regex.Match(htmlContent);
                if (match.Success)
                {
                    // 获取匹配到的第一个组(即<title>和</title>之间的内容)
                    title = match.Groups[1].Value;
                    //发布时间:
                    title = title.Replace("<span>", "");
                    title = title.Replace("/", "");

                }
            }
            catch
            {
                //MessageBox.Show("608");
            }

二:字符串函数

通过视频页面分析找到对应的标签 通过字符串函数进行解析 或者是使用正则表达式也是可以的。 简单一些的 解析 则是 视频名称最好解析,建立一个储存视频名称的变量,然后获取 视频名称标签中的 名称即可。 首先要获取打开页面中的html 这里获取的html不是普通的静态 html 而是动态的。

三:UI自动操作

在开始获取评论的时候视频中获取评论有两种方式 一种是 直接进入视频详情页直接可以获取到评论数据,我们只需要做到多少毫秒自动下拉一次获取到隐藏的评论即可。 这种方法虽然简单但是速度快和时间久会被屏蔽 1-5个小时左右

第二种方法是直接进入视频的层页面,进入层页面后无法直接看到评论,必须点击评论的图标才能打开评论,打开评论后才会加载评论,加载评论后才能提取到评论 所以要分析点击层的标签 分析后写入自动点击的代码即可。

下面代码是 douyin视频层需要 下拉评论层的代码

 chromeBrowser2.ExecuteScriptAsync(@"
                    var commentList = document.querySelector('div[data-e2e=""comment-list""]');
                    if (commentList) {
                        commentList.scrollTop = commentList.scrollHeight;
                    }
                ");

四:点击层分析

通过UI自动操作这段文字可以看出,只有用评论视频层才能在基本不被屏蔽的情况下进行评论提取。我们这里分析出点击层后写入点击层代码,但是不能一直点击 必须只点击一次。

点击层的实例代码

  chromeBrowser2.ExecuteScriptAsync(@"
                    var divElement = document.querySelector('div.kT7icnwc');
                    if (divElement) {
                        divElement.click();
                    }
                ");

五:会员session和COOKIE得储存

我们看了其它的软件,使用时必须先通过浏览器打开短视频的网页,登录后通过浏览器的开发者工具找到COOIKE。然后在添加到软件中才可以使用。这种方式过于落后,并且没有技术储备的软件使用者无法顺畅的操作这个。我们作了 直接通过软件登录并且自动保存和加载COOKIE解决这个问题。

六:我们的目标是做到,软件使用者无需自己搞COOKIE也可以使用,所以我们采用了云端的数据处理来解决这个问题

七:关于我们目标开发的短视频评论节流提取 软件的版本和功能

我们开发了多个版本

第一个版本是:只能通过关键词搜索视频进行视频评论提取。不需要登录短视频账号,也无需使用COOKIE 只需要建立任务即可,但是不能关闭软件,关闭软件数据将无法监视。但是可以通过历史任务记录进行提取。

第二个版本:

功能1:通过关键词进行搜索视频来提取视频评论

功能2:通过短视频博主的首页进行评论提取。

功能3:通过单个视频进行视频提取。

功能4:监控视频评论。

功能5:可以随时关闭软件 随时开启 随时监控

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1798757.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

关于JavaScript技术的基础内容汇总

目录 JavaScript 基础知识1. JavaScript 基本语法2. 变量和常量3. 数据类型4. 运算符5. 控制结构6. 函数7. 对象8. 数组9. 事件处理10. DOM 操作 JavaScript 基础知识 学习 JavaScript&#xff08;简称 JS&#xff09;是前端开发的重要组成部分&#xff0c;它是一种动态的、弱…

100V 15A TO-252 N沟道MOS管 HC070N10L 惠海

MOS管的工作原理是基于在P型半导体与N型半导体之间形成的PN结&#xff0c;通过改变栅极电压来调整沟道内载流子的数量&#xff0c;从而改变沟道电阻和源极与漏极之间的电流大小。由于MOS管具有输入电阻高、噪声小、功耗低等优点&#xff0c;它们在大规模和超大规模集成电路中得…

【ARM Cache 及 MMU 系列文章 6.3 -- ARMv8/v9 Cache Tag数据读取及分析】

请阅读【ARM Cache 及 MMU/MPU 系列文章专栏导读】 及【嵌入式开发学习必备专栏】 文章目录 Cache Tag 数据读取测试代码Cache Tag 数据读取 在处理器中,缓存是一种快速存储资源,用于减少访问主内存时的延迟。缓存通过存储主内存中经常访问的数据来实现这一点。为了有效地管…

java高并发实战<2>

##>>> 我们解决我们重复下单的问题 我们可以使用mysql 的唯一索引 &#xff0c;在我们的数据库层面保证不能重复下单 我可以控制是唯一的 同一个用户 针对于同一个商品只可以买一个 重复下单 优化 我们 >1.使用数据库唯一索引 一旦是 2个请求 因为mysql 有行级…

Turnitin揭露AI写作痕迹,是否会影响论述是重复率?

Turnitin&#xff08;www.checktoo.com&#xff09;为学术界提供了便捷的服务&#xff0c;以确保论文的原创性和学术诚信。然而&#xff0c;许多学生和研究人员在使用Turnitin时&#xff0c;常常会想Turnitin查论文AI率和重复率之间的关系。那么&#xff0c;使用Turnitin查重论…

CCF-GESP 等级考试 2023年9月认证C++四级真题解析

一、单选题&#xff08;每题2分&#xff0c;共30分&#xff09; 第 1 题 ⼈们所使⽤的⼿机上安装的App通常指的是&#xff08; &#xff09;。 A. ⼀款操作系统B. ⼀款应⽤软件C. ⼀种通话设备D. 以上都不对 正确答案&#xff1a;B. ⼀款应⽤软件 解析&#xff1a;App是"…

【Python实战】使用postman测试flask api接口

cookie_demo.py # -*- coding: utf-8 -*- """ Time : 2024/5/28 17:14 Author : 娜年花开 File : cookie_demo.py Desc : 需求&#xff1a;用户需要先登陆&#xff0c;登陆之后&#xff0c;通过Cookie来判断是不是能够访问登录后的接口userinfo &quo…

机器学习扩展包MLXtend绘制分类模型决策边界

公众号&#xff1a;尤而小屋编辑&#xff1a;Peter作者&#xff1a;Peter 大家好&#xff0c;我是Peter~ 继续更新机器学习扩展包MLxtend的文章。本文介绍如何使用MLxtend来绘制与分类模型相关的决策边界decision_regions。 导入库 导入相关用于数据处理和建模的库&#xff…

OpenCV-最小外接圆cv::minEnclosingCircle

作者&#xff1a;翟天保Steven 版权声明&#xff1a;著作权归作者所有&#xff0c;商业转载请联系作者获得授权&#xff0c;非商业转载请注明出处 函数原型 void minEnclosingCircle(InputArray points, Point2f& center, float& radius); 参数说明 InputArray类型的…

22 - 游戏玩法分析 IV(高频 SQL 50 题基础版)

22 - 游戏玩法分析 IV 考点&#xff1a; 聚合函数 # 日期相加 date_add(min(event_date),INTERVAL 1 DAY) select round(count(distinct player_id)/(select count(distinct player_id) from Activity),2) fraction fromActivity where-- 如果日期加一天的数据能在表中…

探索800G数据中心的高速布线解决方案

随着技术的快速进步&#xff0c;数据中心正以前所未有的速度迅速发展。虽然100G和400G数据中心已经普及&#xff0c;但800G数据中心正逐渐流行并展现出增长趋势。由于对高速数据传输的需求呈指数级增长&#xff0c;因此需要高效、可靠的线缆连接解决方案。本文将介绍800G数据中…

Python 机器学习 基础 之 【常用机器学习库】 scikit-learn 机器学习库

Python 机器学习 基础 之 【常用机器学习库】 scikit-learn 机器学习库 目录 Python 机器学习 基础 之 【常用机器学习库】 scikit-learn 机器学习库 一、简单介绍 二、scikit-learn 基础 1、安装 scikit-learn 2、导入 scikit-learn 3、数据准备 4、数据分割 5、训练模…

党史馆3d网上展馆

在数字化浪潮的推动下&#xff0c;华锐视点运用实时互动三维引擎技术&#xff0c;为用户带来前所未有的场景搭建体验。那就是领先于同行业的线上三维云展编辑平台搭建编辑器&#xff0c;具有零基础、低门槛、低成本等特点&#xff0c;让您轻松在数字化世界中搭建真实世界的仿真…

MineAdmin 前端打包后,访问速度慢原因及优化

前言&#xff1a;打包mineadmin-vue前端后&#xff0c;访问速度很慢&#xff0c;打开控制台&#xff0c;发现有一个index-xxx.js文件达7M&#xff0c;加载时间太长&#xff1b; 优化&#xff1a; 一&#xff1a;使用文件压缩&#xff08;gzip压缩&#xff09; 1、安装compre…

【乐吾乐3D可视化组态编辑器】数据接入

数据接入 本文为您介绍3D数据接入功能&#xff0c;数据接入功能分为三个步骤&#xff1a;数据订阅、数据集管理、数据绑定 编辑器地址&#xff1a;3D可视化组态 - 乐吾乐Le5le 数据订阅 乐吾乐3D组态数据管理功能由次顶部工具栏中按钮数据管理打开。 在新弹窗中选择数据订阅…

【C/C++】IO流

目录 前言&#xff1a; 一&#xff0c;C语言的I/O流 二&#xff0c;C的I/O流 2-1&#xff0c;C标准IO流 2-2&#xff0c;IO流的连续输入 前言&#xff1a; “流”即是流动的意思&#xff0c;是物质从一处向另一处流动的过程&#xff0c;是对一种有序连续且具有方向性的数据…

【计算机网络】初识IP协议

前言 IP协议&#xff0c;可谓是程序猿必备的基础功之一&#xff0c;这不仅仅是因为IP协议为面试的常客&#xff0c;更是因为IP协议为整个网络协议中最重要、最常被人接触的一种协议。例如IP地址就几乎为所有人所熟知的一种概念&#xff0c;无论是浏览网页、聊天、打游戏&#x…

网络编程: 高级IO与多路转接select,poll,epoll的使用与介绍

网络编程: 高级IO与多路转接select,poll,epoll的使用与介绍 前言一.五种IO模型1.IO的本质2.五种IO模型1.五种IO模型2.同步IO与异步IO3.IO效率 二.非阻塞IO1.系统调用介绍2.验证代码 三.select多路转接1.系统调用接口2.写代码 : 基于select的TCP服务器1.封装的Socket接口2.开始写…

HarmonyOS NEXT星河版之自定义List下拉刷新与加载更多

文章目录 一、加载更多二、下拉刷新三、小结 一、加载更多 借助List的onReachEnd方法&#xff0c;实现加载更多功能&#xff0c;效果如下&#xff1a; Component export struct HPList {// 数据源Prop dataSource: object[] []// 加载更多是否ingState isLoadingMore: bool…

WebGIS常用技术体系记录

1、数据下载 &#xff08;1&#xff09;OSM下载开源矢量数据&#xff0c;数据较全&#xff0c;但是质量一般&#xff1b; &#xff08;2&#xff09;地理空间数据云下载DEM影像&#xff1b; &#xff08;3&#xff09;datav下载行政区 http://datav.aliyun.com/tools/atlas/…