毕业设计:日志记录编写(3/17起更新中)

news2024/9/23 20:00:19

目录

  • 3/17
    • 1.配置阿里云python加速镜像:
    • 2. 安装python3.9版本
    • 3. 爬虫技术选择
    • 4. 数据抓取和整理
    • 5. 难点和挑战
  • 3/24
    • 1.数据库建表信息
    • 2.后续进度安排
    • 3. 数据处理和分析

3/17

当前周期目标:构建基本的python环境:运行爬虫程序

1.配置阿里云python加速镜像:

pip config set global.index-url https://mirrors.aliyun.com/pypi/simple/

安装chrome驱动到python安装目录下

在这里插入图片描述

2. 安装python3.9版本

在这里插入图片描述

3. 爬虫技术选择

爬虫技术是采集数据的主要手段之一。以下是一些常用的爬虫技术:

Requests + Beautiful Soup: 对于静态网页,使用 Python 的 Requests 库获取网页源代码,然后使用 Beautiful Soup 解析数据。

Scrapy: 对于动态网页或需要大规模数据采集的情况,可以考虑使用 Scrapy 框架,它提供了强大的爬虫功能和数据处理能力。

Selenium: 如果需要模拟用户操作,比如登录或者触发 JavaScript 事件,可以使用 Selenium 这样的工具。

4. 数据抓取和整理

针对短视频平台的数据采集,你可能需要考虑以下内容:

视频信息: 包括标题、描述、发布时间、观看次数、点赞数、评论数等。

评论信息: 获取视频的评论内容、评论者的信息(如用户名、头像、粉丝数等)以及评论时间等。

用户信息: 可能需要获取用户的基本信息和行为数据,比如关注数、粉丝数、发布的视频数量等。

5. 难点和挑战

反爬虫机制: 很多网站会有反爬虫机制,你可能需要应对验证码、IP 封锁等问题。

数据量和频率限制: 确保你的爬虫不会给目标网站造成过大的负担,遵守网站的访问频率限制。

数据存储和处理: 采集到的数据可能会很庞大,你需要考虑如何高效地存储和处理这些数据,以及如何建立合适的数据库结构。

3/24

周期目标:编写运行爬虫程序,拿到抖音用户和评论数据,并持久化存入MySQL:

1.数据库建表信息

创作者视频信息表设计:

CREATE TABLE douyin_aweme (
    id INT PRIMARY KEY AUTO_INCREMENT,  -- 自增ID
    user_id VARCHAR(64),  -- 用户ID
    sec_uid VARCHAR(128),  -- 用户sec_uid
    short_user_id VARCHAR(64),  -- 用户短ID
    user_unique_id VARCHAR(64),  -- 用户唯一ID
    nickname VARCHAR(64),  -- 用户昵称
    avatar VARCHAR(255),  -- 用户头像地址
    user_signature VARCHAR(500),  -- 用户签名
    ip_location VARCHAR(255),  -- 评论时的IP地址
    add_ts BIGINT,  -- 记录添加时间戳
    last_modify_ts BIGINT,  -- 记录最后修改时间戳
    aweme_id VARCHAR(64),  -- 视频ID
    aweme_type VARCHAR(16),  -- 视频类型
    title VARCHAR(500),  -- 视频标题
    `desc` TEXT,  -- 视频描述
    create_time BIGINT,  -- 视频发布时间戳
    liked_count VARCHAR(16),  -- 视频点赞数
    comment_count VARCHAR(16),  -- 视频评论数
    share_count VARCHAR(16),  -- 视频分享数
    collected_count VARCHAR(16),  -- 视频收藏数
    aweme_url VARCHAR(255)  -- 视频详情页URL
);

普通用户评论信息表设计:

CREATE TABLE douyin_aweme_comment (
    id INT PRIMARY KEY AUTO_INCREMENT,  -- 自增ID
    user_id VARCHAR(64),  -- 用户ID
    sec_uid VARCHAR(128),  -- 用户sec_uid
    short_user_id VARCHAR(64),  -- 用户短ID
    user_unique_id VARCHAR(64),  -- 用户唯一ID
    nickname VARCHAR(64),  -- 用户昵称
    avatar VARCHAR(255),  -- 用户头像地址
    user_signature VARCHAR(500),  -- 用户签名
    ip_location VARCHAR(255),  -- 评论时的IP地址
    add_ts BIGINT,  -- 记录添加时间戳
    last_modify_ts BIGINT,  -- 记录最后修改时间戳
    comment_id VARCHAR(64),  -- 评论ID
    aweme_id VARCHAR(64),  -- 视频ID
    content TEXT,  -- 评论内容
    create_time BIGINT,  -- 评论时间戳
    sub_comment_count VARCHAR(16)  -- 评论回复数
);

2.后续进度安排

1.编写后端程序,进行分模块管理
2.将目前拿到的实验数据(视频信息38条,用户评论信息1000条)进行数据清洗
3.构思后端逻辑
4.前端UI设计

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3. 数据处理和分析

采集到的数据可能需要进行清洗、去重、分析等处理,以便后续的应用。你可以考虑使用 Pandas、NumPy、或者其他数据处理工具进行数据分析和挖掘。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1542652.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

使用GaLore在本地GPU进行高效的LLM调优

训练大型语言模型(llm),即使是那些“只有”70亿个参数的模型,也是一项计算密集型的任务。这种水平的训练需要的资源超出了大多数个人爱好者的能力范围。为了弥补这一差距,出现了低秩适应(LoRA)等参数高效方法,可以在消费级gpu上对…

【Canvas与艺术】暗蓝网格汽车速度仪表盘

【关键点】 采用线性渐变色&#xff0c;使上深下浅的圆有凹下效果&#xff0c;使上浅下深的圆有凸起效果&#xff0c;两者结合就有立体圆钮的感觉。 【图例】 【代码】 <!DOCTYPE html> <html lang"utf-8"> <meta http-equiv"Content-Type&quo…

【Python机器学习系列】机器学习中的模型微调---随机搜索(案例+源码)

这是我的第245篇原创文章。 一、引言 如果探索的组合数量较少时&#xff0c;网格搜索是一种不错的方法&#xff0c;但当超参数的搜索范围较大时&#xff0c;通常会优先选择使用 RandomizedSearchCV 。它与 GridSearchCV 用法相似&#xff0c;但它不会尝试所有可能的组合&…

华为升级FIT AP示例(通过AC的命令行)

升级FIT AP示例&#xff08;通过AC的命令行&#xff09; 前提条件 从官网下载升级目标版本对应的系统软件包&#xff0c;保存在PC本地。如果下载的文件是压缩文件&#xff0c;则需要解压缩出系统软件包。 AP已在WAC上线。 背景信息 升级的过程是先将系统软件包传到设备上&…

微信小程序button动态跳转到页面

微信小程序中如何动态的跳转到某个页面。 目录 1、首先在js文件中定义事件函数 2、在页面中进行传参调用 3、其它跳转方法简单说明 1、首先在js文件中定义事件函数 goto(e){const urle.currentTarget.dataset.url;wx.navigateTo({url: url})}, 2、在页面中进行传参调用 &l…

C++之char16_t*与char*类型相互转换(二百六十)

简介&#xff1a; CSDN博客专家&#xff0c;专注Android/Linux系统&#xff0c;分享多mic语音方案、音视频、编解码等技术&#xff0c;与大家一起成长&#xff01; 优质专栏&#xff1a;Audio工程师进阶系列【原创干货持续更新中……】&#x1f680; 优质专栏&#xff1a;多媒…

国内ip修改用什么软件下载?

在特定情况下&#xff0c;可能需要修改你的国内IP地址以实现网络访问需求或绕过地域限制。许多软件和工具可以帮助你实现这一目标&#xff0c;无论是为了隐私保护还是访问特定内容。虎观代理小二将介绍一些推荐的软件下载途径&#xff0c;以便你修改国内IP地址。 1. IP代理软件…

深度解析:Elasticsearch写入请求处理流程

版本 Elasticsearch 8.x 原文链接&#xff1a;https://mp.weixin.qq.com/s/hZ_ZOLFUoRuWyqp47hqCgQ 今天来看下 Elasticsearch 中的写入流程。 不想看过程可以直接跳转文章末尾查看总结部分。最后附上个人理解的一个图。 从我们发出写入请求&#xff0c;到 Elasticsearch 接收请…

5个适用于 Windows/PC 的水印去除软件(视频/图像)

水印是文本、徽标、印记、图像或签名&#xff0c;通常叠加在视频、其他图像或具有较高透明度的 PDF 文档上。当您免费使用某些产品&#xff08;例如视频编辑器&#xff09;时&#xff0c;最终输出通常带有代表您使用的编辑器的水印。您可能需要出于您的目的从此类媒体文件中删除…

Django之Celery篇(三)

一、任务交给Celery Django任务交给Celery的方法和普通使用Celery任务的调用基本无区别,只是将执行代码的放到到View视图中 而获取结果,往往并不能把结果和第1次请求一起响应,若想获取结果是通过第2次请求获取结果 代码如下: from django.http import HttpResponsefrom …

我们是如何在 IDE 中设计 AutoDev 的 AI 编程开发智能体语言与框架?

上周微软发布了自家的 AI 编程和软件开发智能体框架&#xff1a;AutoDev&#xff0c;其与我们开发的 IDE 插件 AutoDev 有颇多的相似之处&#xff0c;特别是一些设计思路&#xff0c;以及在对于辅助软件开发任务的智能体以及一些基础设施上。 稍有不同的是&#xff1a; 交互介质…

Axure RP 9 for mac中文版密钥激活版下载

Axure RP 9是一款专业的快速原型设计工具&#xff0c;它可以帮助产品设计师、交互设计师和用户体验设计师等创建高保真度、交互性强的原型&#xff0c;以便在产品开发之前进行测试和用户验证。 软件下载&#xff1a;Axure RP 9 for mac中文版密钥激活版下载 该工具具有丰富的功…

微信小程序实现多张照片上传

hello hello~ &#xff0c;这里是 code袁~&#x1f496;&#x1f496; &#xff0c;欢迎大家点赞&#x1f973;&#x1f973;关注&#x1f4a5;&#x1f4a5;收藏&#x1f339;&#x1f339;&#x1f339; &#x1f4a5;个人主页&#xff1a;code袁 &#x1f4a5; 所属专栏&…

python绘图matplotlib——使用记录1

本博文来自于网络收集&#xff0c;如有侵权请联系删除 使用matplotlib绘图 1 常用函数汇总1.1 plot1.2 legend1.3 scatter1.4 xlim1.5 xlabel1.6 grid1.7 axhline1.7 axvspan1.8 annotate1.9 text1.10 title 2 常见图形绘制2.1 bar——柱状图2.2 barh——条形图2.3 hist——直…

浏览器工作原理与实践--渲染流程(上):HTML、CSS和JavaScript,是如何变成页面的

在上一篇文章中我们介绍了导航相关的流程&#xff0c;那导航被提交后又会怎么样呢&#xff1f;就进入了渲染阶段。这个阶段很重要&#xff0c;了解其相关流程能让你“看透”页面是如何工作的&#xff0c;有了这些知识&#xff0c;你可以解决一系列相关的问题&#xff0c;比如能…

服务端高并发分布式结构

前言 本文以⼀个 “电子商务” 应用为例&#xff0c;介绍从⼀百个到千万级并发情况下服务端的架构的演进过程&#xff0c;同时列举出每个演进阶段会遇到的相关技术&#xff0c;让大家对架构的演进有⼀个整体的认知&#xff0c;方便⼤家对后续知识做深⼊学习时有⼀定的整体视野…

二次开发Flink-coGroup算子支持迟到数据通过测输出流提取

目录 1.背景 2.coGroup算子源码分析 2.1完整的coGroup算子调用流程 2.2coGroup方法入口 2.3 CoGroupedStreams对象分析 2.4WithWindow内部类分析 2.5CoGroupWindowFunction函数分析 3.修改源码支持获取迟到数据测输出流 3.1复制CoGroupedStreams 3.2新增WithWindow.si…

YiYi-Web项目介绍

YiYi-Web项目介绍 1. 简介2. 使用2.1 后端开发环境2.2 前端开发环境 3. 测试环境&#xff1a;4. 更新日志5. 打包情况6.项目截图 本项目前端是html、css、js、jQuery基础技术。 后端都是最新的SpringBoot技术&#xff0c;不分离版本&#xff0c; 是最基础的项目开发教程&#x…

Spark Map 和 FlatMap 的比较

Spark Map 和 FlatMap 的比较 本节将介绍Spark中map(func)和flatMap(func)两个函数的区别和基本使用。 函数原型 map(func) 将原数据的每个元素传给函数func进行格式化&#xff0c;返回一个新的分布式数据集。 flatMap(func) 跟map(func)类似&#xff0c;但是每个输入项和…

Flink GateWay、HiveServer2 和 hive on spark

Flink SQL Gateway简介 从官网的资料可以知道Flink SQL Gateway是一个服务&#xff0c;这个服务支持多个客户端并发的从远程提交任务。Flink SQL Gateway使任务的提交、元数据的查询、在线数据分析变得更简单。 Flink SQL Gateway的架构如下图&#xff0c;它由插件化的Endpoi…