毕业设计：日志记录编写（3/17起更新中）

news2025/10/28 18:09:41

3/17

当前周期目标：构建基本的python环境：运行爬虫程序

1.配置阿里云python加速镜像：

pip config set global.index-url https://mirrors.aliyun.com/pypi/simple/

安装chrome驱动到python安装目录下

在这里插入图片描述

2. 安装python3.9版本

在这里插入图片描述

3. 爬虫技术选择

爬虫技术是采集数据的主要手段之一。以下是一些常用的爬虫技术：

Requests + Beautiful Soup: 对于静态网页，使用 Python 的 Requests 库获取网页源代码，然后使用 Beautiful Soup 解析数据。

Scrapy: 对于动态网页或需要大规模数据采集的情况，可以考虑使用 Scrapy 框架，它提供了强大的爬虫功能和数据处理能力。

Selenium: 如果需要模拟用户操作，比如登录或者触发 JavaScript 事件，可以使用 Selenium 这样的工具。

4. 数据抓取和整理

针对短视频平台的数据采集，你可能需要考虑以下内容：

视频信息: 包括标题、描述、发布时间、观看次数、点赞数、评论数等。

评论信息: 获取视频的评论内容、评论者的信息（如用户名、头像、粉丝数等）以及评论时间等。

用户信息: 可能需要获取用户的基本信息和行为数据，比如关注数、粉丝数、发布的视频数量等。

5. 难点和挑战

反爬虫机制: 很多网站会有反爬虫机制，你可能需要应对验证码、IP 封锁等问题。

数据量和频率限制: 确保你的爬虫不会给目标网站造成过大的负担，遵守网站的访问频率限制。

数据存储和处理: 采集到的数据可能会很庞大，你需要考虑如何高效地存储和处理这些数据，以及如何建立合适的数据库结构。

3/24

周期目标：编写运行爬虫程序，拿到抖音用户和评论数据，并持久化存入MySQL：

1.数据库建表信息

创作者视频信息表设计：

CREATE TABLE douyin_aweme (
    id INT PRIMARY KEY AUTO_INCREMENT,  -- 自增ID
    user_id VARCHAR(64),  -- 用户ID
    sec_uid VARCHAR(128),  -- 用户sec_uid
    short_user_id VARCHAR(64),  -- 用户短ID
    user_unique_id VARCHAR(64),  -- 用户唯一ID
    nickname VARCHAR(64),  -- 用户昵称
    avatar VARCHAR(255),  -- 用户头像地址
    user_signature VARCHAR(500),  -- 用户签名
    ip_location VARCHAR(255),  -- 评论时的IP地址
    add_ts BIGINT,  -- 记录添加时间戳
    last_modify_ts BIGINT,  -- 记录最后修改时间戳
    aweme_id VARCHAR(64),  -- 视频ID
    aweme_type VARCHAR(16),  -- 视频类型
    title VARCHAR(500),  -- 视频标题
    `desc` TEXT,  -- 视频描述
    create_time BIGINT,  -- 视频发布时间戳
    liked_count VARCHAR(16),  -- 视频点赞数
    comment_count VARCHAR(16),  -- 视频评论数
    share_count VARCHAR(16),  -- 视频分享数
    collected_count VARCHAR(16),  -- 视频收藏数
    aweme_url VARCHAR(255)  -- 视频详情页URL
);

普通用户评论信息表设计：

CREATE TABLE douyin_aweme_comment (
    id INT PRIMARY KEY AUTO_INCREMENT,  -- 自增ID
    user_id VARCHAR(64),  -- 用户ID
    sec_uid VARCHAR(128),  -- 用户sec_uid
    short_user_id VARCHAR(64),  -- 用户短ID
    user_unique_id VARCHAR(64),  -- 用户唯一ID
    nickname VARCHAR(64),  -- 用户昵称
    avatar VARCHAR(255),  -- 用户头像地址
    user_signature VARCHAR(500),  -- 用户签名
    ip_location VARCHAR(255),  -- 评论时的IP地址
    add_ts BIGINT,  -- 记录添加时间戳
    last_modify_ts BIGINT,  -- 记录最后修改时间戳
    comment_id VARCHAR(64),  -- 评论ID
    aweme_id VARCHAR(64),  -- 视频ID
    content TEXT,  -- 评论内容
    create_time BIGINT,  -- 评论时间戳
    sub_comment_count VARCHAR(16)  -- 评论回复数
);