多线程股吧(东方财富)用户信息爬取

news2024/11/22 22:04:00

多线程东方财富(股吧)用户信息爬取

在上一篇博客股吧信息爬取的基础上加入了多线程,使得速度提升了十几倍,爬取内容如下:
在这里插入图片描述
最终爬取结果如下:
在这里插入图片描述

完整代码如下(准备好环境,比如python的第三方库之后可以直接运行):

import csv
import random
import re
import threading

import chardet
import pandas as pd
from bs4 import BeautifulSoup
from selenium import webdriver
import concurrent.futures
from datetime import datetime
from tqdm import tqdm
from urllib.parse import urljoin
import requests

chrome_options = webdriver.ChromeOptions()
# 添加其他选项,如您的用户代理等
# ...
chrome_options.add_argument('--headless')  # 无界面模式,可以加速爬取
# 指定 Chrome WebDriver 的路径
driver = webdriver.Chrome(executable_path='/usr/local/bin/chromedriver', options=chrome_options)
## 浏览器设置选项
# chrome_options = Options()
chrome_options.add_argument('blink-settings=imagesEnabled=false')


def get_time():
    """获取随机时间"""
    return round(random.uniform(3, 6), 1)

from random import choice

def get_user_agent():
    """获取随机用户代理"""
    user_agents = [
        "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",
        # "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; Acoo Browser; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; .NET CLR 3.0.04506)",
        # "Mozilla/4.0 (compatible; MSIE 7.0; AOL 9.5; AOLBuild 4337.35; Windows NT 5.1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",
        "Mozilla/5.0 (Windows; U; MSIE 9.0; Windows NT 9.0; en-US)",
        # "Mozilla/5.0 (iPod; U; CPU iPhone OS 2_1 like Mac OS X; ja-jp) AppleWebKit/525.18.1 (KHTML, like Gecko) Version/3.1.1 Mobile/5F137 Safari/525.20",
        # "Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)",
        "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
    ]
    ## 在user_agent列表中随机产生一个代理,作为模拟的浏览器
    user_agent = choice(user_agents)
    return user_agent



def get_page(list_url):
    """获取包含特定关键字的留言链接"""
    user_agent = get_user_agent()
    headers = {'User-Agent': user_agent}

    # Make the request using the requests library
    response = requests.get(list_url, headers=headers)

    if response.status_code == 200:
        html_content = response.text
        # 使用 BeautifulSoup 解析 HTML
        soup = BeautifulSoup(html_content, 'html.parser')

        bump_elements = soup.find_all(class_='nump')

        # 提取数字并转换为整数
        nump_numbers = [int(element.text) for element in bump_elements]

        # 找出最大的数

        if nump_numbers:
            max_nump = max(nump_numbers)
        else:
            # 处理空序列的情况,例如给 max_nump 赋一个默认值
            max_nump = None  # 或者其他你认为合适的默认值

        return max_nump
    else:
        print(f"Error: {response.status_code}")
        return None



def generate_urls(base_url, page_number, total_pages):
    urls = []

    for page in range(2, total_pages + 1, page_number):
        url = f"{base_url},f_{page}.html"
        urls.append(url)

    return urls


def get_detail_urls_by_keyword(urls):
    comment, link, reads, date = [], [], [], []

    total_iterations = len(urls)

    # Create a tqdm instance for the progress bar
    progress_bar = tqdm(total=total_iterations, desc='Processing URLs', position=0, leave=True)

    # 在函数外定义一个锁
    lock = threading.Lock()

    def process_url(url):
        nonlocal comment, link, reads, date

        '''获取包含特定关键字的留言链接'''
        user_agent = get_user_agent()
        headers = {'User-Agent': user_agent}

        # Make the request using the requests library
        response = requests.get(url, headers=headers)
        encoding = chardet.detect(response.content)['encoding']

        # 解码响应内容

        if response.status_code == 200:
            html_content = response.content.decode(encoding)
            # 使用 BeautifulSoup 解析 HTML
            soup = BeautifulSoup(html_content, 'html.parser')
            #print(html_content)
            # Extract and convert relative URLs to absolute URLs
            with lock:
                links = []
                author_elements = soup.select('div.author a')
                for element in author_elements:
                    href = element.get('href')
                    if href:
                        absolute_url = urljoin('https:', href)
                        links.append(absolute_url)
                links = ['https://i.eastmoney.com/' + text.split('"//i.eastmoney.com/')[-1].split('">')[0] for text in
                         links]
                link = [
                    link[len('https://i.eastmoney.com/'):] if link.startswith('https://i.eastmoney.com/') else link for
                    link in links]

                # Extract comments
                comment_elements = soup.select('div.reply')
                for element in comment_elements:
                    message_id = element.text.strip().split(':')[-1]
                    comment.append(message_id)

                # Extract dates
                pattern = re.compile(r'\d{1,2}-\d{1,2} \d{2}:\d{2}')
                # Find all matches in the text
                date = pattern.findall(html_content)


                # Extract reads
                read_elements = soup.select('div.read')
                for element in read_elements:
                    message_id = element.text.strip().split(':')[-1]
                    reads.append(message_id)

            # Update the progress bar
            progress_bar.update(1)
        else:
            print(f"Error: {response.status_code}")

    # Create threads for each URL
    threads = []
    for url in urls:
        thread = threading.Thread(target=process_url, args=(url,))
        thread.start()
        threads.append(thread)

    # Wait for all threads to complete
    for thread in threads:
        thread.join()

    # Close the progress bar
    progress_bar.close()

    return comment, link, reads, date


def extract_and_combine(url):
    match = re.search(r'\d{6}', url)
    if match:
        extracted_number = match.group()
        result = extracted_number
        return result
    else:
        return None


def process_dates(date_list):
    processed_dates = []
    current_year = 2023

    for date_str in date_list:
        try:
            # Adjust the format string based on the actual format of your data
            date_obj = datetime.strptime(date_str, "%m-%d %H:%M")

            # Check if processed_dates is not empty before accessing its last element
            if processed_dates and date_obj.month < processed_dates[-1].month:
                current_year -= 1

            # Replace the year in date_obj with the updated current_year
            processed_date = date_obj.replace(year=current_year)
            processed_dates.append(processed_date)
        except ValueError as e:
            print(f"Error processing date '{date_str}': {e}")

    return processed_dates


def write_to_csv_file(comment, link, reads, date, result):
    """
    将数据写入 CSV 文件

    Parameters:
        comment (list): 评论数列表
        link (list): 链接列表
        title (list): 标题列表
        reads (list): 阅读数列表
        date (list): 日期列表
        result (str): 结果标识

    Returns:
        None
    """
    # 指定 CSV 文件的路径
    csv_file_path = result + "_评论.csv"

    # 将数据写入 CSV 文件
    with open(csv_file_path, 'w', newline='', encoding='utf-8') as csv_file:
        csv_writer = csv.writer(csv_file)

        # 写入表头
        csv_writer.writerow(['评论数', '链接', '阅读数', '日期'])
        # 写入数据
        csv_writer.writerows(zip(comment, link, reads, date))

    print(f"CSV 文件已生成: {csv_file_path}")


def filter_and_append_links(comment, link):
    """
    过滤评论数大于等于0的链接并添加到 final_link 列表中

    Parameters:
        comment (list): 包含评论数的列表
        link (list): 包含链接的列表

    Returns:
        final_link (list): 过滤后的链接列表
    """
    final_link = []

    for i in range(4, len(link)):
        comment_value = int(comment[i])
        if comment_value >= 0:
            final_link.append(link[i])

    return final_link


def remove_duplicates(input_list):
    unique_list = []

    for item in input_list:
        if item not in unique_list:
            unique_list.append(item)

    return unique_list


def process_result_links(links):
    # 调用去重函数
    result_link = remove_duplicates(links)

    # 使用循环和 remove 方法移除包含子列表的元素
    for item in result_link[:]:  # 使用切片创建副本,以防止在循环中修改原始列表
        if 'list' in item:
            result_link.remove(item)

    return result_link



def get_information_for_url(url):
    influence, age, location, fan = [], [], [], []

    user_agent = get_user_agent()
    headers = {'User-Agent': user_agent}

    # Make the request using the requests library
    response = requests.get(url, headers=headers)

    if response.status_code == 200:
        html_content = response.text
        # 使用 BeautifulSoup 解析 HTML
        print(html_content)
        soup = BeautifulSoup(html_content, 'html.parser')

        # 提取影响力信息

        # Extract ages
        age_elements = soup.select('div.others_level p:contains("吧龄") span')
        for element in age_elements:
            age_text = element.text.strip()
            age.append(age_text)

        # Extract locations
        location_elements = soup.select('p.ip_info')
        for element in location_elements:
            text = element.text.strip()
            match = re.search(r':([^?]+)\?', text)

            if match:
                ip_location = match.group(1)
                location.append(ip_location)

        # Extract fans
        fan_elements = soup.select('div.others_fans a#tafansa span.num')
        for element in fan_elements:
            message_id = element.text.strip().split(':')[-1]
            fan.append(message_id)

        return influence, age, location, fan
    else:
        print(f"Error: {response.status_code}")
        return None



def get_information(urls):
    influence, age, location, fan = [], [], [], []

    with concurrent.futures.ThreadPoolExecutor() as executor:
        results = list(tqdm(executor.map(get_information_for_url, urls), total=len(urls), desc="Processing URLs"))

    for result in results:
        influence.extend(result[0])
        age.extend(result[1])
        location.extend(result[2])
        fan.extend(result[3])

    return age, location, fan


def write_to_csv(result_link, age, location, fan, result):
    # 构建 CSV 文件名
    csv_filename = result + "_用户.csv"

    # 将数据封装成字典列表
    data = [
        {"链接": link, "吧龄": a, "属地": loc, "粉丝": f}
        for link, a, loc, f in zip(result_link, age, location, fan)
    ]

    # 使用 csv 模块创建 CSV 文件并写入数据,同时指定列名
    with open(csv_filename, 'w', newline='') as csvfile:
        fieldnames = ["链接", "吧龄", "属地", "粉丝"]
        writer = csv.DictWriter(csvfile, fieldnames=fieldnames)

        # 写入列名
        writer.writeheader()

        # 写入数据
        writer.writerows(data)

    print(f"Data has been written to {csv_filename}")

def convert_to_guba_link(file_path):
    """
    读取 Excel 文件中的六位数,将其转换为股吧链接

    Parameters:
        file_path (str): Excel 文件路径

    Returns:
        guba_links (list): 转换后的股吧链接列表
    """
    guba_links = []

    try:
        # 读取 Excel 文件
        df = pd.read_excel(file_path)

        # 获取第一列的数据
        six_digit_numbers = df.iloc[:, 0]

        # 转换六位数为股吧链接
        for number in six_digit_numbers:
            # 使用 f-string 构建链接
            link = f"https://guba.eastmoney.com/list,{number:06d}.html"
            guba_links.append(link)

    except Exception as e:
        print(f"Error: {e}")

    return guba_links

def main():
    """主函数"""
    list_urls = convert_to_guba_link('number.xlsx')
    print('爬虫程序开始执行--->')
    i = 2
    for list_url in list_urls:
        page = 3
        print("总页数:",page)
        page_number = 1
        url_without_html = list_url.replace(".html", "")
        urls = generate_urls(url_without_html, page_number, page)
        print(urls)
        comment, link, reads, date = get_detail_urls_by_keyword(urls)
        print(comment)
        print(link)
        print(reads)
        print(date)
        date = process_dates(date)
        result = extract_and_combine(list_url)
        write_to_csv_file(comment, link, reads, date, result)
        link = process_result_links(link)
        age, location, fan = get_information(link)
        print(age)
        print(location)
        print(fan)
        write_to_csv(link, age, location, fan, result)
        print('抓取完个数:',i)
        i = i + 1


if __name__ == '__main__':
    '''执行主函数'''
    main()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2198221.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

安宝特案例 | Fundació Puigvert 医院应用AR技术开创尿石症治疗新纪元

案例介绍 在医疗科技不断进步的今天&#xff0c;Fundaci Puigvert 医院迈出了重要一步&#xff0c;成功应用AR技术进行了全球首例同时使用两台内窥镜的ECIRS手术&#xff08;内镜肾内联合手术&#xff09;&#xff0c;由Esteban Emiliani M.D. PhD F.E.B.U 博士主刀。这标志着…

yub‘s Algorithmic Adventures_Day7

环形链表 link&#xff1a;https://leetcode.cn/problems/linked-list-cycle-ii/description/ 思路分析 我只能说双指针yyds【刻板hh】 我们分两种情况来分析 起码在第二圈才会相遇 fast比slow多走环的整数倍 fast 走的步数是 slow 步数的 2 倍&#xff0c;即 f2s&#xff…

5.资源《Arduino UNO R3 proteus 使用CD4511驱动数码管工程文件(含驱动代码)》说明。

资源链接&#xff1a; Arduino UNO R3 proteus 使用CD4511驱动数码管工程文件&#xff08;含驱动代码&#xff09; 1.文件明细&#xff1a; 2.文件内容说明 包含&#xff1a;proteus工程&#xff0c;内含设计图和工程代码。 3.内容展示 4.简述 工程功能可以看这个视频 数码…

微信小程序流量主

开发小程序也已经有一段时间了,也是为了添加流量主来开发小程序,根据小程序的定位,来获取用户想要的资源,通过广告的形式来增加用户的点击量进行收益,收益虽然微不足道,但是也是很有成就感的

活动邀请 | SonarQube×创实信息即将亮相2024 GOPS全球运维大会-上海站,分享代码质量与安全提升策略

2024年10月18日-19日&#xff08;周五-周六&#xff09;&#xff0c;第二十四届 GOPS 全球运维大会上海站将在上海中庚聚龙酒店举办。 大会为期2天&#xff0c;侧重大模型、DevOps、SRE、AIOps、BizDevOps、云原生及安全等热门技术领域。特设了如大模型 运维/研发测试、银行/…

宠物咖啡馆服务平台:SpringBoot技术深度解析

1系统概述 1.1 研究背景 随着计算机技术的发展以及计算机网络的逐渐普及&#xff0c;互联网成为人们查找信息的重要场所&#xff0c;二十一世纪是信息的时代&#xff0c;所以信息的管理显得特别重要。因此&#xff0c;使用计算机来管理基于Spring Boot的宠物咖啡馆平台的设计与…

2024_10_8 系统进展

改进位置 发现是label_api里藏了我需要改进的东西 settings.py 数据库 我这边电脑上使用的是windows 192 vue.config.js 陈家强是这样设置的 module.exports {publicPath: process.env.NODE_ENV production? /: /,assetsDir: static,// css: {// extract: false// },…

使用XML实现MyBatis的基础操作

目录 前言 1.准备工作 1.1⽂件配置 1.2添加 mapper 接⼝ 2.增删改查操作 2.1增(Insert) 2.2删(Delete) 2.3改(Update) 2.4查(Select) 前言 接下来我们会使用的数据表如下&#xff1a; 对应的实体类为&#xff1a;UserInfoMapper 所有的准备工作都在如下文章。 MyBati…

《大规模语言模型从理论到实践》第一轮学习--Fine-tuning微调

第一轮学习目标&#xff1a;了解大模型理论体系 第二轮学习目标&#xff1a;进行具体实操进一步深入理解大模型 从大语言模型的训练过程来理解微调 大预言模型训练主要包含四个阶段&#xff1a;预训练、有监督微调、奖励建模、强化学习。 预训练&#xff08;Pretraining&…

[paddle]paddleseg快速开始

快速开始 为了让大家快速了解PaddleSeg&#xff0c;本文档使用一个简单示例进行演示。在实际业务中&#xff0c;建议大家根据实际情况进行调整适配。 在开始下面示例之前&#xff0c;请大家确保已经安装好PaddleSeg开发环境&#xff08;安装说明&#xff09;。 1 准备数据 …

被AI坑的一天—CentOS7导入阿里云YUM源报错的 GPG密钥提示404

过于相信人工智能 配置YUM源根据AI的说法换阿里云的YUM源验证AI配置结果解决问题 配置YUM源 由于电脑受限制 , 不能访问境外网站,所以用不了centos自带的源 ,是报404的 根据AI的说法换阿里云的YUM源 编辑 /etc/yum.repos.d/CentOS-Base.repo ,更换为 配置完成后sudo yum …

nacos多数据源插件介绍以及使用

概述 在微服务架构中&#xff0c;服务配置的集中管理和动态调整是至关重要的。Nacos 提供了配置管理和服务发现的功能&#xff0c;其中配置管理支持动态数据源的切换&#xff0c;增强了其在复杂环境中的适用性。默认情况下&#xff0c;Nacos 支持 MySQL 和Derby&#xff0c;但…

C++——AVL树的模拟实现

目录 一、AVL树结点 二、AVL树结构 三、插入数据&#xff08;重点&#xff09; 1、右单旋 2、左单旋 3、左右双旋 4、右左双旋 AVL树是一颗平衡二叉搜索树&#xff0c;它的本质就是一颗之前说过的二叉搜索树。但是二叉搜索树可能会出现极端情况&#xff0c;导致二叉搜索树变…

不同时期的USB接口

Type-A Type-A接口最早于USB1.0标准(1996)推出&#xff0c;拥有四个引脚&#xff1a;VBUS提供5V电源&#xff0c;D-和D用于数据传输&#xff0c;GND接地。 Type-B Type-B接口最早于USB1.0标准(1996)推出&#xff0c;拥有四个引脚&#xff1a;VBUS提供5V电源&#xff0c;D-和D用…

QD1-P7 HTML常用标签:div和span

本节学习&#xff1a;div 和 span 标签。 本节视频 www.bilibili.com/video/BV1n64y1U7oj?p7 ‍ 一、div 标签 用途 ​<div>​ 标签在 HTML 中是一个通用 容器 &#xff0c;用于将 HTML 文档中的内容分组并在文档中划分区域。<div> ​元素本身不具有特定的含…

道路积水检测数据集 1450张 路面积水 带分割 voc yolo

道路积水检测数据集 1450张 路面积水 带分割 voc yolo 分类名: (图片张数&#xff0c; 标注个数) puddle:(1468,1994) 总数:(1468&#xff0c;1994) 总类(nc): 1类 道路积水检测数据集介绍 项目名称 道路积水检测数据集 项目概述 本数据集包含1450张带有标注的图像&#x…

【ubuntu】ubuntu20.04安装cuda12.6与显卡驱动

目录 1.安装cuda12.6 2.安装显卡驱动 1.安装cuda12.6 https://developer.nvidia.com/cuda-toolkit-archive https://developer.nvidia.com/cuda-12-6-0-download-archive?target_osLinux&target_archx86_64&DistributionUbuntu&target_version20.04&target_…

记一次 stm32f407 无法进入 standby 问题

记一次 stm32f407 无法进入 standby 问题 通过查看当前中断信息,发现是 systick 中断pending未处理导致进入standby 模式的 WFI 失败,所以需要在执行 WFI 之前清除 systick 中断pending标志. 查看<Cortex M3与M4权威指南>如下: 可知ICSR寄存器的bit 26表示systick中断是…

RadioGroup RadioButton底部导航栏

参考: https://blog.csdn.net/lu202032/article/details/117632709 activity_home.xml <?xml version"1.0" encoding"utf-8"?> <LinearLayout xmlns:android"http://schemas.android.com/apk/res/android"xmlns:app"http://sch…

八大排序--07归并排序

假设数组 arr[] {5,7,4,2,0,1,6},请通过插入排序的方式&#xff0c;实现从小到大排列&#xff1a; 方法&#xff1a;先拆分&#xff0c;再合并&#xff0c;并在合并过程中结束临时空间进行排序&#xff1b; 拆分&#xff1a;从待排序列中间位置拆开&#xff0c;数据分成左右两…