通过BeautifulSoup获取【领域赛道--大数据与算法】top100用户

news2024/10/3 20:32:18

文章目录

  • 前言
  • 介绍
  • 实现
    • 帖子地址
    • 请求地址
    • 引入模块
    • 提取代码
    • 程序入口
    • 提取到的数据
  • 总结
  • 最后

前言

博主空空star
主页空空star的主页

大家好,我是空空star,本篇给大家分享一下《通过BeautifulSoup获取【领域赛道--大数据与算法】top100用户》

介绍

BeautifulSoup是一个Python第三方库,用于从HTML或XML等文档中提取数据。它可以自动解析HTML页面,并根据标签和属性等条件提取所需的数据,具有高效、灵活、易用等特点,是Python爬虫的重要工具之一。

使用BeautifulSoup,我们可以轻松地遍历HTML页面的标签和属性,并根据需要提取数据。

实现

帖子地址

[2023-06-29]2023博客之星候选–领域赛道–大数据与算法

请求地址

引入模块

import requests
from bs4 import BeautifulSoup

提取代码

def get_usernames():
    usernames = []
    response = requests.get('https://bbs.csdn.net/topics/616323734')
    res = response.text
    soup = BeautifulSoup(res, 'lxml')
    for item in soup.find_all('a'):
        url = item.get('href')
        if 'https://edu.csdn.net/me/' in url:
            username = url.split('/')[4]
            usernames.append(username)
    return usernames

程序入口

if __name__ == '__main__':
    users = get_usernames()
    print(f'获取到的用户数:{len(users)}')
    print(f'获取到的用户列表:{users}')

提取到的数据

获取到的用户数:100
获取到的用户列表:[‘weixin_42241611’, ‘m0_74396439’, ‘weixin_43871785’, ‘zjjcchina’, ‘weixin_43412762’, ‘u011868279’, ‘weixin_44958787’, ‘weixin_55464238’, ‘baklib’, ‘wr_java’, ‘coder_ljw’, ‘chenwewi520feng’, ‘zuoan1993’, ‘weixin_38093452’, ‘qq_46548855’, ‘qq441540598’, ‘myrealization’, ‘csdnguoyuying’, ‘qq_66485519’, ‘oddrock’, ‘qq_41071754’, ‘m0_68111267’, ‘elon_520’, ‘weixin_39032019’, ‘m0_63613132’, ‘qq_44226094’, ‘zy_dreamer’, ‘2301_76957510’, ‘binghhb’, ‘weixin_72060925’, ‘kk702392702’, ‘m0_63398413’, ‘wwxdwrn’, ‘s2735365253’, ‘caryxp’, ‘fckbb’, ‘sugar_wolf’, ‘qq_42958831’, ‘qq_44766883’, ‘weixin_66151870’, ‘liqiu0913’, ‘m0_56069910’, ‘m0_60025795’, ‘qq_62839589’, ‘weixin_43894652’, ‘sun123234’, ‘oceanbasegfbk’, ‘dzk666123’, ‘weixin_42204569’, ‘weixin_42439274’, ‘weixin_44832243’, ‘qq_43714918’, ‘xiaoluobutou’, ‘jane9872’, ‘leread’, ‘steven_zhangxue’, ‘wangjun861205’, ‘yingjiayu12’, ‘qq_32727095’, ‘tikitian’, ‘weixin_47276960’, ‘jasonchen1224’, ‘cfy1226’, ‘ironmanjay’, ‘qq_66345100’, ‘actiontech’, ‘weixin_42011858’, ‘qq_46373141’, ‘weixin_43434369’, ‘w_chuanqi’, ‘stormsunshine’, ‘weixin_62633072’, ‘ziye_190’, ‘apr15’, ‘programnovice’, ‘qq_74310471’, ‘m0_73258399’, ‘weixin_48804451’, ‘liang921119’, ‘shangguanxiu’, ‘w2915w’, ‘jnrjian’, ‘weixin_73142957’, ‘m0_63488627’, ‘qq_44804713’, ‘so_zxn’, ‘qq_52097561’, ‘m0_73888323’, ‘2301_76549664’, ‘weixin_43830137’, ‘liuliangcan’, ‘m0_62609939’, ‘weixin_42690036’, ‘m0_63951142’, ‘weixin_43894455’, ‘qq_64580912’, ‘u014571143’, ‘weixin_44904816’, ‘yiluohan0307’, ‘qq_43778500’]

总结

最后

如果您不知道如何支持我,
InsCode AI列了一些支持博主的句子供您参考:

博主写的文章很有深度,收获了很多知识。
博主的写作风格幽默风趣。
博主勇于分享自己的经验和教训,让初学者从中受益匪浅。
博主的思想独到,文章读起来让人格外振奋。
博主为人很好,乐于助人,回复读者的问题也非常及时。
博主的专业知识非常全面,无论是哪个领域的问题都能给出详细的解答。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/699852.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

社区团购爆品怎么做?社区团购小程序有什么功能?

社区团购爆款可以通过拉新,打好用户基础。刚上线就推行低价爆款拉新,利用一些低成本的奶制品类和禽蛋类,蔬菜类来引流拉新。这一招非常有效,吸引源源不断的客流量汇集平台,庞大的用户流量是订单爆棚的保障。商家/运营方…

这所顶级双非,学硕爆冷上线即录取,保护一志愿!

一、学校及专业介绍 华侨大学是福建省“双一流”建设A类高校,在泉州、厦门分别设有校区,现有28个学院;11个学科门类,9个一级学科博士点,25个一级学科硕士点,23个专业学位硕士点,5个博士后流动站…

性能测试中如何使用RunnerGo还原混合并发场景

我们在进行软件开发时经常需要进行性能测试、压力测试和负载测试。其中有一类测试场景叫做混合并发测试,需要模拟多个接口下不同数量的用户使用场景,检查同时处理多个并发任务的能力,本文将展示如何使用开源的RunnerGo还原混合并发场景。 在…

C语言排序算法实现

1.概述 所谓排序, 就是使一串记录, 按照其中的某个或某些关键字的大小, 递增或递减的排列起来的操作。 排序算法, 就是如何使得记录按照要求排列的方法。排序算法在很多领域得到相当地重视, 尤其是在大量数据的处理方面…

数据分析回头看1——Pandas中数据处理总结

0、前言:因为之前自己在学习pandas的过程中就简单做了下笔记,发现在用的时候还是会比较乏力,很多东西容易忘,所以我就决定结合之前笔记的内容,按照使用pandas的习惯,把知识点梳理一下,方便之后查…

网段扫描攻击

攻击简介 如果网络中有用户向设备发送大量目标IP地址不能解析的IP报文(即路由表中存在该IP报文的目的IP对应的路由表项,但设备上没有该路由表项中下一跳对应的ARP表项),将导致设备触发大量的ARP Miss消息。 大量的网段扫描报文会…

软件测试的自我学习和提升

软件测试是一项非常重要的工作,它可以确保软件在发布前能够正常运行,在软件开发过程中扮演着至关重要的角色。在这个不断变化和创新的时代,软件测试人员需要不断地学习和提升自己的技能和能力,以适应不同软件发展的需求。 1. 学习…

LeetCode刷题 | 309. 最佳买卖股票时机含冷冻期、714. 买卖股票的最佳时机含手续费

309. 最佳买卖股票时机含冷冻期 给定一个整数数组prices,其中第 prices[i] 表示第 i 天的股票价格 。​ 设计一个算法计算出最大利润。在满足以下约束条件下,你可以尽可能地完成更多的交易(多次买卖一支股票): 卖出股票后&…

【MySQL学习笔记】(四)MySQL数据类型

MySQL数据类型 1 数据类型分类2 数值类型2.1 tinyint 类型2.2 bit 类型2.3 小数类型2.4 字符串类型2.5 varchar2.6 char和varchar比较 2.6 日期和时间类型2.6 enum 和 set2.6.1 集合查询使用find_ in_ set函数 1 数据类型分类 2 数值类型 2.1 tinyint 类型 数值测试 mysql>…

基于IP 的 Nginx 虚拟主机

目录 一、配置文件(不要忘了备份) 二、 访问地址 一、配置文件(不要忘了备份) 二、 访问地址

while(1) 和 for ( ; ; )的区别

while(1) 和 for(;;) 它们不都是无限循环吗,作用应该一样啊,它们到底有什么区别? 要回答这个问题,其实你各自编写一段while(1) 和 for(;;)的代码,编译对比一下代码大小和汇编文件,你就大概知道了。 while(…

Vue.extend

Vue.extend 方法用来对基本的Vue组件进行扩展,,创建他的子类,,通过扩展根节点Vue定义新的组件 const BaseComponent Vue.extend({data(){return{message:"hehe"}}})const ExtendedComponent BaseComponent.extend({mo…

5、Redis持久化

RDB(默认) 在指定的时间间隔,执行数据集的时间点快照 在指定的时间间隔,执行数据集的时间点快照 实现类似照片记录效果的方式,就是把某一时刻的数据和状态以文件的形式写到磁盘上,也就是快照。这样一来即使…

Mars3d实现对图层树顺序进行了调整的同时调整图层的层级

问题: 1.这个图层管理中的移动图层只是移动在树里的显示关系,数据的叠加优先级没有同步修改 原因: 1. 只对同类型图层才有效,如果是矢量图层需要zIndex的才有效。 比如:都是 geoserver发布的wms图层,这种…

六月喜报 | 震坤行荣获多项行业大奖!

六月喜报 | 震坤行荣获多项行业大奖! 六月,震坤行先后荣获上海市工商联工业品服务商会行业五大奖项,以及SiMPL2023第十三届供应链年度中国供应链数字化创新先锋。一路荣誉加冕,蓄势前行,揽获多个行业奖项。 6月1日&am…

局域网远程连接

一根网线连接两台电脑 前言步骤1 设置B“允许远程连接”2 A和B必须在同一个网段下面3 “winr”,输入“mstsc”中4 弹出“远程桌面连接”窗口,输入B的ip地址和B电脑的用户名及密码(winL键锁屏,看看B的用户名和密码是什么&#xff0…

python学习——函数

一、函数的定义 函数就是执行特定任务和完成特定功能的一段代码。使用函数可以对代码进行复用,提高代码的可维护性和可读性,使得程序便于调试。 二、函数的创建 创建格式 #创建和格式 def 函数名([参数]):函数体[return xxx]举例…

h5实现下拉选择

一、先看效果图 二、简单实现一下代码 首先你要引入jQuery.js文件 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta http-equiv"X-UA-Compatible" content"IEedge"><meta name…

Vue基础 el挂载点、data数据对象

第一步导入vue&#xff0c;第二步在html里面写一点东西&#xff0c;第三步在js里面写一点东西。 <!DOCTYPE html> <html> <head><meta charset"UTF-8"><title>首页</title><link href"" type"text/css"…

开发小程序为什么会成为餐饮行业的新趋势

在过去的一段时间里&#xff0c;小程序的发展可谓是如火如荼。特别是在餐饮行业&#xff0c;无论是大型连锁企业还是小型独立店铺&#xff0c;都在积极布局小程序开发&#xff0c;这一现象引发了我们的思考&#xff1a;为何开发小程序会成为餐饮行业的新趋势呢&#xff1f; 首…