2023爬虫学习笔记 -- 多线程操作

news2026/2/13 9:09:49

一、定义一个程序开始时间

程序开始时间=time.time()

二、创建几个网址，模拟目标网站

网址列表=['http://www.baidu.com','http://www.sogou.com','http://www.163.com']

三、创建一个函数访问网站，模拟爬取数据操作（耗时操作）

头={
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36"
}
def 访问网站(url):
    网站内容=requests.get(url=url,headers=头).text
    time.sleep(2)
    print(网站内容[1:20])

四、调用函数，并获取时长，每次程序运行时间在6-7秒之间

for 网址 in 网址列表:
    访问网站(网址)
print("总耗时长：",time.time()-程序开始时间)

五、总耗时长

六、换成多线程操作

1、前三步和上面一样

程序开始时间=time.time()
网址列表=['http://www.baidu.com','http://www.sogou.com','http://www.163.com']
头={
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36"
}
def 访问网站(url):
    网站内容=requests.get(url=url,headers=头).text
    time.sleep(2)
    print(网站内容[1:20])

2、创建一个线程，并将所有子线程放进去

线程池=[]
for 网址 in 网址列表:
    线程=Thread(target=访问网站,args=(网址,))
    线程池.append(线程)
    线程.start()

3、让子线程执行完毕，主程序再结束，并获取程序运行时间

for t in 线程池:
    t.join()
print("总耗时长：",time.time()-程序开始时间)

4、总耗时长在2-3秒之间，是上面的三倍

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/382180.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

2023爬虫学习笔记 -- 多线程操作

相关文章

【C++】讲的最通透最易懂的关于结构体内存对齐的问题

学了很久python却什么都做不了？这个方法一定要试试

NOC2021年测试卷2

【干货】又是一年跳槽季！Nginx 10道核心面试题及解析

【手把手教会数据类型的存储】

机器学习 | 线性回归（单变量）

数据仓库之建模理论以及仓库设计思想

【计算机组成原理】1、浮点数的二进制表示、科学计数法、IEEE754标准

中原银行使用 XSKY星辰天合对象一体机解决核心系统备份管理问题

JavaSE19-常见类

各类特殊开关电源问题解决方案

成功解决xshell7会话窗口只能显示一个的问题

Linux系列使用vi文本编辑器

【LeetCode】剑指 Offer（13）

重写toString()方法-课后程序(JAVA基础案例教程-黑马程序员编著-第十二章-课后作业)

3D可视化大屏制作真的那么难？没有好用的软件解决吗？

【数据结构】单链表——增删查改【万字介绍】

ChatGPT 不是黑魔法，“替代搜索引擎”言之尚早

10个必须知道的JavaScript技巧，让你成为更好的程序员

SPI_Master驱动程序框架