Windows IDEA Python开发环境安装+爬虫示例

news2024/10/7 1:26:08

文章目录

    • Python下载安装
    • 开发工具IDEA
    • 包管理
      • 安装pip
      • 基本用法
      • 从 requirements.txt 安装依赖
    • 项目示例
    • 部署
      • 在 Linux 上安装Python
      • 在 Linux 上创建虚拟环境:
      • 安装依赖:
      • 运行你的爬虫

Python下载安装

Python 安装包下载地址:https://www.python.org/downloads/

  • https://www.python.org/downloads/windows/

1.有两个版本的 Python,分别是 Python 3.x 和 Python 2.x,选择3.x

  • embeddable zip file表示.zip格式的绿色免安装版本,可以直接嵌入(集成)到其它的应用程序中;
  • executable installer表示.exe格式的可执行程序,这是完整的离线安装包,一般选择这个即可;

2.下载安装,勾选ADD python to PATH,安装即可

3.验证

# 在控制台输入python
python
# 输出
Python 3.7.9 (tags/v3.7.9:13c94747c7, Aug 17 2020, 18:58:18) [MSC v.1900 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
# 输入exit()退出
exit()

开发工具IDEA

1.下载Python插件

2.新建项目

其中的环境类型为:选择第一个虚拟环境【python-virtualenv】

虚拟环境为您的Python包提供了一个干净的工作空间,以便您安装的库不会与为其他项目安装的库发生冲突。

包管理

类似java中的maven,python有很多优秀的管理工具pip、anaconda、poetry

这里我们使用自带的pip

安装pip

大多数情况下,Python 安装时已经包含了 pip。您可以通过以下命令检查是否已安装:

pip --version

如果没有安装,可以使用以下命令安装:

python -m ensurepip --default-pip

基本用法

一般来说,第三方库都会在Python官方的pypi.python.org网站注册,要安装一个第三方库,必须先知道该库的名称,可以在官网或者pypi上搜索,比如Pillow的名称叫Pillow,因此,安装Pillow的命令就是:

pip install Pillow
# 查看已安装的包
pip list
# 查找包
pip search package_name
# 安装包
pip install package_name
# 安装特定版本
pip install package_name==1.2.3
# 安装大于或等于某版本的最新版
pip install "package_name>=1.2.3"
# 升级包 到最新版本
pip install --upgrade package_name
# 卸载包
pip uninstall package_name
# 查看包的信息
pip show package_name
# 
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple requests

从 requirements.txt 安装依赖

如果您有一个 requirements.txt 文件,其中列有项目依赖的包及其版本,可以使用以下命令一次性安装它们:

pip install -r requirements.txt

requirements.txt示例

# 项目依赖列表
package1==1.2.3
package2>=2.0.0
package3<4.0.0

根据具体的包和版本要求来编辑这个文件。通常,在团队协作或部署项目时,使用 requirements.txt 是一种标准的做法,以确保每个开发者或部署环境都使用相同的依赖版本。

导出依赖信息

在你的项目目录下,运行以下命令,将当前虚拟环境的依赖导出到 requirements.txt 文件:

pip freeze > requirements.txt

这会生成一个包含项目依赖的文件,其中包括 requestsbeautifulsoup4

项目示例

网络爬虫是一种自动化程序,用于抓取互联网上的数据。网络爬虫可以自动访问网页、解析网页内容、提取所需数据、存储数据等。通过使用网络爬虫,我们可以获取大量的数据,从而进行数据分析、数据挖掘等应用。

  • 在抓取网站数据时,需要遵守网站的robots协议和使用条款等规定,不得未经授权地进行抓取。
  • 在抓取网站数据时,需要考虑网络性能和资源消耗,避免对网站造成不必要的负担。
  • 在抓取网站数据时,需要考虑数据质量和数据安全,避免抓取到恶意数据或错误数据。

网络爬虫常用库如下

  • requests库:用于发送HTTP请求和接收HTTP响应。例如,使用requests.get(url)来发送GET请求,使用requests.post(url, data)来发送POST请求。
  • BeautifulSoup库:用于解析HTML和XML文档。例如,使用BeautifulSoup(html, ‘html.parser’)来解析HTML文档,使用BeautifulSoup(xml, ‘xml’)来解析XML文档。

以下是一个爬虫示例:

首先安装上面2个依赖库

pip install requests

pip install beautifulsoup4

import requests
from bs4 import BeautifulSoup
 
url = 'https://www.python.org/'
 
# 发送HTTP请求
response = requests.get(url)
 
# 解析HTML文档
soup = BeautifulSoup(response.text, 'html.parser')
 
# 提取数据
title = soup.title.string
links = [link.get('href') for link in soup.find_all('a')]
 
# 打印结果
print(title)
for link in links:
    print(link)

部署

在 Linux 上安装Python

sudo yum install python3
# 显示已安装的版本号
python --version
# python3用这个
python3 --version

在 Linux 上创建虚拟环境:

在 Linux 服务器上,进入你的项目目录,并创建一个新的虚拟环境:

python3 -m venv venv

激活虚拟环境:

source venv/bin/activate

安装依赖:

使用 pip 安装项目依赖:

pip install -r requirements.txt
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/
pip install --upgrade pip
# 或者手动安装
pip install requests

pip install beautifulsoup4

运行你的爬虫

确保你的项目中有一个入口文件(例如,main.py),然后在虚拟环境中运行你的爬虫:

python3 main.py

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1247214.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

TCP/IP、Http、Socket之间的区别

目录 前言 一、TCP/IP协议 二、HTTP协议 三、Socket通信机制 四、TCP/IP、HTTP和Socket之间的区别 总结 前言 TCP/IP、HTTP和Socket是计算机网络中的三个重要概念&#xff0c;它们之间有着密切的联系和区别。 一、TCP/IP协议 TCP/IP是指传输控制协议/因特网协议&#x…

【操作系统】文件系统的实现

文章目录 文件系统的层次结构文件系统的实现目录实现线性列表哈希表 文件的实现连续分配链接分配索引分配 文件存储空间管理空闲表法与空闲链表法成组链接法位示图法 文件系统的层次结构 文件系统从上往下分为了五层&#xff0c;分别是用户调用接口、文件目录系统、存取控制模…

【腾讯云云上实验室】探索保护数据之盾背后的安全监控机制

当今数字化时代&#xff0c;数据安全成为了企业和个人最为关注的重要议题之一。随着数据规模的不断增长和数据应用的广泛普及&#xff0c;如何保护数据的安全性和隐私性成为了迫切的需求。 今天&#xff0c;我将带领大家一起探索腾讯云云上实验室所推出的向量数据库&#xff0c…

Django QuerySet.order_by SQL注入漏洞(CVE-2021-35042)

漏洞描述 Django 于 2021年7月1日发布了一个安全更新&#xff0c;修复了函数QuerySet.order_by中的 SQL 注入漏洞。 参考链接&#xff1a; Django security releases issued: 3.2.5 and 3.1.13 | Weblog | Django 该漏洞需要开发人员使用order_by功能。此外&#xff0c;还可…

echarts设置容器宽度设置为100%只显示100px宽度

在使用echarts时&#xff0c;写在tab页中的图表宽度明明设成了100%&#xff0c;但是在页面上实际却只有100px宽 原因很简单&#xff0c;在tab页中&#xff0c;图表的父容器div是隐藏的&#xff08;display&#xff1a;none&#xff09;&#xff0c;图表在执行js初始化的时候找…

比起转本备考不努力,更让人痛心的是这五点

在转本考试中&#xff0c;有一部分同学花费了很多时间去学习&#xff0c;看似很努力&#xff0c;却没有太大的进步与成果。 比起不努力&#xff0c;努力了没有效果才是更让人心痛的。下面这五点行为&#xff0c;希望大家一定要避免&#xff01;一、纠结转本我们身边可能不乏转…

基本微信小程序的图书馆座位管理系统

项目介绍 图书馆因有良好的学习氛围、大量的学习资源吸引大家前来学习,图书馆还未开馆就有大量的用户在门口排队等待,有限的座位与日益增加的自主学习者之间形成了供不应求的现象,再加上不了解图书馆的座位使用情况和恶意占座等现象,使得有限的学习座位越发紧张。本团队针对此…

10年测试老鸟,自动化测试经验10条建议,一路狂飙...

目录&#xff1a;导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结&#xff08;尾部小惊喜&#xff09; 前言 1、哪一刻&#x…

AIOps探索 | 应急处置中排障的降本增效方法探索(下)

文章来源&#xff1a;公众号ID-布博士&#xff08;擎创科技资深产品专家&#xff09; 哈喽~上期内容我们分享了传统调用链系统与CMDB系统的缺陷、服务所有权模型是什么、服务所有权模型分类。这期我们来说一说如何落地服务所有权模型&#xff0c;以及好用的模型推荐&#xff0…

Netty 模型理解

参考文章 1 参考文章 2 官网API文档 Reactor模型 Netty模型 Netty主要基于主从Reactor多线程模型进行了一定的修改&#xff0c;该模型包括以下几个组件&#xff1a; MainReactor&#xff08;主Reactor&#xff09;&#xff1a;负责处理客户端的连接请求。它监听服务器上的端口…

【洛谷 P1636】Einstein学画画 题解(图论+欧拉通路)

Einstein学画画 题目描述 Einstein 学起了画画。 此人比较懒~~&#xff0c;他希望用最少的笔画画出一张画…… 给定一个无向图&#xff0c;包含 n n n 个顶点&#xff08;编号 1 ∼ n 1 \sim n 1∼n&#xff09;&#xff0c; m m m 条边&#xff0c;求最少用多少笔可以画…

京东采销面对面,洞悉行业新趋势 京东3C数码生态大会在武汉圆满举行

为促进湖北省3C数码产业发展&#xff0c;本地企业降本增效、促进行业交流、充分发挥京东集团全链路生态服务能力&#xff0c;支持地方3C特色产业提质增量。2023年11月23日&#xff0c;由京东零售、京东物流主办&#xff0c;湖北省电子商务行业协会联合协办的“聚力共赢、携手共…

《C++ Primer》第10章 算法(一)

参考资料&#xff1a; 《C Primer》第5版《C Primer 习题集》第5版 10.1 概述&#xff08;P336&#xff09; 大多数算法定义在头文件 algorithm 中&#xff0c;头文件 numeric 中也定义了一组数值泛型算法。 一般情况下&#xff0c;算法不直接操作容器&#xff0c;而是通过…

SOLIDWORKS 2024新功能之CAM篇

SOLIDWORKS 2024 新功能 CAM篇目录概述 • 附加探测周期参数 • 反转切割的固定循环螺纹加工 • 包含装配体的零件的正确进给/速度数据 • Heidenhain 探测类型 • 2.5 轴特征向导中岛屿的终止条件 • 链接轮廓铣削操作的切入引导和切出引导参数 • 螺纹铣削操作的最小孔…

SpringCloud 微服务全栈体系(十七)

第十一章 分布式搜索引擎 elasticsearch 七、搜索结果处理 搜索的结果可以按照用户指定的方式去处理或展示。 1. 排序 elasticsearch 默认是根据相关度算分&#xff08;_score&#xff09;来排序&#xff0c;但是也支持自定义方式对搜索结果排序。可以排序字段类型有&#…

标题导航点击导航滑动到指定位置滑动到指定位置选中对应导航vue3

菜单导航栏点击导航滑动到指定位置&滑动到指定位置选中对应导航 效果 实现 话不多说直接上代码&#xff0c;有用素质三连(点赞、评论、加关注) import { defineComponent, onBeforeUnmount, onMounted, reactive, ref } from "vue"; import { map } from &quo…

家用小型洗衣机哪款性价比高?口碑最好迷你洗衣机排行榜

由于我们的内衣、内裤和袜子等等贴身小件衣物的清洁频率比一般的衣物要高。而且&#xff0c;如果我们人工手洗的话&#xff0c;不仅会大大浪费了我们的时间&#xff0c;而且还不能进行对这些贴身的以为进行深层消毒和除菌。这种情况下&#xff0c;就得需要一台专门用于清洗内衣…

怎么去掉视频水印?分享三种视频去水印技巧,轻松搞定!

怎么去掉视频水印&#xff1f;在分享视频时&#xff0c;我们常常会遇到因为水印而影响观感的问题&#xff0c;因此&#xff0c;掌握有效的去水印方法显得尤为重要&#xff0c;随着技术的进步&#xff0c;现在有多种方法可以帮助我们去除视频中的水印。 接下来分享三种简单且有效…

【算法挨揍日记】day33——1027. 最长等差数列、446. 等差数列划分 II - 子序列

1027. 最长等差数列 1027. 最长等差数列 题目描述&#xff1a; 给你一个整数数组 nums&#xff0c;返回 nums 中最长等差子序列的长度。 回想一下&#xff0c;nums 的子序列是一个列表 nums[i1], nums[i2], ..., nums[ik] &#xff0c;且 0 < i1 < i2 < ... < …

两个链表的第一个公共节点(相交链表),剑指offer,力扣

目录 题目地址&#xff1a; 题目&#xff1a; 我们直接看题解吧&#xff1a; 解题方法&#xff1a; 审题目事例提示&#xff1a; 解题思路&#xff08;双指针&#xff09;&#xff1a; 具体思路流程&#xff1a; 代码实现&#xff1a; 算法思路补充证明&#xff1a; 力扣题目地…