python用scrapy框架爬取双色球数据

news2024/11/26 2:33:40

1、今天刷到朋友圈,看到一个数据,决定自己也要来跟随下潮流(靠天吃饭)

  去百度了下,决定要爬的网站是https://caipiao.ip138.com/shuangseqiu/

分析:根据图片设计数据库便于爬取保存数据,时间,6个红球,一个蓝球字段

DROP TABLE IF EXISTS `shuangseqiu`;
CREATE TABLE `shuangseqiu`  (
  `id` int(11) NOT NULL AUTO_INCREMENT COMMENT '主键',
  `openDate` date NOT NULL COMMENT '日期',
  `red1` varchar(10) CHARACTER SET utf8mb4 COLLATE utf8mb4_bin NOT NULL COMMENT '红球1',
  `red2` varchar(10) CHARACTER SET utf8mb4 COLLATE utf8mb4_bin NOT NULL COMMENT '红球2',
  `red3` varchar(10) CHARACTER SET utf8mb4 COLLATE utf8mb4_bin NOT NULL COMMENT '红球3',
  `red4` varchar(10) CHARACTER SET utf8mb4 COLLATE utf8mb4_bin NOT NULL COMMENT '红球4',
  `red5` varchar(10) CHARACTER SET utf8mb4 COLLATE utf8mb4_bin NOT NULL COMMENT '红球5',
  `red6` varchar(10) CHARACTER SET utf8mb4 COLLATE utf8mb4_bin NOT NULL COMMENT '红球6',
  `blue` varchar(10) CHARACTER SET utf8mb4 COLLATE utf8mb4_bin NOT NULL COMMENT '蓝球',
  PRIMARY KEY (`id`) USING BTREE
) ENGINE = InnoDB AUTO_INCREMENT = 342 CHARACTER SET = utf8mb4 COLLATE = utf8mb4_bin ROW_FORMAT = Dynamic;

SET FOREIGN_KEY_CHECKS = 1;

2、安装python,去官网下载一个windows版本的,一直下一步就行了

3、安装完后打开cmd,输入pip install scrapy安装scrapy框架

4、框架安装完后,输入 scrapy startproject caipiao新增彩票项目

5、进入到spider目录,输入 scrapy genspider shuangseqiu "https://caipiao.ip138.com/shuangseqiu/"新增双色球爬虫,最终生成项目结构如下

6、在items.py里面定义爬取存储的字段

import scrapy


class ShuangseqiuItem(scrapy.Item):
    # define the fields for your item here like:
    openDate = scrapy.Field()
    red1 = scrapy.Field()
    red2 = scrapy.Field()
    red3 = scrapy.Field()
    red4 = scrapy.Field()
    red5 = scrapy.Field()
    red6 = scrapy.Field()
    blue = scrapy.Field()

7、在pipelines.py里面写好保存数据库的逻辑,并在settings.py文件新增配置,数据库连接配置在settings.py文件里面新增下面配置就行

settings.py配置如下

ITEM_PIPELINES = {
   "caipiao.pipelines.ShuangseqiuscrapyPipeline": 300,
}

MYSQL_HOST = '192.168.XXX.XXX'
MYSQL_DBNAME = '数据库名'
MYSQL_USER = '用户'
MYSQL_PASSWD = '密码'

pipelines.py文件内容如下

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html


# useful for handling different item types with a single interface
import pymysql
from caipiao import settings

class ShuangseqiuscrapyPipeline:
    def __init__(self):
        # 连接数据库
        self.connect = pymysql.connect(
            host=settings.MYSQL_HOST,
            db=settings.MYSQL_DBNAME,
            user=settings.MYSQL_USER,
            passwd=settings.MYSQL_PASSWD,
            charset='utf8',
            use_unicode=True)

        # 通过cursor执行增删查改
        self.cursor = self.connect.cursor();

    def process_item(self, item, spider):
        try:
            # 先删除数据
            self.cursor.execute(
                """delete from shuangseqiu where openDate=%s""",
                (item['openDate']
                 ))
            # 插入数据
            self.cursor.execute(
                """insert into shuangseqiu(openDate,red1,red2,red3,red4,red5,red6,blue)
                value (%s,%s, %s, %s,%s, %s,%s, %s)""",
                (item['openDate'],
                 item['red1'],
                 item['red2'],
                 item['red3'],
                 item['red4'],
                 item['red5'],
                 item['red6'],
                 item['blue']
                 ))

            # 提交sql语句
            self.connect.commit()

        except Exception as error:
            # 出现错误时打印错误日志
            print(error)
        return item

8、在spiders/shuangseqiu.py下面写爬取逻辑,不知道怎么获取xpath结构的可以在网站右击节点获取copy---->copy full xpath

import scrapy

from caipiao.items import ShuangseqiuItem


class ShuangseqiuSpider(scrapy.Spider):
    name = "shuangseqiu"
    allowed_domains = ["caipiao.ip138.com"]
    start_urls = ["https://caipiao.ip138.com/shuangseqiu/"]

    def parse(self, response):
        print(response.text)
        #获取历史开奖列表
        shuangseqiuList = response.xpath("//div[@class='module mod-panel']//div[@class='panel']//tbody/tr")
        for li in shuangseqiuList:
            item = ShuangseqiuItem()
            #获取开奖时间
            item["openDate"] = li.xpath('td[1]/span/text()')[0].extract()
            #获取中奖号码
            balls=li.xpath('td[3]/span/text()');
            item["red1"] = balls[0].extract()
            item["red2"] = balls[1].extract()
            item["red3"] = balls[2].extract()
            item["red4"] = balls[3].extract()
            item["red5"] = balls[4].extract()
            item["red6"] = balls[5].extract()
            item["blue"] = balls[6].extract()

            print(item)
            yield item

9、新增run.py文件,用来在idea里面跑cmd脚本用来爬数据

from scrapy import cmdline


name = 'shuangseqiu'
cmd = 'scrapy crawl {0}'.format(name)
cmdline.execute(cmd.split())

10、执行run.py,发现报错

 11、百度了一下,通过修改settings.py如下配置,在执行run.py,发现成功了

USER_AGENT = "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36"

ROBOTSTXT_OBEY = False

 12.数据库查询表,发现数据成功获取

 13、拿数据去分析,离中大奖不远了~~~~,下面是几个简单的数据分析sql

--  统计每个位置的球出现最多次数的号码
 SELECT red1,count(red1) FROM `shuangseqiu` group by red1 order by count(red1) desc;
 
 SELECT red2,count(red2) FROM `shuangseqiu` group by red2 order by count(red2) desc;
	
 SELECT red3,count(red3) FROM `shuangseqiu` group by red3 order by count(red3) desc;
	 
 SELECT red4,count(red4) FROM `shuangseqiu` group by red4 order by count(red4) desc;
		
 SELECT red5,count(red5) FROM `shuangseqiu` group by red5 order by count(red5) desc;
		 
 SELECT red6,count(red6) FROM `shuangseqiu` group by red6 order by count(red6) desc;
			
 SELECT blue,count(blue) FROM `shuangseqiu` group by blue order by count(blue) desc;


 -- 统计每周几出现次数最多次的号码   0-6为周日到周六
 SELECT DATE_FORMAT(openDate, '%w'),red1,count(red1) FROM `shuangseqiu` group by red1,DATE_FORMAT(openDate, '%w') order by DATE_FORMAT(openDate, '%w') asc,count(red1) desc;

14 、完事了~~~~~~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/774069.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

最牛版主力资金指标公式_通达信公式

VAR2:(CLOSE-LLV(LOW,14))/(HHV(HIGH,11)-LLV(LOW,11))*100; 主力做多资金: SMA(VAR2,8,1)0.2,LINETHICK2,COLORFFFFFF; VAR1:(HHV(HIGH,13)-CLOSE)/(HHV(HIGH,22)-LLV(LOW,22))*100; 个股做空资金: SMA(VAR1,5,1)0.17,LINETHICK2,COLORFFFF00; 80,POINTDOT,COLORWHITE; 50,POI…

ggraph做环形网络互作图---一个简单的例子

之前我们写过很多精彩的网络图帖子: ❝ graph包:圆状网络图的绘制|互作网络图|基因通路网络图 新方法---大型网络图绘制---ggraph包 学做NAR图表:ggraph做网络图 复现《Cell stem cell》图表:STRING互作分析igraph绘制大型蛋白互作…

【代码随想录 | Leetcode | 第二天】数组 | 移除元素

前言 欢迎来到小K的Leetcode|代码随想录|专题化专栏,今天将为大家带来双指针法和相向双指针的分享✨ 目录 前言27. 移除元素总结 27. 移除元素 ✨题目链接点这里 给你一个数组 nums 和一个值 val,你需要 原地 移除所有数值等于val的元素,并…

关于python创建项目时的一些基础的概念

写项目时,通常是,先跑起来,跑起来再说。 很多基础的概念仅仅是知其然而已, 不知道为什么这么写,但这样写是可以跑的(或大家都这么写)(我忘了为啥这么写,但就得这么写&…

第五章:STL简介

系列文章目录 文章目录 系列文章目录前言什么是STLSTL的版本STL的六大组件如何学习STLSTL的缺陷总结 前言 STL是C的标准模板库,是一个实现算法与数据结构的组件库。 什么是STL STL(standard template libaray-标准模板库):是C标准库的重要组成部分&…

掌握无人机遥感数据预处理的全链条理论与实践流程、典型农林植被性状的估算理论与实践方法、利用MATLAB进行编程实践(脚本与GUI开发)以及期刊论文插图制作等

目录 专题一 认识主被动无人机遥感数据 专题二 预处理无人机遥感数据 专题三 定量估算农林植被关键性状 专题四 期刊论文插图精细制作与Appdesigner应用开发 近地面无人机植被定量遥感与生理参数反演 更多推荐 遥感技术作为一种空间大数据手段,能够从多时、多…

浅谈测试工程化 - 以并发自动化框架为例

目录 前言 测试工程化 一、测试需求分析 二、测试设计 三、测试实现和落地 四、测试维护 扩展 前言 测试工程化是指将软件测试过程中的各个环节进行自动化和标准化,以提高测试效率、质量和可持续性。在测试工程化中,使用并发自动化框架是一个重要…

java版+免费商城搭建+小程序商城免费搭建+Spring Cloud + Spring Boot + MybatisPlus + 前后端分离 + 二次开发

J2EE企业分布式微服务云快速开发架构 Spring CloudSpring Boot2MybatisOauth2ElementUI 前后端分离 1. 鸿鹄Cloud架构清单 2. Commonservice(通用服务) 通用服务:对spring Cloud组件的使用&封装,是一套完整的针对于分布式微…

【洛谷】数字三角形(动态规划)

目录 边读边存 优化成一维数组——倒序没用了&#xff1f; 从上往下存&#xff0c;最大值存在最后一行&#xff0c;最后遍历最后一行得到最大值的写法 边读边存 边读边存&#xff0c;可以有效降低时间复杂度 #include<iostream> using namespace std; int dp[1005]…

git回退到指定版本

git回退到指定版本 1、查找commitId 首先用命令行打开git项目路径&#xff0c;输入git log命令查看commit记录&#xff0c;如下&#xff1a; 在控制台中输入&#xff1a;git log 得到提交记录&#xff1a; 找到commitId是38ada082c229853cf7880da74f584f73266e58a2记录&…

chatGPT这个风口普通人怎么抓住

抓住ChatGPT这个风口&#xff0c;普通人可以考虑以下几个方面&#xff1a; 学习和了解AI技术&#xff1a;了解人工智能和自然语言处理的基本原理&#xff0c;深入了解GPT模型的概念和应用场景。这将帮助您更好地理解ChatGPT的潜力和限制。 寻找创造性的应用场景&#xff1a…

Triton部署之TensorRT-bugfix

一、前言 Triton部署经常会有一些姨妈的错误&#xff0c;个人经验大都为版本不匹配导致&#xff1b; 二、 本人环境 nvidia-smi: 使用的官方镜像为&#xff1a;nvcr.io/nvidia/tritonserver:21.09-py3 使用的onnx版本为&#xff1a;pip install onnx 1.12.0 -i https://pypi.t…

Drools用户手册翻译——第四章 Drools规则引擎(一)核心概念介绍

之前翻译内容一下就是一大节&#xff0c;感觉有点多&#xff0c;我自己看这都费劲&#xff0c;这一章开始步入正题&#xff0c;我就一小节一小节翻译吧&#xff0c;比较容易阅读&#xff0c;修改错误也简单一些。 甩锅声明&#xff1a;本人英语一般&#xff0c;翻译只是为了做…

拼多多API接口,百亿补贴商品详情页面采集

电商API的数据类型 电商API提供的数据种类多样&#xff0c;一般可分为以下几类&#xff1a; 1.商品数据&#xff1a;商品ID、商品名称、商品价格、库存等。 2.交易数据&#xff1a;订单号、付款时间、收货人等。 3.店铺数据&#xff1a;店铺ID、店铺名称、开店时间、店铺评…

SuperMap iServer新增支持FlatGeobuf数据格式,查询渲染性能提升2-3倍

导语 FlatGeobuf是一种地理数据存储格式&#xff0c;采用了二进制编码&#xff0c;相比其他文本或XML格式更高效&#xff0c;可以显著减小文件大小&#xff0c;这使得数据的传输和存储更加快速和高效。 SuperMap iServer 11i(2023) &#xff08;以下简称SuperMap iServer11.1&a…

【代码随想录 | Leetcode | 第三天】数组 | 长度最小的子数组

前言 欢迎来到小K的Leetcode|代码随想录|专题化专栏&#xff0c;今天将为大家带来滑动窗口的分享✨ 目录 前言209. 长度最小的子数组总结 209. 长度最小的子数组 ✨题目链接点这里 给定一个含有 n 个正整数的数组和一个正整数target。找出该数组中满足其和 ≥ target 的长度…

ubantu下的前后端部署

ubantu 远程ssh连接 通过ssh远程连接服务器&#xff0c;传输文件和执行命令 首先更新软件包保证版本最新 sudo apt update安装ssh sudo apt install openssh-server安装完成后默认开启&#xff0c;也可输入命令查看ssh状态 sudo systemctl status ssh如果输入为下图&#…

warning: ignoring JAVA_HOME=D:\JDK; using bundled JDK报错解决

warning: ignoring JAVA_HOMED:\JDK; using bundled JDK报错原因是因为你JDK版本太低或者你的ElasticSearch版本太高降低版本即可、 我的是JDK1.8我下载的是elasticsearch-8.7.0改成elasticsearch-7.6.1就可以了 elasticsearch-7.6.1地址&#xff1a;弹性搜索 7.6.1 |弹性的 …

【动手学深度学习】--13.使用块的网络 VGG

文章目录 使用块的网络 VGG1.VGG块2.VGG网络3.训练模型 使用块的网络 VGG 学习视频&#xff1a;使用块的网络 VGG【动手学深度学习v2】 官方笔记&#xff1a;使用块的网络&#xff08;VGG&#xff09; 1.VGG块 经典卷积神经网络的基本组成部分是下面的这个序列&#xff1a;…

软件测试转车载测试应该怎么做?

1、你要是零基础小白&#xff0c;做车载测试零基础没有经验&#xff0c;可以找到工作吗&#xff1f;没有汽车软件测试经验零基础小白能找到汽车测试的工作吗&#xff1f;对于企业而言&#xff0c;企业比较倾向于录用&#xff0c;就能给公司带来利益的员工来了就能直接上岗&…