Scrapy + Django爬虫可视化项目实战（一）

一、项目介绍

(一) 项目背景

(二) 项目介绍

二、系统实现

(一) 爬虫

1. 实现步骤

一、爬取字段

二、分析页面

三、具体实现

2. 爬虫结果

系列文章

Python升级打怪—Django入门

Python升级打怪—Scrapy零基础小白入门

实现技术

Scrapy
Django
Echarts

一、项目介绍

(一) 项目背景

在信息技术高速发展的今天，数据已经成为决策的重要依据。旅游业作为服务性行业的重要支柱，其数据资源尤为丰富。去哪儿网作为中国领先的在线旅游平台，拥有大量的景点数据，这些数据对于分析旅游市场动态、游客行为以及景点管理策略等具有极高的价值。通过对去哪儿网景点数据的分析，我们可以了解游客的偏好、旅游市场的趋势以及景点的竞争力等信息。同时，数据可视化可以将复杂的数据信息以直观、易懂的方式呈现出来，有助于决策者更好地理解数据背后的含义

(二) 项目介绍

本项目采用Scray框架爬取去哪儿网的景点数据以及景点的评论数据，将爬取到的数据存储为csv，再通过Django Web框架技术将数据存储到Mysql，然后通过编写接口、分析数据，通过接口将数据返回前端，前端结合Echarts制作可视化表

二、系统实现

(一) 爬虫

爬取网址：去哪儿网

1. 实现步骤

一、爬取字段

本项目爬取的数据分为两部分：【景点数据、景点评论数据】，并将爬取的数据分别存入两个CSV文件中

景点字段

# 景点名称
name = scrapy.Field()
# 景点价格
price = scrapy.Field()
# 所属城市
province = scrapy.Field()
# 评级
star = scrapy.Field()
# 地址
address = scrapy.Field()
# 详情url
detail_url = scrapy.Field()
# 评论数
comment_total = scrapy.Field()
# 短评
short_intro = scrapy.Field()
# 详评
detail_intro = scrapy.Field()
# 封面
cover = scrapy.Field()
# 销售额
sale_count = scrapy.Field()
# 地区
districts = scrapy.Field()
# 评分
score = scrapy.Field()

景点评论字段

# 景点名称
travel_name = scrapy.Field()
# 内容
content = scrapy.Field()
# 评论时间
date = scrapy.Field()

二、分析页面

以地区为北京的景点为例子，搜索结果如下

景点数据

通过分析页面得出，景点数据是通过发送Ajax请求获得，那么我们就不用解析页面，可以直接通过请求获取景点数据即可

当然请求里的景点数据有些字段是没有的，需要我们进入到景点的详情页去爬取

第一个景点：故宫博物院详情页路由

故宫博物院门票,故宫博物院门票预订,故宫博物院门票价格,去哪儿网门票

第二个景点：八达岭长城详情页路由

八达岭长城门票,八达岭长城门票预订,八达岭长城门票价格,去哪儿网门票

通过对比路由地址得出

景点的详情页路由是由基本的路由地址加上景点Id拼接得出，那么在Ajax请求的景点数据字段就有景点id，
那么如果获取指定的景点详情地址，就可以通过拼接该景点id获得

进入到景点详情页，解析页面，获取景点的【评分、评论人数、评论数据】

这里我们可以通过Xpath解析页面，获取景点的评分以及评论人数

景点评论

请求URL示例：https://piao.qunar.com/ticket/detailLight/sightCommentList.json?sightId=38170&index=2&page=2&pageSize=10&tagType=0

景点评论数据也是通过发送Ajax请求获取，但不同的是需要携带上景点的id，在这个景点的id不同于进入景点详情页的景点id，它是在景点详情页中的，在查看网页源代码中，我们也是可以找到这个id的，后面我们就可以通过页面解析得到这个id，再拼接请求地址就可以去获取景点评论数据了

三、具体实现

基础的项目搭建就不在赘述，如有不懂的请看系列文章

爬虫前必看

一定要设置休眠时间！！！这对网站和你都好
因为爬取的数据量很大，爬虫时间会很长，大家可以根据自己的需求合理改造，比如选择合适时间爬取、爬取少量城市或每个城市爬取1-2页数据等

问题一：爬取的数据（景点数据、评论数据）分开存储

可以通过scrapy框架提供的pipelines文件中解决，根据定义数据结构存储到指定文件中，还可以进行数据处理等等操作

问题二：爬取数据层层嵌套

通过前面的页面分析，我们所要爬取的数据层层嵌套，爬取起来比较麻烦，当然也是难不倒我们的

首先准备基础数据

name = "Quanar"
allowed_domains = ["piao.qunar.com"]
start_urls = ["https://piao.qunar.com/daytrip/list.htm"]

# 所要爬取景点的城市
province_list = ['北京', '天津', '河北', '山西', '内蒙古', '辽宁', '吉林', '黑龙江', '上海', '江苏',
                 '浙江', '安徽', '福建', '江西', '山东', '河南', '湖北', '湖南', '广东',
                 '广西', '海南', '重庆', '四川', '贵州', '云南', '西藏', '陕西', '甘肃',
                 '青海', '宁夏', '新疆', '台湾', '香港', '澳门']

# 城市景点列表的ajax请求网址：keyword：城市名称 page：第几页 sort：pp=》按人气排名
url = 'https://piao.qunar.com/ticket/list.json?keyword=%s&region=&from=mpl_search_suggest&page=%s&sort=pp'
# 景点url
travel_url = 'https://piao.qunar.com/ticket/detail_%s.html'
# 景点评论url
comment_url = 'https://piao.qunar.com/ticket/detailLight/sightCommentList.json?sightId=%s&index=1&page=%s&pageSize=10&tagType=0'

发起请求，获取指定城市的指定页的景点数据

def start_requests(self):
    # 遍历每个城市列表
    for index, province in enumerate(self.province_list, 1):
        # 每个城市爬取 多少页 数据
        for page in range(5):
            yield Request(url=(self.url % (province, page)), callback=self.parse_travel_list,
                          meta={"province": province})
            return

解析景点数据，拼接景点详情页地址，继续发起请求

# 解析单个城市里的多个景点数据
def parse_travel_list(self, response):
    # 城市名称
    province = response.meta['province']

    # 城市景点列表
    travel_list = response.json()['data']['sightList']
    for index, travel in enumerate(travel_list):
        try:
            travel_item = TravelItem()
            # 景点名称
            name = travel['sightName']
            print("正在爬取该页 %s 条数据，景点名称为：%s" % (str(index + 1), name))
            # 门票价格
            try:
                price = travel['qunarPrice']
            except:
                price = 0

            # 有点景点可能没有评等级，所以需要判断一下
            try:
                star = travel['star']
            except:
                star = '未评'
            # 详细地址
            address = travel['address']
            # 短评
            short_intro = travel['intro']
            # 封面
            cover = travel['sightImgURL']
            # 销售额
            sale_count = travel['saleCount']
            # 地区
            districts = travel['districts']

            # ======================================= 详情爬虫
            # 景点id
            sightId = travel['sightId']
            # 详情地址
            detail_url = self.travel_url % sightId

            travel_item['name'] = name
            travel_item['province'] = province
            travel_item['price'] = price
            travel_item['star'] = star
            travel_item['address'] = address
            travel_item['short_intro'] = short_intro
            travel_item['cover'] = cover
            travel_item['sale_count'] = sale_count
            travel_item['districts'] = districts
            travel_item['detail_url'] = detail_url

            # 生成新的Request，并传递给下一个解析函数
            yield scrapy.Request(detail_url, callback=self.parse_travel_details, meta={'travel_item': travel_item})
            return
        except:
            continue

解析页面，获取景点的评分以及评论人数、请求景点评论所需的id，拼接获取景点评论的url，继续发起请求

    # 解析单个景点里的详情
    def parse_travel_details(self, response):
        travel_item = response.meta['travel_item']
        name = travel_item['name']
        travel_detail_xpath = Selector(response)
        # 评论总数
        comment_total = travel_detail_xpath.xpath('//span[@class="mp-description-commentCount"]/a/text()')[
            0].get().replace(
            '条评论', '')
        # 详情介绍
        detail_intro = travel_detail_xpath.xpath('//div[@class="mp-charact-desc"]//p/text()').get()
        # 评分
        score = travel_detail_xpath.xpath("//span[@id='mp-description-commentscore']/span/text()").get()
        if not score:
            score = 0
        else:
            score = score[0]

        travel_item['comment_total'] = comment_total
        travel_item['detail_intro'] = detail_intro
        travel_item['score'] = score

        # print("爬取存储的travel_item：%s" % travel_item)
        yield travel_item
        # ======================================= 评论爬虫
        data_sight_id = travel_detail_xpath.xpath('//div[@class="mp-tickets-new"]/@data-sightid')[0].get()
        comment_url = self.comment_url % (data_sight_id, 1)
        # 生成新的Request，并传递给下一个解析函数
        yield scrapy.Request(comment_url, callback=self.parse_comments, meta={"name": name})

解析评论数据

# 解析单个景点里的评论
def parse_comments(self, response):
    try:
        print("正在爬取%s的评论数据" % response.meta['name'])
        comment_json = response.json()['data']['commentList']
        name = response.meta['name']
        for comment in comment_json:
            item = CommentItem()
            if comment['content'] != '用户未点评，系统默认好评。':
                item['travel_name'] = name
                item['content'] = str(comment['content'])
                item['date'] = comment['date']
                yield item
    except:
        return