写爬虫代码抓取Asterank中小行星数据

news2025/4/11 23:28:40

2024年5月4日

问题来源

解决方案

回顾2023年7月14日自己写的爬虫代码

import requests
import re
import pandas as pd
texts=[]
def getData(page):
    #每页评论的网址
    url='https://item.jd.com/51963318622.html#comment'
    #添加headers，伪装成浏览器
    headers={'User-Agent':''}
    #获取响应信息
    response=requests.get(url,headers)
    page_text=response.text
    #通过requests获得了网页的源代码，就可以对源代码字符串使用正则表达式来提取文本信息

    #定义正则，获取商品信息,py的正则表达式模块为re(regular expression)

    ex='"guid":.*?,"content":"(.*?)"'
    result=re.findall(ex,page_text)
    #把获取到的评论放入之前创建的空列表中
    texts.extend(result)
    #创建一个空的数据表，保存成excel
    df=pd.DataFrame()
    #导入数据到excel并保存
    df['评论']=texts
    df.to_excel('京东商品评论.xlsx')

#爬第一页和第二页,重复执行主函数中的gatData函数
if __name__=="_main_":
    for i in range(0,3):
        getData(i)

数据处理（设计器和python ）基本都会遇到的知识点：（实训笔记）

1.循环：设计器：计次循环=for i in range（在计次之前需要设置一个变量）

2.变量

通过re和？？进行数据解析，解析的方法是正则表达式

正则表达式会隐藏在文件中的对应请求中

respons就是一个字典，根据键获取对应的值

写入excel或者数据库，

创建游标的方式执行SQL语句，就是insert INto、、插入

尝试根据去年的代码实现小行星数据抓取:BS4-

Beautiful Soup4是Python第三方库，用来从HTML和XML中提取数据

from bs4 import BeautifulSoup

#解析源代码生成BeautifulSoup对象：
soup=BeautifulSoup(网页源代码，'解析器')
#eg:   soup=BeautifulSoup(source，'html.parser')
#      soup=BeautifulSoup(source，'lxml')

查找内容

info=soup.find(class='test')

plus:HTML基础

HTML 就是网页源代码，是一种结构化的标记语言。HTML可以描述一个网页的结构信息。

HTML与CSS（层叠样式表），JavaScript一起构成了现代互联网的基石。

来看一段html的示例代码：

<html>
        <head>
          <title>测试</title>
      </head>
      <body>
          <div class="useful">
              <ul>
                <li class="info">我需要的信息1</li>
                <li class="info">我需要的信息2</li>
                <li class="info">我需要的信息3</li>
              </ul>
          </div>
          <div class="useless">
              <ul>
                <li class="info">垃圾1</li>
                <li class="info">垃圾2</li>
              </ul>
          </div>
        </body>
    </html>

html的层级关系