【实战项目】：电商网站数据抓取分析||电商API数据采集

news2025/7/7 22:55:33

导语：在电商行业，了解市场动态和竞争对手的信息非常重要。通过抓取电商网站上的商品数据，我们可以进行市场分析、价格监控和产品趋势研究。本文将介绍如何构建一个系统，自动化抓取电商网站上的商品数据，并进行分析。

一、项目简介

在这个项目中，我们将利用 Python 的网络抓取和数据处理库，实现以下功能：

抓取电商网站上的商品数据。||电商API接口测试
存储抓取的数据。
对数据进行分析，生成报告。

二、所需库和环境准备

在开始之前，我们需要安装以下 Python 库：

pip install requests beautifulsoup4 pandas

requests：用于发送 HTTP 请求。
beautifulsoup4：用于解析 HTML 网页。
pandas：用于数据处理和分析。

三、数据抓取

1. 发送 HTTP 请求

我们将使用 requests 库发送 HTTP 请求，获取网页内容：

import requests
def fetch_page(url):    headers = {'User-Agent': 'Mozilla/5.0'}    response = requests.get(url, headers=headers)    if response.status_code == 200:        return response.text    else:        return None
url = 'https://www.example.com/product-page'page_content = fetch_page(url)

2. 解析网页内容

使用 BeautifulSoup 库解析网页内容，并提取商品数据：

from bs4 import BeautifulSoup
def parse_product_page(page_content):    soup = BeautifulSoup(page_content, 'html.parser')    products = []
    # 示例：提取商品名称和价格    for product in soup.select('.product-item'):        name = product.select_one('.product-title').get_text(strip=True)        price = product.select_one('.product-price').get_text(strip=True)        products.append({'name': name, 'price': price})
    return products
products = parse_product_page(page_content)print(products)

四、数据存储

将抓取的数据存储到 CSV 文件中，以便后续分析：

import pandas as pd
def save_to_csv(data, file_path):    df = pd.DataFrame(data)    df.to_csv(file_path, index=False)    print(f"Data saved to {file_path}")
# 示例：保存抓取的商品数据save_to_csv(products, 'products.csv')

五、数据分析与报告生成

使用 pandas 对数据进行分析，并生成报告：

import pandas as pd
def analyze_data(file_path):    data = pd.read_csv(file_path)        # 示例：计算平均价格    data['price'] = data['price'].replace('[\$,]', '', regex=True).astype(float)    avg_price = data['price'].mean()        # 示例：按商品名称统计数量    product_counts = data['name'].value_counts()        return avg_price, product_counts
def generate_report(avg_price, product_counts):    report = f"Average Price: ${avg_price:.2f}\n\nProduct Counts:\n{product_counts}"    with open('report.txt', 'w') as file:        file.write(report)    print("Report generated as report.txt")
# 示例：分析数据并生成报告avg_price, product_counts = analyze_data('products.csv')generate_report(avg_price, product_counts)

六、综合实例：完整流程

以下是一个综合实例，展示了如何构建一个完整的系统，抓取电商网站上的商品数据并进行分析：

import requestsfrom bs4 import BeautifulSoupimport pandas as pd
def fetch_page(url):    headers = {'User-Agent': 'Mozilla/5.0'}    response = requests.get(url, headers=headers)    if response.status_code == 200:        return response.text    else:        return None
def parse_product_page(page_content):    soup = BeautifulSoup(page_content, 'html.parser')    products = []
    for product in soup.select('.product-item'):        name = product.select_one('.product-title').get_text(strip=True)        price = product.select_one('.product-price').get_text(strip=True)        products.append({'name': name, 'price': price})
    return products
def save_to_csv(data, file_path):    df = pd.DataFrame(data)    df.to_csv(file_path, index=False)    print(f"Data saved to {file_path}")
def analyze_data(file_path):    data = pd.read_csv(file_path)    data['price'] = data['price'].replace('[\$,]', '', regex=True).astype(float)    avg_price = data['price'].mean()    product_counts = data['name'].value_counts()    return avg_price, product_counts
def generate_report(avg_price, product_counts):    report = f"Average Price: ${avg_price:.2f}\n\nProduct Counts:\n{product_counts}"    with open('report.txt', 'w') as file:        file.write(report)    print("Report generated as report.txt")
def main():    url = 'https://www.example.com/product-page'    page_content = fetch_page(url)    if page_content:        products = parse_product_page(page_content)        save_to_csv(products, 'products.csv')        avg_price, product_counts = analyze_data('products.csv')        generate_report(avg_price, product_counts)
if __name__ == "__main__":    main()