淘宝商品信息存入数据库

news2024/10/5 14:19:45

python 爬虫程序:

#京东.py

import json
import pprint
import re
import requests  #
name_turnover = {}
url = "https://s.taobao.com/search?data-key=s&data-value=88&ajax=true&_ksTS=1686118766568_2290&callback=jsonp2291&ie=utf8&initiative_id=staobaoz_20230607&stats_click=search_radio_all%3A1&js=1&imgfile=&q=%E7%94%9F%E9%B2%9C%E8%94%AC%E8%8F%9C&suggest=0_1&_input_charset=utf-8&wq=%E7%94%9F%E9%B2%9C&suggest_query=%E7%94%9F%E9%B2%9C&source=suggest&bcoffset=-2&ntoffset=4&p4ppushleft=2%2C48&s=44"
headers = {
    "referer":"https://s.taobao.com/search?ie=utf8&initiative_id=staobaoz_20230607&stats_click=search_radio_all%3A1&js=1&imgfile=&q=%E7%94%9F%E9%B2%9C%E8%94%AC%E8%8F%9C&suggest=0_1&_input_charset=utf-8&wq=%E7%94%9F%E9%B2%9C&suggest_query=%E7%94%9F%E9%B2%9C&source=suggest&bcoffset=1&ntoffset=1&p4ppushleft=2%2C48&s=44",
    "cookie":"cna=oEmTGn6xI1gCAXWIV32z/Mil; miid=987046928798160839; lLtC1_=1; cookie2=1fd1729b734bce71cfd191f40f41bd6a; t=6a02fb735e3adc573557c6e0ab62f54c; _tb_token_=eb837b375301f; tk_trace=oTRxOWSBNwn9dPyorMJE%2FoPdY8zMG1aAN%2F0TkjYGZjkj6rrK3kv4LgxGhtlxvv5DK7siwhr9c%2BstdFdCVk5KH7UN3Btd4iqEU17g2jJGikl4OiEw5IdUcpsDvhC1WZJPhSJYYp%2B6UrKYwPiRWfSvBW4zK6%2BYutXuF6HE%2F3pjhSu3qOR7542b5NcQn%2FJI4AJlgd81EFPZUBkkGw2XAV0%2Fpgo51zEBDT1kYOSpTYZWgd2bnYHINx1YUUHrAoA5U1t48eAPBi4KOhH9G0rEvJ4yD8ROSwbvaRDs8i2n8fCp2dv8gCS4r8WxXvoVcZRRLUn%2BFloUy0gD0ESCWBuP%2Fw3BLdopZD2d%2BbgE7mvWkdhRUo1LPvt4EftUe524UBNo31Rzlzme07NcxiMJOgiDOcgKFtTCY2I%2Fn0wkBIM2lnXIpUHie240uOKUvQTLXZRlMAcECW42IKet1wXX1fflLXVHluNPUKlvAA%3D%3D; _samesite_flag_=true; xlly_s=1; sgcookie=E100yC3wSCQAjJ8ZAdrVby4vcYf0LCBKEoFxeTliqs9%2Bygxrr1n7lZQfAm9pZ%2BJzi%2Bne2HYq8DFA83iR8Un%2B%2F6a6Yf44YPNJrHD0jJ0AiallGe0%3D; unb=3610730283; uc3=nk2=F5REPhy1f9gdkw%3D%3D&vt3=F8dCsf5xcO7RJvDbgAc%3D&lg2=UtASsssmOIJ0bQ%3D%3D&id2=UNaGuKCjXeSfkQ%3D%3D; csg=0d01eec1; lgc=tb10388584; cancelledSubSites=empty; cookie17=UNaGuKCjXeSfkQ%3D%3D; dnk=tb10388584; skt=78b9e90c3fa18c1a; existShop=MTY4NjExNDU2MA%3D%3D; uc4=nk4=0%40FY4PbIBD6eDor6y5P%2B1mh74jdY0S&id4=0%40UgGP%2FESshppTHtaPI2%2B4zIkPaqaV; tracknick=tb10388584; _cc_=U%2BGCWk%2F7og%3D%3D; _l_g_=Ug%3D%3D; sg=431; _nk_=tb10388584; cookie1=UUjYFkC38FgBaH1zIGShfVmSWD4lS9gurHNK8Qagryw%3D; _m_h5_tk=4b23f4db07a46f97c8fe25c2a1422a40_1686123228984; _m_h5_tk_enc=36062541f2db73097a52b1d6730a9ae0; mt=ci=10_1; thw=cn; uc1=existShop=false&pas=0&cookie16=URm48syIJ1yk0MX2J7mAAEhTuw%3D%3D&cookie21=V32FPkk%2FgihF%2FS5nr3O5&cookie14=Uoe8jJKLOYaWxQ%3D%3D&cookie15=UIHiLt3xD8xYTw%3D%3D; alitrackid=www.taobao.com; lastalitrackid=www.taobao.com; JSESSIONID=C88639CB9D97037EC0D952DCB6CCA308; tfstk=cHrfBp9wvIAbrvsMmj6zAXszY80NCD7SeZGzh6aKVNEBdFLqwh1DRHlI6q4MNcktF; l=fBMmKTMRTc8OGYMNBO5CKurza77ON3ObcAVzaNbMiIEGC6BRKvvGD7xQ23IdECxRR8XlifT64jvnyCJt1ehu-ykjJ0YEae1VivEDCeX0WOyN.; isg=BDc3yZa8H470bpz5X9-TBA9lxiuB_Atemwyse4n3foK_OHd6lcxtr5ReGphm1uPW",
     "User-Agent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36'
}
reponse = requests.get(url=url,headers=headers)
html_data = reponse.text
# datas = str(html_data)
# print(html_data)
# json_Data = html_data.replace("(","").replace(")","")
c = re.compile('jsonp2291\(({.*?})\)')
re_Data = re.findall(c,html_data)
re_Datas = json.loads(re_Data[0])
# print(re_Datas)
names_list =list()
turnover_list = list()
dict_index = re_Datas["mods"]["itemlist"]["data"]["auctions"]
for i in range(44):
    names = dict_index[i]["raw_title"]
    names_list.append(names)
    turnover = dict_index[i]["view_sales"]
    turnover_list.append(turnover)
for a ,b in zip( names_list,turnover_list):
    name_turnover[a] = b
# print(name_turnover)

 

数据连接存入程序:

#pymysql.py

import pymysql
import 京东
list = []
data  = 京东.name_turnover

#连接数据库
db = pymysql.connect(host = '127.0.0.1' # 连接名称,默认127.0.0.1
,user = 'root' # 用户名
,passwd='123456' # 密码
,port= 3307 # 端口,默认为mysql8.026
,db='jd' # 数据库名称
,charset='utf8' # 字符编码
                     )
# 创建 SQL 游标对象,游标对象主要用来执行 SQL 语句
cursor = db.cursor()
sql  = """drop table if exists address_book"""
cursor.execute(sql)
# 要执行的 SQL 语句
#创建表的sql
try:
    sql='''
        create table inforsmatioss(
        sname varchar(150),
        numcount varchar(100)
        )
    '''
    cursor.execute(sql)
except Exception as e:

    print(e)
    db.rollback()

finally:

    for j, k in zip(data.keys(),data.values()):
        pass
        sql = "insert into inforsmatioss(sname,numcount) values(%s,%s)"
        dict_data = (j,k)
        cursor.execute(sql, dict_data)
    db.commit()
    cursor.close()
    db.close()

 

 不好做啊,实在不易

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/622859.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

用AI写出的高考作文!

今天是6月7日,又到了每一年高考的日子。小灰自己参加高考是在2004年,距离现在已经将近20年,现在回想起来,真的是恍如隔世。 今天高考语文的作文题是什么呢? 全国甲卷的题目是:人技术时间 人们因技术发展得以…

centos7 部署 Redis

从源安装Redis 一、安装Redis1.1 下载源文件1.2 编译源文件1.2.1 解压文件1.2.2 编译Redis 1.2.3 安装Redis1.2.4 启动 Redis 二、Redis设置2.1 缓存设置2.2 redis 环境优化2.3 安全设置 一、安装Redis 1.1 下载源文件 使用下列命令获取最新版的稳定Redis wget https://down…

Live800:智能客服有哪些未来发展趋势?

智能客服,也称智能问答系统,是一种利用机器学习、自然语言处理等技术实现自主询问、自主应答、自主维护的自动化系统。它们可以通过文字形式,为用户提供个性化、一对一的服务,避免了人工客服的人力成本和等待时间。 未来&#xff…

【Protobuf速成指南】enum类型的使用

文章目录 2.1枚举类型一、如何定义枚举类型?二、语法规范三、重定义问题四、enum类型相关函数五、Contact 2.1 改写六、总结 2.1枚举类型 本系列文章将通过对通讯录项目的不断完善,带大家由浅入深的学习Protobuf的使用。这是Contacts的2.1版本&#xff0…

【IMX6ULL驱动开发学习】02.IMX6ULL烧写Linux系统

由于我买的是正点原子的IMX6ULL阿尔法开发板,但是我是看韦东山老师视频学习的驱动 所以这里我烧录的方法是按照韦东山老师的课程来的 这里给出烧写Linux系统用到的工具 链接:https://pan.baidu.com/s/1bD-xxn3K8xQAVkJSaJmTzQ 提取码:af6w …

操作系统1-操作系统的基本特征和主要功能

目录 1、操作系统的目标和作用 (1)操作系统的目标 (2)操作系统的作用 2、操作系统的发展过程 (1)未配置操作系统的计算机系统 (2)单道批处理系统(Simple Batch Processing Sys…

企企通受邀出席多场高质量数智化活动,推进行业数字化升级转型

当前,数字经济已成为引领全球经济社会变革、推动我国经济高质量发展的重要引擎。Chat GPT的横空出世,宣告虚实无缝结合的跨场景体验时代即将到来。在云计算、大数据、人工智能、物联网等技术助推下,经过大量实践证明,数字化、智能…

工业RFID读写器选择指南

工业RFID读写器在工业领域上可提升自动化、现代化工业生产的效率,那么企业在选择工业读写器的时候,需要注重哪些方面,如何选择呢?以下是ANDEWELL给大家准备的工业RFID读写器选择指南! 1、根据应用场景选择 根据不同的应用场景,要…

【Docker安装部署Neo4j保姆级教程】

🚀 算法题 🚀 🌲 算法刷题专栏 | 面试必备算法 | 面试高频算法 🍀 🌲 越难的东西,越要努力坚持,因为它具有很高的价值,算法就是这样✨ 🌲 作者简介:硕风和炜,…

大数据架构师岗位的主要职责概述(合集)

大数据架构师岗位的主要职责概述1 职责: 1.参与公司数据平台系统规划和架构工作,主导系统的架构设计和项目实施,确保项目质量和关键性能指标达成; 2.统筹和推进制造工厂内部数据系统的构建,搭建不同来源数据之间的逻辑关系&#x…

10.无监督学习

10.1 无监督学习的定义 监督学习:我们有一些列标签,然后用假设函数去拟合它 无监督学习:给出的数据不带任何标签。对于无监督学习来说,需要做的就是将数据输入到算法中,让算法找到一些隐含在数据中的结构,通…

IDEA代码提示设置

1. 打开File -> setting -> Editor -> Live Templates 2. 点击中间框框中的右侧""号,选择 Template Group, 命名为MyGroup(随便起名字) 3. 选中 MyGroup 点击右侧""号,选择Live Template Abbreviation 快捷提示 Description 描述 Template tex…

探究核心技术最佳实践,云原生OLAP论坛火热开启!

2023/06/11,09:00-12:30,在DataFunSummit 2023:OLAP引擎架构峰会上,由阿里云资深技术专家,实时数仓 Hologres 研发负责人姜伟华老师出品的云原生OLAP论坛讲邀请来自阿里云、亚马逊云科技、三七互娱、聚水潭、诺亚财富的…

相机成像模型(二)

相机内参/外参 将上述公式整合到一起,得到世界坐标系中点(Xw,Yw,Zw)映射到像素坐标系中点(u,v)的计算过程,同时给出相机内参、外参的定义如下。 相机外参:描述世界坐标系与相机坐标系之间的变换关系,可将世界坐标系中的点变换至相机坐标系;依赖世界坐标系的定义。 相机内参…

ubuntu18.04LTS编译openssl库进行rsa加密解密

一、下载openssl库源码,下载地址:https://ftp.openssl.org/source/ 我下载的版本: 二、编译源码 1、解压源码: tar zxvf openssl-1.1.1u.tar.gz 2、进入到解压后的文件夹中: cd openssl-1.1.1u/3、执行配置&#x…

6.数组、排序和查找|Java学习笔记

文章目录 数组数组使用注意事项和细节数组赋值机制 排序查找相关链接 数组 数组可以存放多个同一类型的数据。数组也是一种数据类型,是引用类型。 数据类型 数组名[] new 数据类型[大小];int a[] 或者 int[] a 都可以。 int[] a {1,2,3};// 二维数组的声明方式有…

ThreeJS教程:山脉地形高度可视化

推荐:将 NSDT场景编辑器加入你的3D工具链 3D工具集: NSDT简石数字孪生 山脉地形高度可视化 一个山脉地形的高度可视化,具体说就是地形不同的高度设置不同的颜色值。有多种方式,下面就举一个设置顶点颜色.attributes.color的例子 …

魏副业而战:夸克网盘拉新如何引流推广?3个方法,让你多赚5W+

我是魏哥,与其在家躺平,不如魏副业而战! 夸克网盘拉新项目,相信大家都知道吧。 提到拉新,很多人不屑一顾,认为拉人头的项目,没什么前途。 这个想法,魏哥是反对的。 任何项目的存…

阿里巴巴 2023 版(Java 岗)面试突击手册,Github 已标星42K

程序员作为一个自带“高薪多金”标签的职业,收入要高于市场的平均薪资,即便是在 2023 年,程序员的薪资依然保持居高不下。 据拉勾发布的《2022 程序员群体职场洞察报告》显示计算机专业的应届本科生起薪普遍高于其他职业的平均薪资水平。77%的本科毕业生…

[数据库]数据库事务,管理等级,并发锁

1.数据库事务 数据库事务(transaction)是数据库的特性之一,在mysql数据库管理系统中,事务的管理是由引擎innordb实现的. 数据库事务可以理解为一个阶段中的活动,对于每一个窗口都有一个日志,日志中记录着本次事务中进行的改动(注意只是改动,查询不算).其中的两个指令commit,以…