88个HTML旅游交通模板下载链接:https://pan.baidu.com/s/1pziNhgpC53h3KZy_a-aAFQ?pwd=f99e
提取码:f99e
Python采集代码下载链接:采集代码.zip - 蓝奏云
HTML5旅行公司旅行社网站模板
HTML5旅行公司旅行社网站模板是一款提供旅行服务的公司宣传网站模板下载。提示:本模板调用到谷歌字体库,可能会出现页面打开比较缓慢。
安全驾驶培训机构网站模板
安全驾驶培训机构网站模板是一款适合从事驾照培训服务机构网站模板下载。提示:本模板调用到谷歌字体库,可能会出现页面打开比较缓慢。
瑞士风光旅行宣传网站模板
瑞士风光旅行宣传网站模板是一款适合瑞士自然风光景点宣传旅行网站模板下载。提示:本模板调用到谷歌字体库,可能会出现页面打开比较缓慢。
阿拉斯加自然景点旅行网站模板
阿拉斯加自然景点旅行网站模板是一款适合阿拉斯加自然景点旅行分享宣传网站模板下载。提示:本模板调用到谷歌字体库,可能会出现页面打开比较缓慢。
import os
import shutil
import time
from time import sleep
from docx import Document
from docx.opc.oxml import qn
from docx.shared import Inches, RGBColor
from framework.base.BaseFrame import BaseFrame
from sprider.business.DownLoad import DownLoad
from sprider.business.SeleniumTools import SeleniumTools
from sprider.business.SpriderTools import SpriderTools
from selenium import webdriver
from selenium.webdriver.common.by import By
from sprider.model.SpriderEntity import SpriderEntity
from sprider.access.SpriderAccess import SpriderAccess
title_name = "旅游交通"
class ChinaZJsSelenium:
base_url = "https://sc.chinaz.com/" # 采集的网址
save_path = "D:\\Freedom\\Sprider\\ChinaZ\\"
sprider_count =88 # 正在采集第14页的第23个资源,共27页资源 debug
sprider_start_count=0
word_content_list = []
folder_name = ""
page_end_number=0
max_pager=24#每页的数量
haved_sprider_count =0 # 已经采集的数量
page_count = 1 # 每个栏目开始业务content="text/html; charset=gb2312"
filter_down_file=[]
word_image_count=5 #word插入图片数量 同时也是明细采集图片和描述的数量
sprider_detail_index = 0# 明细方法采集的数量 累加
sprider_top_level="HTML"
Bootstrap4汽车接送租赁服务网站模板
一站式洗车服务平台网站模板
旅行社旅行机构登录模板
Bootstrap物流速递公司网站模板
汽车维修保养宣传网站模板
国际货运物流服务公司网站模板
汽车修理服务公司网站模板
洗车店HTML5网站模板
驾校培训机构HTML5网站模板
快递物流公司网站模板
旅游宣传HTML5网站模板
汽车出租公司网站模板
HTML5星级酒店宣传网站模板
旅行社HTML5网站模板
旅游酒店航班预定网站模板
团建旅游跟团旅行社网站模板
紫色旅游预订平台网站模板
度假胜地旅行酒店网站模板
旅游酒店预订网站HTML5模板
宽屏旅游景点网站HTML5模板
旅游套餐预订网站响应式模板
旅游图文相册博客网页模板
旅游套餐服务网站HTML5模板
def sprider(self,title_name):
"""
采集
医疗保健 https://sc.chinaz.com/moban/YiLiaoBaoJian.html
电子产品 https://sc.chinaz.com/moban/DianZiChanPin.html
电子商务 https://sc.chinaz.com/moban/DianZiShangWu.html
婚纱模板 https://sc.chinaz.com/moban/HunShaMoBan.html
电脑主机 https://sc.chinaz.com/moban/DianNaoZhuJi.html
旅游交通 https://sc.chinaz.com/moban/LvYouJiaoTong.html
:return:
"""
if title_name == "医疗保健":
self.first_column_name = "moban"
self.folder_name = "HTML医疗保健模板"
self.second_column_name = "YiLiaoBaoJian"
elif title_name == "旅游交通":
self.first_column_name = "moban"
self.folder_name = "HTML旅游交通模板"
self.second_column_name = "LvYouJiaoTong"
elif title_name == "电脑主机":
self.first_column_name = "moban"
self.folder_name = "HTML电脑主机模板"
self.second_column_name = "DianNaoZhuJi"
elif title_name == "电子产品":
self.first_column_name = "moban"
self.folder_name = "HTML电子产品模板"
self.second_column_name = "DianZiChanPin"
elif title_name == "电子商务":
self.first_column_name = "moban"
self.folder_name = "HTML电子商务模板"
self.second_column_name = "DianZiShangWu"
BaseFrame().right("本次采集参数:日志路径:=" + str( BaseFrame().LOG_PATH) + "")
BaseFrame().right("本次采集参数:sprider_count=" + str(self.sprider_count) + "")
BaseFrame().right("本次采集参数:title_name="+title_name+"")
BaseFrame().right("本次采集参数:second_column_name=" + self.second_column_name + "")
# self.folder_name = "JS表单验证"
self.sprider_category = title_name # 一级目录self.folder_name
second_folder_name = str(self.sprider_count) + "个" + self.folder_name #二级目录
self.sprider_type =second_folder_name
self.merchant=int(self.sprider_start_count) //int(self.max_pager)+1 #起始页码用于效率采集
#原始路径+一级目录+二级目录
self.file_path = self.save_path + os.sep + self.sprider_top_level + os.sep + self.folder_name + os.sep + second_folder_name
self.save_path = self.save_path+ os.sep + self.sprider_top_level + os.sep+self.folder_name +os.sep + second_folder_name+ os.sep + self.folder_name
BaseFrame().debug("开始采集ChinaZJL"+self.folder_name+"...")
sprider_url = (self.base_url + "/{1}/{0}.html".format(self.second_column_name,self.first_column_name))
down_path="D:\\Freedom\\Sprider\\ChinaZ\\"+self.sprider_top_level +"\\"+self.folder_name +"\\"+second_folder_name+"\\Temp\\"
if os.path.exists(down_path) is True:
shutil.rmtree(down_path)
if os.path.exists(down_path) is False:
os.makedirs(down_path)
if os.path.exists(self.save_path ) is True:
shutil.rmtree(self.save_path )
if os.path.exists(self.save_path ) is False:
os.makedirs(self.save_path )
chrome_options = webdriver.ChromeOptions()
diy_prefs ={'profile.default_content_settings.popups': 0,
'download.default_directory':'{0}'.format(down_path)}
# 添加路径到selenium配置中
chrome_options.add_experimental_option('prefs', diy_prefs)
chrome_options.add_argument('--headless') #隐藏浏览器
# 实例化chrome浏览器时,关联忽略证书错误
driver = webdriver.Chrome(options=chrome_options)
driver.set_window_size(1280, 800) # 分辨率 1280*800
#
BaseFrame().debug("开始采集"+sprider_url)
driver.get(sprider_url)
# content = driver.page_source
element_list = driver.find_elements(By.CLASS_NAME, "masonry-brick") # 列表页面 核心内容 box col3 ws_block masonry-brick
#element_list = div_elem.find_elements(By.CLASS_NAME, 'item')
#print(element_list.get_attribute('innerHTML'))
laster_pager_div = driver.find_element(By.CLASS_NAME, "fenye")
laster_pager_a = laster_pager_div.find_elements(By.TAG_NAME, 'a')
laster_pager_url = laster_pager_a[len(laster_pager_a) - 2]
page_end_number = int(laster_pager_url.text)
self.page_count=self.merchant
while self.page_count <= int(page_end_number): # 翻完停止
try:
if self.page_count == 1:
self.sprider_detail(driver,element_list,self.page_count,page_end_number,down_path)
pass
else:
if self.haved_sprider_count == self.sprider_count:
BaseFrame().debug("采集到达数量采集停止...")
BaseFrame().debug("开始写文章...")
self.builder_word(self.folder_name, self.word_content_list)
BaseFrame().debug("文件编写完毕,请到对应的磁盘查看word文件和下载文件!")
break
#(self.base_url + "/sort/{0}/{1}/".format(url_index, self.page_count))
#http://soft.onlinedown.net/sort/177/2/
#https://sc.chinaz.com//jianli/xiaochengchu_2.html
next_url = self.base_url + "/{2}/{0}_{1}.html".format(self.second_column_name, self.page_count,self.first_column_name)
driver.get(next_url)
element_list = driver.find_elements(By.CLASS_NAME, "masonry-brick") # 列表页面 核心内容
self.sprider_detail( driver, element_list, self.page_count, page_end_number, down_path)
pass
#print(self.page_count)
self.page_count = self.page_count + 1 # 页码增加1
except Exception as e:
print("sprider()执行过程出现错误:" + str(e))
sleep(1)
旅游景点攻略介绍主页模板
4S汽车店铺网站响应式模板
汽车维修售后服务官网模板
平行进口车网站HTML5模板
简洁风格旅游胜地HTML模板
汽车配件网上商店HTML模板
汽车轮胎保养HTML5模板
汽车洗车加盟店网站HTML模板
HTML旅行摄影单页视差模板
游艇轮船租赁服务公司网站模板
精美全球旅游攻略网站模板
超跑俱乐部车友会网站模板
高端碳纤维自行车网页模板
酒店旅游团购推荐单页模板
4S汽车维修店铺静态模板
探索目的地旅游网站模板
汽车改装维修服务网站模板
简约旅游门户企业网站模板
酒店旅游攻略指南网站模板
旅游户外摄影HTML5模板
import os
import shutil
def void_folder(path):
# 访问path路径下的文件或文件夹
lst = os.listdir(path)
# 打印每一层的文件或文件夹
for name in lst:
# 拼接名称,得到绝对路径,判断该文件是否符合是文件夹
real_path = os.path.join(path, name)
# 如果是文件夹,则打空格表示,并且递归访问下一层
if os.path.isdir(real_path):
# print(name)
files = os.listdir(real_path)
if len(files) == 0:
print("void_folder()"+name)
shutil.rmtree(real_path)
endindex = len(real_path) - len(name)
real_path = real_path[0:endindex]
void_folder(real_path)
else:
void_folder(real_path)
# 如果不是文件夹,直接打印,不再递归访问下一层
else:
#print(name)
pass
def void_file(dirPath):
dirs = os.listdir(dirPath) # 查找该层文件夹下所有的文件及文件夹,返回列表
for file in dirs:
file_full_name = dirPath + '/' + file
file_ext = os.path.splitext(file_full_name)[-1]
if file_ext is None or file_ext=="":
continue
if "rar" == str(file_ext.split(".")[1]):
os.remove(file_full_name)
if "zip" == str(file_ext.split(".")[1]):
os.remove(file_full_name)
if "gz" == str(file_ext.split(".")[1]):
os.remove(file_full_name)
if "tgz" == str(file_ext.split(".")[1]):
os.remove(file_full_name)
# 查找指定文件夹下所有相同名称的文件
def search_file(dirPath, fileName):
dirs = os.listdir(dirPath) # 查找该层文件夹下所有的文件及文件夹,返回列表
for currentFile in dirs: # 遍历列表
absPath = dirPath + '/' + currentFile
if os.path.isdir(absPath): # 如果是目录则递归,继续查找该目录下的文件
search_file(absPath, fileName)
elif currentFile == fileName:
#print(absPath) # 文件存在,则打印该文件的绝对路径
os.remove(absPath)
汽车品牌种类查询网站模板
星级旅游酒店网站模板
汽车维修4S店网站模板
宽屏旅游套餐定制网站模板
古董汽车收藏网站模板
旅游机票预定网站模板
野外露营旅游HTML5模板
保时捷汽车出售网站模板
宽屏简洁旅游HTML5模板
宽屏环球旅行网站模板
旅游度假酒店着陆页模板
户外探险登山博客网站模板
全球旅游景点介绍网站模板
国外旅游攻略介绍单页模板
海上冲浪旅游项目网站模板
专业发型沙龙网站模板
汽车之家信息查询网站模板
紫色旅行计划定制网页模板
蓝色简洁旅游专题模板
诗和远方旅行门户网站模板
酒店旅游预订网站模板
健身教练团队网站模板
雪峰登山响应式网站模板
汽车配件供应商网站模板
旅游风景图片展示网站模板
大山户外风景旅游网站模板
汽车经销商官网HTML5模板
宽屏简洁响应式网站模板
HTML5旅游城市一站式服务网站模板
HTML5旅行住宿宣传网站模板
汽车运输物流公司网站模板
HTML5响应式假日旅行网站模板
一站式环球旅行酒店预定网站模板
HTML5世界景点旅行网站模板
汽车速度比赛游戏网站模板
一站式旅行服务网站HTML5模板
境外旅行服务机构HTML5网站模板
响应式旅游旅行资讯类网站模板
环球旅行社服务网站模板
旅行社旅行机构服务网站模板
一站式旅行服务网站模板
最后送大家一首诗:
山高路远坑深,
大军纵横驰奔,
谁敢横刀立马?
惟有点赞加关注大军。