概述
scrapy在命令启动之前,先设置好了各种配置文件。其中包括系统自带的默认配置文件,还有用户自定义的settings.py。其中还有一个日常开发中不怎么用的scrapy.cfg文件,这个文件是用来告诉scrapy用户自定义的settings.py文件在哪里的
关键文件
scrapy.cfg文件
默认配置文件:/scrapy/settings/default_settings.py
自己写的配置文件:/spider/myprojext/myprojext/settings.py
项目中settings对象的入口
在cmdline.py中get_project_settings函数是实例化settings的入口
get_project_settings的源码如下
def get_project_settings() -> Settings:
if ENVVAR not in os.environ: # 首先是判断ENVVAR在不在系统环境变量里面,没有的话就通过init_env来初始化
project = os.environ.get("SCRAPY_PROJECT", "default")
init_env(project) # 就是把这个设置进去 SCRAPY_SETTINGS_MODULE
settings = Settings()
settings_module_path = os.environ.get(ENVVAR) # ENVVAR = "SCRAPY_SETTINGS_MODULE"
if settings_module_path:
settings.setmodule(settings_module_path, priority="project") # 这里是添加自己的setting
# 有效的环境变量
valid_envvars = {
"CHECK",
"PROJECT",
"PYTHON_SHELL",
"SETTINGS_MODULE",
}
# 循环处理os.environ中的变量,把有效的重新赋给settings对象
scrapy_envvars = {
k[7:]: v
for k, v in os.environ.items()
if k.startswith("SCRAPY_") and k.replace("SCRAPY_", "") in valid_envvars
}
settings.setdict(scrapy_envvars, priority="project") # 最后把SCRAPY_SETTINGS_MODULE也添加到Settings中,取名叫 SETTINGS_MODULE
return settings
这段代码主要做了三件事:
1、判断os.environ里面是不是已经有ENVVAR了,如果没有,那就进行环境的初始化,调用init_env函数
2、获取到用户自定义的配置文件的地址后,把用户自定义的配置更新到settings对象里
3、把os.environ里面的呃其余的有效的变量,也赋值给settings对象
init_env
源码如下
def init_env(project: str = "default", set_syspath: bool = True) -> None:
"""Initialize environment to use command-line tool from inside a project
dir. This sets the Scrapy settings module and modifies the Python path to
be able to locate the project module.
往os.environ里设置了SCRAPY_SETTINGS_MODULE
往sys.path里设置了调用路径
"""
cfg = get_config()
if cfg.has_option("settings", project):
os.environ["SCRAPY_SETTINGS_MODULE"] = cfg.get("settings", project)
closest = closest_scrapy_cfg()
if closest:
projdir = str(Path(closest).parent)
if set_syspath and projdir not in sys.path: # 把cfg所在的文件夹添加到系统调用路径
sys.path.append(projdir)
这个函数总结下来就干了两件事:
1、往os.environ里赋值SCRAPY_SETTINGS_MODULE的值,而这个值来自于cfg对象。这里的cfg对象其实就是scrapy默认创建项目时的那个scrapy.cfg文件
2、往系统环境变量里添加本项目的路径。这里用到了closest_scrapy_cfg函数,这个函数就是返回最近的cfg文件所在的目录
get_config
用于读取scrapy.cfg文件,主要调用了ConfigParser对象。
def get_config(use_closest: bool = True) -> ConfigParser:
"""Get Scrapy config file as a ConfigParser"""
sources = get_sources(use_closest)
cfg = ConfigParser()
cfg.read(sources) # 尝试读取并解析一个包含文件名的可迭代对象,返回一个被成功解析的文件名列表。
return cfg
get_sources
这个函数罗列了一些scrapy.cfg文件有可能在的位置,然后给get_config函数去对应路径解析scrapy.cfg文件,在这个函数中,再次用到了closest_scrapy_cfg
def get_sources(use_closest: bool = True) -> list[str]:
xdg_config_home = (
os.environ.get("XDG_CONFIG_HOME") or Path("~/.config").expanduser()
)
sources = [
"/etc/scrapy.cfg",
r"c:\scrapy\scrapy.cfg",
str(Path(xdg_config_home) / "scrapy.cfg"),
str(Path("~/.scrapy.cfg").expanduser()),
]
if use_closest:
sources.append(closest_scrapy_cfg())
return sources
closest_scrapy_cfg
这个函数从程序的启动文件所在的目录找起,如果找到就返回这个文件的绝对路径,如果找不到就网上一层,继续查找。知道找到根目录
# 如何在项目根目录下查找配置文件
def closest_scrapy_cfg(
path: str | os.PathLike = ".",
prevpath: str | os.PathLike | None = None,
) -> str:
"""Return the path to the closest scrapy.cfg file by traversing the current
directory and its parents
"""
if prevpath is not None and str(path) == str(prevpath):
return ""
path = Path(path).resolve() # 做了实验,在哪里启动的程序,这个.就是那个文件夹, Path就是解析成路径。resolve是将路径绝对化,解析任何符号链接,就是生成这个路径的字符串
cfgfile = path / "scrapy.cfg"
if cfgfile.exists():
return str(cfgfile)
return closest_scrapy_cfg(path.parent, path) # 递归的方式查找,网上找一层
遗留问题
pipeline中为什么配置类了更大的的数值,就会优先通过
如何设置os.env
如何读取cfg文件