Scrapy - 设置

描述

可以使用 Scrapy 设置修改 Scrapy 组件的行为。如果您有多个 Scrapy 项目，设置还可以选择当前处于活动状态的 Scrapy 项目。

指定设置

当您抓取网站时，您必须通知 Scrapy 您正在使用哪个设置。为此，应使用环境变量 SCRAPY_SETTINGS_MODULE，其值应采用 Python 路径语法。

填充设置

下表显示了一些填充设置 − 的机制

Sr.No	机制与说明
1	命令行选项此处，传递的参数通过覆盖其他选项具有最高优先级。 -s 用于覆盖一个或多个设置。 scrapy crawl myspider -s LOG_FILE = scrapy.log
2	每个蜘蛛的设置蜘蛛可以使用属性 custom_settings 拥有自己的设置，以覆盖项目设置。 class DemoSpider(scrapy.Spider): name = 'demo' custom_settings = { 'SOME_SETTING': 'some value', }
3	项目设置模块在这里，您可以填充自定义设置，例如在 settings.py 文件中添加或修改设置。
4	每个命令的默认设置每个 Scrapy 工具命令在 default_settings 属性中定义自己的设置，以覆盖全局默认设置。
5	默认全局设置这些设置位于 scrapy.settings.default_settings 模块中。

访问设置

它们可通过 self.settings 获得，并在基础蜘蛛被加载后在基础蜘蛛中设置已初始化。

以下示例演示了这一点。

class DemoSpider(scrapy.Spider): 
   name = 'demo' 
   start_urls = ['http://example.com']  
   def parse(self, response): 
      print("Existing settings: %s" % self.settings.attributes.keys())

要在初始化蜘蛛之前使用设置，您必须在蜘蛛的 _init_() 方法中重写 from_crawler 方法。您可以通过传递给 from_crawler 方法的属性 scrapy.crawler.Crawler.settings 来访问设置。

以下示例演示了这一点。

class MyExtension(object): 
   def __init__(self, log_is_enabled = False): 
      if log_is_enabled: 
         print("Enabled log") 
         @classmethod 
   def from_crawler(cls, crawler): 
      settings = crawler.settings 
      return cls(settings.getbool('LOG_ENABLED'))

设置名称的理由

设置名称作为其配置的组件的前缀添加。例如，对于 robots.txt 扩展，设置名称可以是 ROBOTSTXT_ENABLED、ROBOTSTXT_OBEY、ROBOTSTXT_CACHEDIR 等。

内置设置参考

下表显示了 Scrapy 的内置设置 −

Sr.No	设置 &描述
1	AWS_ACCESS_KEY_ID 用于访问Amazon Web Services。默认值：无
2	AWS_SECRET_ACCESS_KEY 用于访问Amazon Web Services。默认值：无
3	BOT_NAME 用于构造User-Agent的bot名称。默认值： 'scrapybot'
4	CONCURRENT_ITEMS 用于并行处理的项目处理器中现有项目的最大数量。默认值：100
5	CONCURRENT_REQUESTS Scrapy 下载器执行的现有请求的最大数量。默认值：16
6	CONCURRENT_REQUESTS_PER_DOMAIN 最大数量对任何单个域同时执行的现有请求数。默认值：8
7	CONCURRENT_REQUESTS_PER_IP 对任何单个 IP 同时执行的现有请求的最大数量。默认值：0
8	DEFAULT_ITEM_CLASS 用于表示项目的类。默认值：'scrapy.item.Item'
9	DEFAULT_REQUEST_HEADERS Scrapy 的 HTTP 请求默认使用 header。默认值 − { 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9, /;q=0.8', 'Accept-Language': 'en', }
10	DEPTH_LIMIT 蜘蛛抓取任意站点的最大深度。默认值：0
11	DEPTH_PRIORITY 这是一个整数，用于根据深度改变请求的优先级。默认值：0
12	DEPTH_STATS 它声明是否收集深度统计数据。默认值：True
13	DEPTH_STATS_VERBOSE 启用此设置后，将收集每个详细深度的统计数据中的请求数。默认值：False
14	DNSCACHE_ENABLED 用于启用内存缓存中的DNS。默认值：True
15	DNSCACHE_SIZE 定义内存缓存中的DNS大小。默认值：10000
16	DNS_TIMEOUT 用于设置DNS处理查询的超时时间。默认值：60
17	DOWNLOADER 用于抓取过程的下载器。默认值：'scrapy.core.downloader.Downloader'
18	DOWNLOADER_MIDDLEWARES 保存下载器中间件及其顺序的字典。默认值：{}
19	DOWNLOADER_MIDDLEWARES_BASE 保存默认启用的下载器中间件的字典。默认值− { 'scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware': 100, }
20	DOWNLOADER_STATS 此设置用于启用下载器统计信息。默认值：True
21	DOWNLOAD_DELAY 它定义下载器从网站下载页面之前的总时间。默认值：0
22	DOWNLOAD_HANDLERS 这是一个带有下载处理程序的字典。默认值：{}
23	DOWNLOAD_HANDLERS_BASE 这是一个带有下载处理程序的字典，默认情况下启用。默认值 − { 'file': 'scrapy.core.downloader.handlers.file.FileDownloadHandler', }
24	DOWNLOAD_TIMEOUT 这是下载程序在超时前等待的总时间。默认值： 180
25	DOWNLOAD_MAXSIZE 这是下载器下载的最大响应大小。默认值：1073741824 (1024MB)
26	DOWNLOAD_WARNSIZE 它定义下载器警告的响应大小。默认值：33554432 (32MB)
27	DUPEFILTER_CLASS 用于检测和过滤重复请求的类。默认值：'scrapy.dupefilters.RFPDupeFilter'
28	DUPEFILTER_DEBUG 此设置为 true 时记录所有重复过滤器。默认值：False
29	EDITOR 用于使用 edit 命令编辑蜘蛛。默认值：取决于环境
30	EXTENSIONS 这是一个具有在项目中启用的扩展的字典。默认值：{}
31	EXTENSIONS_BASE 这是一个具有内置扩展的字典。默认值：{ 'scrapy.extensions.corestats.CoreStats': 0,
32	FEED_TEMPDIR 用于设置存储爬虫临时文件的自定义文件夹的目录。
33	ITEM_PIPELINES 具有管道的字典。默认值：{}
34	LOG_ENABLED 定义是否启用日志记录。默认值：True
35	LOG_ENCODING 定义要使用的编码类型日志记录。默认值：'utf-8'
36	LOG_FILE 这是用于日志输出的文件的名称。默认值：无
37	LOG_FORMAT 这是一个字符串，可用于格式化日志消息。默认值：'%(asctime)s [%(name)s] %(levelname)s: %(message)s'
38	LOG_DATEFORMAT 这是一个字符串，可以使用该字符串格式化日期/时间。默认值：'%Y-%m-%d %H:%M:%S'
39	LOG_LEVEL 它定义最低日志级别。默认值：'DEBUG'
40	LOG_STDOUT 如果将此设置设置为 true，则所有流程输出都将出现在日志中。默认值：False
41	MEMDEBUG_ENABLED 它定义是否启用内存调试。默认值：False
42	MEMDEBUG_NOTIFY 定义启用内存调试时发送到特定地址的内存报告。默认值：[]
43	MEMUSAGE_ENABLED 定义当 Scrapy 进程超出内存限制时是否启用内存使用。默认值：False
44	MEMUSAGE_LIMIT_MB 定义内存的最大限制（以兆字节为单位）允许。默认值：0
45	MEMUSAGE_CHECK_INTERVAL_SECONDS 通过设置间隔长度来检查当前内存使用情况。默认值：60.0
46	MEMUSAGE_NOTIFY_MAIL 当内存达到限制时，使用电子邮件列表通知。默认值：False
47	MEMUSAGE_REPORT 定义是否在关闭每个蜘蛛时发送内存使用情况报告。默认值：False
48	MEMUSAGE_WARNING_MB 它定义了在发送警告之前允许的总内存。默认值：0
49	NEWSPIDER_MODULE 它是一个使用 genspider 命令创建新蜘蛛的模块。默认值：''
50	RANDOMIZE_DOWNLOAD_DELAY 它定义了 Scrapy 在从站点下载请求时等待的随机时间。默认值：True
51	REACTOR_THREADPOOL_MAXSIZE 它定义了反应器线程池的最大大小。默认值：10
52	REDIRECT_MAX_TIMES 它定义了请求可以重定向的次数。默认值：20
53	REDIRECT_PRIORITY_ADJUST 设置此设置后，会调整请求的重定向优先级。默认值： +2
54	RETRY_PRIORITY_ADJUST 设置后，此设置会调整请求的重试优先级。默认值：-1
55	ROBOTSTXT_OBEY 设置为 true 时，Scrapy 会遵守 robots.txt 策略。默认值：False
56	SCHEDULER 它定义用于抓取的调度程序目的。默认值：'scrapy.core.scheduler.Scheduler'
57	SPIDER_CONTRACTS 这是项目中的字典，具有蜘蛛契约，用于测试蜘蛛。默认值：{}
58	SPIDER_CONTRACTS_BASE 它是一个保存 Scrapy 合约的字典，在 Scrapy 中默认启用。默认值 − { 'scrapy.contracts.default.UrlContract' : 1, 'scrapy.contracts.default.ReturnsContract': 2, }
59	SPIDER_LOADER_CLASS 它定义了一个实现 SpiderLoader API 来加载蜘蛛的类。默认值：'scrapy.spiderloader.SpiderLoader'
60	SPIDER_MIDDLEWARES 它是一个包含蜘蛛中间件的字典。默认值：{}
61	SPIDER_MIDDLEWARES_BASE 它是一个包含蜘蛛中间件的字典，在 Scrapy 中默认启用。默认值 − { 'scrapy.spidermiddlewares.httperror.HttpErrorMiddleware': 50, }
62	SPIDER_MODULES 这是包含 Scrapy 将要查找的蜘蛛的模块列表。默认值：[]
63	STATS_CLASS 这是一个实现 Stats Collector API 来收集统计数据的类。默认值：'scrapy.statscollectors.MemoryStatsCollector'
64	STATS_DUMP 此设置设置为 true 时，会将统计数据转储到日志中。默认值：True
65	STATSMAILER_RCPTS 一旦蜘蛛完成抓取，Scrapy 将使用此设置发送统计信息。默认值：[]
66	TELNETCONSOLE_ENABLED 它定义是否启用 telnetconsole。默认值：True
67	TELNETCONSOLE_PORT 它定义 telnet 控制台的端口。默认值：[6023, 6073]
68	TEMPLATES_DIR 这是一个包含可在创建新项目时使用的模板的目录。默认值：scrapy 模块内的 templates 目录
69	URLLENGTH_LIMIT 它定义了允许抓取的 URL 的最大长度限制。默认值：2083
70	USER_AGENT 它定义在抓取网站时使用的用户代理。默认值："Scrapy/VERSION (+http://scrapy.org)"

有关其他 Scrapy 设置，请转到此链接。

Sr.No	设置 &描述
1	AWS_ACCESS_KEY_ID 用于访问Amazon Web Services。默认值：无
2	AWS_SECRET_ACCESS_KEY 用于访问Amazon Web Services。默认值：无
3	BOT_NAME 用于构造User-Agent的bot名称。默认值： 'scrapybot'
4	CONCURRENT_ITEMS 用于并行处理的项目处理器中现有项目的最大数量。默认值：100
5	CONCURRENT_REQUESTS Scrapy 下载器执行的现有请求的最大数量。默认值：16
6	CONCURRENT_REQUESTS_PER_DOMAIN 最大数量对任何单个域同时执行的现有请求数。默认值：8
7	CONCURRENT_REQUESTS_PER_IP 对任何单个 IP 同时执行的现有请求的最大数量。默认值：0
8	DEFAULT_ITEM_CLASS 用于表示项目的类。默认值：'scrapy.item.Item'
9	DEFAULT_REQUEST_HEADERS Scrapy 的 HTTP 请求默认使用 header。默认值 − { 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9, /;q=0.8', 'Accept-Language': 'en', }
10	DEPTH_LIMIT 蜘蛛抓取任意站点的最大深度。默认值：0
11	DEPTH_PRIORITY 这是一个整数，用于根据深度改变请求的优先级。默认值：0
12	DEPTH_STATS 它声明是否收集深度统计数据。默认值：True
13	DEPTH_STATS_VERBOSE 启用此设置后，将收集每个详细深度的统计数据中的请求数。默认值：False
14	DNSCACHE_ENABLED 用于启用内存缓存中的DNS。默认值：True
15	DNSCACHE_SIZE 定义内存缓存中的DNS大小。默认值：10000
16	DNS_TIMEOUT 用于设置DNS处理查询的超时时间。默认值：60
17	DOWNLOADER 用于抓取过程的下载器。默认值：'scrapy.core.downloader.Downloader'
18	DOWNLOADER_MIDDLEWARES 保存下载器中间件及其顺序的字典。默认值：{}
19	DOWNLOADER_MIDDLEWARES_BASE 保存默认启用的下载器中间件的字典。默认值− { 'scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware': 100, }
20	DOWNLOADER_STATS 此设置用于启用下载器统计信息。默认值：True
21	DOWNLOAD_DELAY 它定义下载器从网站下载页面之前的总时间。默认值：0
22	DOWNLOAD_HANDLERS 这是一个带有下载处理程序的字典。默认值：{}
23	DOWNLOAD_HANDLERS_BASE 这是一个带有下载处理程序的字典，默认情况下启用。默认值 − { 'file': 'scrapy.core.downloader.handlers.file.FileDownloadHandler', }
24	DOWNLOAD_TIMEOUT 这是下载程序在超时前等待的总时间。默认值： 180
25	DOWNLOAD_MAXSIZE 这是下载器下载的最大响应大小。默认值：1073741824 (1024MB)
26	DOWNLOAD_WARNSIZE 它定义下载器警告的响应大小。默认值：33554432 (32MB)
27	DUPEFILTER_CLASS 用于检测和过滤重复请求的类。默认值：'scrapy.dupefilters.RFPDupeFilter'
28	DUPEFILTER_DEBUG 此设置为 true 时记录所有重复过滤器。默认值：False
29	EDITOR 用于使用 edit 命令编辑蜘蛛。默认值：取决于环境
30	EXTENSIONS 这是一个具有在项目中启用的扩展的字典。默认值：{}
31	EXTENSIONS_BASE 这是一个具有内置扩展的字典。默认值：{ 'scrapy.extensions.corestats.CoreStats': 0,
32	FEED_TEMPDIR 用于设置存储爬虫临时文件的自定义文件夹的目录。
33	ITEM_PIPELINES 具有管道的字典。默认值：{}
34	LOG_ENABLED 定义是否启用日志记录。默认值：True
35	LOG_ENCODING 定义要使用的编码类型日志记录。默认值：'utf-8'
36	LOG_FILE 这是用于日志输出的文件的名称。默认值：无
37	LOG_FORMAT 这是一个字符串，可用于格式化日志消息。默认值：'%(asctime)s [%(name)s] %(levelname)s: %(message)s'
38	LOG_DATEFORMAT 这是一个字符串，可以使用该字符串格式化日期/时间。默认值：'%Y-%m-%d %H:%M:%S'
39	LOG_LEVEL 它定义最低日志级别。默认值：'DEBUG'
40	LOG_STDOUT 如果将此设置设置为 true，则所有流程输出都将出现在日志中。默认值：False
41	MEMDEBUG_ENABLED 它定义是否启用内存调试。默认值：False
42	MEMDEBUG_NOTIFY 定义启用内存调试时发送到特定地址的内存报告。默认值：[]
43	MEMUSAGE_ENABLED 定义当 Scrapy 进程超出内存限制时是否启用内存使用。默认值：False
44	MEMUSAGE_LIMIT_MB 定义内存的最大限制（以兆字节为单位）允许。默认值：0
45	MEMUSAGE_CHECK_INTERVAL_SECONDS 通过设置间隔长度来检查当前内存使用情况。默认值：60.0
46	MEMUSAGE_NOTIFY_MAIL 当内存达到限制时，使用电子邮件列表通知。默认值：False
47	MEMUSAGE_REPORT 定义是否在关闭每个蜘蛛时发送内存使用情况报告。默认值：False
48	MEMUSAGE_WARNING_MB 它定义了在发送警告之前允许的总内存。默认值：0
49	NEWSPIDER_MODULE 它是一个使用 genspider 命令创建新蜘蛛的模块。默认值：''
50	RANDOMIZE_DOWNLOAD_DELAY 它定义了 Scrapy 在从站点下载请求时等待的随机时间。默认值：True
51	REACTOR_THREADPOOL_MAXSIZE 它定义了反应器线程池的最大大小。默认值：10
52	REDIRECT_MAX_TIMES 它定义了请求可以重定向的次数。默认值：20
53	REDIRECT_PRIORITY_ADJUST 设置此设置后，会调整请求的重定向优先级。默认值： +2
54	RETRY_PRIORITY_ADJUST 设置后，此设置会调整请求的重试优先级。默认值：-1
55	ROBOTSTXT_OBEY 设置为 true 时，Scrapy 会遵守 robots.txt 策略。默认值：False
56	SCHEDULER 它定义用于抓取的调度程序目的。默认值：'scrapy.core.scheduler.Scheduler'
57	SPIDER_CONTRACTS 这是项目中的字典，具有蜘蛛契约，用于测试蜘蛛。默认值：{}
58	SPIDER_CONTRACTS_BASE 它是一个保存 Scrapy 合约的字典，在 Scrapy 中默认启用。默认值 − { 'scrapy.contracts.default.UrlContract' : 1, 'scrapy.contracts.default.ReturnsContract': 2, }
59	SPIDER_LOADER_CLASS 它定义了一个实现 SpiderLoader API 来加载蜘蛛的类。默认值：'scrapy.spiderloader.SpiderLoader'
60	SPIDER_MIDDLEWARES 它是一个包含蜘蛛中间件的字典。默认值：{}
61	SPIDER_MIDDLEWARES_BASE 它是一个包含蜘蛛中间件的字典，在 Scrapy 中默认启用。默认值 − { 'scrapy.spidermiddlewares.httperror.HttpErrorMiddleware': 50, }
62	SPIDER_MODULES 这是包含 Scrapy 将要查找的蜘蛛的模块列表。默认值：[]
63	STATS_CLASS 这是一个实现 Stats Collector API 来收集统计数据的类。默认值：'scrapy.statscollectors.MemoryStatsCollector'
64	STATS_DUMP 此设置设置为 true 时，会将统计数据转储到日志中。默认值：True
65	STATSMAILER_RCPTS 一旦蜘蛛完成抓取，Scrapy 将使用此设置发送统计信息。默认值：[]
66	TELNETCONSOLE_ENABLED 它定义是否启用 telnetconsole。默认值：True
67	TELNETCONSOLE_PORT 它定义 telnet 控制台的端口。默认值：[6023, 6073]
68	TEMPLATES_DIR 这是一个包含可在创建新项目时使用的模板的目录。默认值：scrapy 模块内的 templates 目录
69	URLLENGTH_LIMIT 它定义了允许抓取的 URL 的最大长度限制。默认值：2083
70	USER_AGENT 它定义在抓取网站时使用的用户代理。默认值："Scrapy/VERSION (+http://scrapy.org)"

Scrapy 教程

Scrapy 基本概念

Scrapy 实时项目

Scrapy 内置服务

Scrapy 有用资源

Scrapy - 设置

描述

指定设置

填充设置

访问设置

设置名称的理由

内置设置参考

颜色选择器

读后有收获微信请站长喝咖啡

错误报告

您的建议:

感谢您的帮助！