Scrapy - 其他设置
下表显示 Scrapy 的其他设置 −
Sr.No | 设置 &描述 |
---|---|
1 | AJAXCRAWL_ENABLED 用于启用大型抓取。 默认值:False |
2 | AUTOTHROTTLE_DEBUG 启用后可查看实时节流参数的调整情况,显示每个收到的响应的统计信息。 默认值:False |
3 | AUTOTHROTTLE_ENABLED 用于启用 AutoThrottle扩展。 默认值:False |
4 | AUTOTHROTTLE_MAX_DELAY 用于设置高延迟情况下下载的最大延迟。 默认值:60.0 |
5 | AUTOTHROTTLE_START_DELAY 用于设置下载的初始延迟。 默认值:5.0 |
6 | AUTOTHROTTLE_TARGET_CONCURRENCY 它定义了 Scrapy 并行发送到远程站点的平均请求数。 默认值:1.0 |
7 | CLOSESPIDER_ERRORCOUNT 它定义了在关闭蜘蛛之前应收到的错误总数。 默认值:0 |
8 | CLOSESPIDER_ITEMCOUNT 它定义了关闭蜘蛛之前的项目总数。 默认值: 0 |
9 | CLOSESPIDER_PAGECOUNT 它定义了蜘蛛关闭前抓取的最大响应数。 默认值:0 |
10 | CLOSESPIDER_TIMEOUT 它定义了蜘蛛关闭的时间(以秒为单位)。 默认值:0 |
11 | COMMANDS_MODULE 当您想要在项目中添加自定义命令时使用它。 默认值:'' |
12 | COMPRESSION_ENABLED 表示压缩中间件已启用。 默认值:True |
13 | COOKIES_DEBUG 如果设置为 true,则记录请求中发送的所有 cookie 以及响应中收到的所有 cookie。 默认值:False |
14 | COOKIES_ENABLED 表示启用 cookie 中间件并将其发送到 Web 服务器。 默认值:True |
15 | FILES_EXPIRES 定义文件过期的延迟时间。 默认值:90 天 |
16 | FILES_RESULT_FIELD 当您想对已处理的文件使用其他字段名称时,请设置该字段。 |
17 | FILES_STORE 通过将其设置为有效值,用于存储下载的文件。 |
18 | FILES_STORE_S3_ACL 用于修改存储在 Amazon S3 bucket 中的文件的 ACL 策略。 默认值:private |
19 | FILES_URLS_FIELD 当您想为文件 URL 使用其他字段名称时设置。 |
20 | HTTPCACHE_ALWAYS_STORE 如果启用此设置,Spider 将彻底缓存页面。 默认值:False |
21 | HTTPCACHE_DBM_MODULE 用于DBM存储后端的数据库模块。 默认值:'anydbm' |
22 | HTTPCACHE_DIR 用于启用和存储HTTP缓存的目录。 默认值:'httpcache' |
23 | HTTPCACHE_ENABLED 表示启用HTTP缓存。 默认值:False |
24 | HTTPCACHE_EXPIRATION_SECS 用于设置HTTP缓存的过期时间。 默认值:0 |
25 | HTTPCACHE_GZIP 此设置如果设置为true,所有缓存的数据将使用gzip压缩。 默认值:False |
26 | HTTPCACHE_IGNORE_HTTP_CODES 它规定HTTP响应不应使用HTTP代码进行缓存。 默认值: [] |
27 | HTTPCACHE_IGNORE_MISSING 如果启用此设置,则如果在缓存中找不到请求,请求将被忽略。 默认值:False |
28 | HTTPCACHE_IGNORE_RESPONSE_CACHE_CONTROLS 这是一个包含要忽略的缓存控件的列表。 默认值:[] |
29 | HTTPCACHE_IGNORE_SCHEME 它规定 HTTP 响应应该不能使用 URI 方案进行缓存。 默认值:['file'] |
30 | HTTPCACHE_POLICY 它定义一个实现缓存策略的类。 默认值:'scrapy.extensions.httpcache.DummyPolicy' |
31 | HTTPCACHE_STORAGE 这是一个实现缓存存储的类。 默认值:'scrapy.extensions.httpcache.FilesystemCacheStorage' |
32 | HTTPERROR_ALLOWED_CODES 这是一个列表,其中所有响应都以非 200 状态代码传递。 默认值:[] |
33 | HTTPERROR_ALLOW_ALL 启用此设置后,所有响应都会传递,无论其状态代码如何。 默认值:False |
34 | HTTPPROXY_AUTH_ENCODING 用于对 HttpProxyMiddleware 上的代理进行身份验证。 默认值:"latin-1" |
35 | IMAGES_EXPIRES 定义图像过期的延迟时间。 默认值:90 天 |
36 | IMAGES_MIN_HEIGHT 用于使用最小值删除太小的图像大小。 |
37 | IMAGES_MIN_WIDTH 用于删除使用最小尺寸过小的图像。 |
38 | IMAGES_RESULT_FIELD 当您想对处理后的图像使用其他字段名称时,请设置它。 |
39 | IMAGES_STORE 用于通过将其设置为有效值来存储下载的图像。 |
40 | IMAGES_STORE_S3_ACL 用于修改存储在Amazon S3 bucket中的图片的ACL策略。 默认值:private |
41 | IMAGES_THUMBS 设置为创建下载图片的缩略图。 |
42 | IMAGES_URLS_FIELD 当您想为图片 URL 使用其他字段名称时,请设置该设置。 |
43 | MAIL_FROM 发件人使用此设置发送电子邮件。 默认值:'scrapy@localhost' |
44 | MAIL_HOST 它是用于发送电子邮件的 SMTP 主机。 默认值:'localhost' |
45 | MAIL_PASS 它是用于对SMTP进行认证。 默认值:None |
46 | MAIL_PORT 用于发送邮件的SMTP端口。 默认值:25 |
47 | MAIL_SSL 用于实现使用SSL加密连接的连接。 默认值:False |
48 | MAIL_TLS 启用后,强制使用STARTTLS进行连接。 默认值: False |
49 | MAIL_USER 定义一个用户来验证SMTP。 默认值:None |
50 | METAREFRESH_ENABLED 表示启用了meta刷新中间件。 默认值:True |
51 | METAREFRESH_MAXDELAY meta刷新重定向的最大延迟时间。 默认值: 100 |
52 | REDIRECT_ENABLED 表示启用重定向中间件。 默认值:True |
53 | REDIRECT_MAX_TIMES 定义请求重定向的最大次数。 默认值:20 |
54 | REFERER_ENABLED 表示启用了 referrer 中间件。 默认值:True |
55 | RETRY_ENABLED 表示启用了重试中间件。 默认值:True |
56 | RETRY_HTTP_CODES 定义要重试的 HTTP 代码。 默认值:[500, 502, 503, 504, 408] |
57 | RETRY_TIMES 定义重试的最大次数。 默认值:2 |
58 | TELNETCONSOLE_HOST 定义 telnet 控制台必须监听的接口。 默认值:'127.0.0.1' |
59 | TELNETCONSOLE_PORT 定义用于 telnet 控制台的端口。 默认值:[6023, 6073] |