Scrapy - 其他设置

下表显示 Scrapy 的其他设置 −

Sr.No 设置 &描述
1

AJAXCRAWL_ENABLED

用于启用大型抓取。

默认值:False

2

AUTOTHROTTLE_DEBUG

启用后可查看实时节流参数的调整情况,显示每个收到的响应的统计信息。

默认值:False

3

AUTOTHROTTLE_ENABLED

用于启用 AutoThrottle扩展。

默认值:False

4

AUTOTHROTTLE_MAX_DELAY

用于设置高延迟情况下下载的最大延迟。

默认值:60.0

5

AUTOTHROTTLE_START_DELAY

用于设置下载的初始延迟。

默认值:5.0

6

AUTOTHROTTLE_TARGET_CONCURRENCY

它定义了 Scrapy 并行发送到远程站点的平均请求数。

默认值:1.0

7

CLOSESPIDER_ERRORCOUNT

它定义了在关闭蜘蛛之前应收到的错误总数。

默认值:0

8

CLOSESPIDER_ITEMCOUNT

它定义了关闭蜘蛛之前的项目总数。

默认值: 0

9

CLOSESPIDER_PAGECOUNT

它定义了蜘蛛关闭前抓取的最大响应数。

默认值:0

10

CLOSESPIDER_TIMEOUT

它定义了蜘蛛关闭的时间(以秒为单位)。

默认值:0

11

COMMANDS_MODULE

当您想要在项目中添加自定义命令时使用它。

默认值:''

12

COMPRESSION_ENABLED

表示压缩中间件已启用。

默认值:True

13

COOKIES_DEBUG

如果设置为 true,则记录请求中发送的所有 cookie 以及响应中收到的所有 cookie。

默认值:False

14

COOKIES_ENABLED

表示启用 cookie 中间件并将其发送到 Web 服务器。

默认值:True

15

FILES_EXPIRES

定义文件过期的延迟时间。

默认值:90 天

16

FILES_RESULT_FIELD

当您想对已处理的文件使用其他字段名称时,请设置该字段。

17

FILES_STORE

通过将其设置为有效值,用于存储下载的文件。

18

FILES_STORE_S3_ACL

用于修改存储在 Amazon S3 bucket 中的文件的 ACL 策略。

默认值:private

19

FILES_URLS_FIELD

当您想为文件 URL 使用其他字段名称时设置。

20

HTTPCACHE_ALWAYS_STORE

如果启用此设置,Spider 将彻底缓存页面。

默认值:False

21

HTTPCACHE_DBM_MODULE

用于DBM存储后端的数据库模块。

默认值:'anydbm'

22

HTTPCACHE_DIR

用于启用和存储HTTP缓存的目录。

默认值:'httpcache'

23

HTTPCACHE_ENABLED

表示启用HTTP缓存。

默认值:False

24

HTTPCACHE_EXPIRATION_SECS

用于设置HTTP缓存的过期时间。

默认值:0

25

HTTPCACHE_GZIP

此设置如果设置为true,所有缓存的数据将使用gzip压缩。

默认值:False

26

HTTPCACHE_IGNORE_HTTP_CODES

它规定HTTP响应不应使用HTTP代码进行缓存。

默认值: []

27

HTTPCACHE_IGNORE_MISSING

如果启用此设置,则如果在缓存中找不到请求,请求将被忽略。

默认值:False

28

HTTPCACHE_IGNORE_RESPONSE_CACHE_CONTROLS

这是一个包含要忽略的缓存控件的列表。

默认值:[]

29

HTTPCACHE_IGNORE_SCHEME

它规定 HTTP 响应应该不能使用 URI 方案进行缓存。

默认值:['file']

30

HTTPCACHE_POLICY

它定义一个实现缓存策略的类。

默认值:'scrapy.extensions.httpcache.DummyPolicy'

31

HTTPCACHE_STORAGE

这是一个实现缓存存储的类。

默认值:'scrapy.extensions.httpcache.FilesystemCacheStorage'

32

HTTPERROR_ALLOWED_CODES

这是一个列表,其中所有响应都以非 200 状态代码传递。

默认值:[]

33

HTTPERROR_ALLOW_ALL

启用此设置后,所有响应都会传递,无论其状态代码如何。

默认值:False

34

HTTPPROXY_AUTH_ENCODING

用于对 HttpProxyMiddleware 上的代理进行身份验证。

默认值:"latin-1"

35

IMAGES_EXPIRES

定义图像过期的延迟时间。

默认值:90 天

36

IMAGES_MIN_HEIGHT

用于使用最小值删除太小的图像大小。

37

IMAGES_MIN_WIDTH

用于删除使用最小尺寸过小的图像。

38

IMAGES_RESULT_FIELD

当您想对处理后的图像使用其他字段名称时,请设置它。

39

IMAGES_STORE

用于通过将其设置为有效值来存储下载的图像。

40

IMAGES_STORE_S3_ACL

用于修改存储在Amazon S3 bucket中的图片的ACL策略。

默认值:private

41

IMAGES_THUMBS

设置为创建下载图片的缩略图。

42

IMAGES_URLS_FIELD

当您想为图片 URL 使用其他字段名称时,请设置该设置。

43

MAIL_FROM

发件人使用此设置发送电子邮件。

默认值:'scrapy@localhost'

44

MAIL_HOST

它是用于发送电子邮件的 SMTP 主机。

默认值:'localhost'

45

MAIL_PASS

它是用于对SMTP进行认证。

默认值:None

46

MAIL_PORT

用于发送邮件的SMTP端口。

默认值:25

47

MAIL_SSL

用于实现使用SSL加密连接的连接。

默认值:False

48

MAIL_TLS

启用后,强制使用STARTTLS进行连接。

默认值: False

49

MAIL_USER

定义一个用户来验证SMTP。

默认值:None

50

METAREFRESH_ENABLED

表示启用了meta刷新中间件。

默认值:True

51

METAREFRESH_MAXDELAY

meta刷新重定向的最大延迟时间。

默认值: 100

52

REDIRECT_ENABLED

表示启用重定向中间件。

默认值:True

53

REDIRECT_MAX_TIMES

定义请求重定向的最大次数。

默认值:20

54

REFERER_ENABLED

表示启用了 referrer 中间件。

默认值:True

55

RETRY_ENABLED

表示启用了重试中间件。

默认值:True

56

RETRY_HTTP_CODES

定义要重试的 HTTP 代码。

默认值:[500, 502, 503, 504, 408]

57

RETRY_TIMES

定义重试的最大次数。

默认值:2

58

TELNETCONSOLE_HOST

定义 telnet 控制台必须监听的接口。

默认值:'127.0.0.1'

59

TELNETCONSOLE_PORT

定义用于 telnet 控制台的端口。

默认值:[6023, 6073]

scrapy_settings.html