Scrapy - 抓取的数据

描述

存储抓取的数据的最佳方式是使用 Feed 导出，这样可以确保使用多种序列化格式正确存储数据。JSON、JSON 行、CSV、XML 是序列化格式中支持的格式。可以使用以下命令存储数据 −

scrapy crawl dmoz -o data.json

此命令将创建一个 data.json 文件，其中包含 JSON 格式的抓取数据。此技术适用于少量数据。如果必须处理大量数据，则我们可以使用 Item Pipeline。与 data.json 文件一样，在 tutorial/pipelines.py 中创建项目时会设置一个保留文件。

报告错误

打印

关于

学习路线

W3Schools 在线教程提供的内容仅用于学习和测试，不保证内容的正确性。通过使用本站内容随之而来的风险与本站无关。

Copyright 2020-2024 关于我们 | 隐私条款 | 学习路线 | 京ICP备14045893号-9