Python 网页抓取入门

在第一章中,我们了解了网络抓取的全部内容。 在本章中,让我们看看如何使用 Python 实现网页抓取。


为什么使用 Python 进行网页抓取?

Python 是一种流行的网络抓取工具。 Python 编程语言还用于与网络安全、渗透测试以及数字取证应用程序相关的其他有用项目。 使用Python的基础编程,可以在不使用任何其他第三方工具的情况下执行网页抓取。

Python 编程语言越来越受欢迎,Python 非常适合网络抓取项目的原因如下 −

语法简单

与其他编程语言相比,Python 具有最简单的结构。 Python 的这一特性使测试更容易,开发人员可以更专注于编程。

内置模块

使用 Python 进行网络抓取的另一个原因是它拥有内置和外部有用的库。 我们可以通过使用 Python 作为编程基础来执行许多与网络抓取相关的实现。

开源编程语言

Python 得到社区的大力支持,因为它是一种开源编程语言。

应用范围广泛

Python 可用于各种编程任务,从小型 shell 脚本到企业 Web 应用程序。


Python 的安装

Python 发行版可用于 Windows、MAC 和 Unix/Linux 等平台。 我们只需要下载适用于我们平台的二进制代码来安装 Python。 但是,如果我们平台的二进制代码不可用,我们必须有一个 C 编译器,以便可以手动编译源代码。

我们可以通过如下方式在各种平台上安装 Python −

在 Unix 和 Linux 上安装 Python

您需要按照下面给出的步骤在 Unix/Linux 机器上安装 Python −

第 1 步 − 转到链接 https://www.python.org/downloads/

第 2 步 − 在上面的链接上下载适用于 Unix/Linux 的压缩源代码。

第 3 步 − 将文件提取到您的计算机上。

第 4 步 − 使用以下命令完成安装 −

run ./configure script
make
make install

您可以在标准位置 /usr/local/bin 找到安装的 Python,在 /usr/local/lib/pythonXX 找到它的库,其中 XX 是 Python 的版本。

在 Windows 上安装 Python

您需要按照下面给出的步骤在 Windows 机器上安装 Python −

第 1 步 − 转到链接 https://www.python.org/downloads/

第 2 步 − 下载 Windows 安装程序 python-XYZ.msi 文件,其中 XYZ 是我们需要安装的版本。

第 3 步 − 现在,将安装程序文件保存到本地计算机并运行 MSI 文件。

第 4 步 − 最后,运行下载的文件以调出 Python 安装向导。

在 Macintosh 上安装 Python

我们必须使用 Homebrew 在 Mac OS X 上安装 Python 3。Homebrew 很容易安装,而且是一个很棒的包安装程序。

Homebrew 也可以使用以下命令安装 −

$ ruby -e "$(curl -fsSL
https://raw.githubusercontent.com/Homebrew/install/master/install)"

要更新包管理器,我们可以使用以下命令 −

$ brew update

借助以下命令,我们可以在我们的MAC机器上安装Python3 −

$ brew install python3

设置 PATH 路径

您可以使用以下说明在各种环境中设置路径 −

在 Unix/Linux 上设置路径

使用以下命令使用各种命令 shell 设置路径 −

对于 csh shell

setenv PATH "$PATH:/usr/local/bin/python".

对于 bash shell (Linux)

ATH="$PATH:/usr/local/bin/python".

对于 sh 或 ksh shell

PATH="$PATH:/usr/local/bin/python".

在 Windows 上设置路径

要在 Windows 上设置路径,我们可以在命令提示符下使用路径 %path%;C:\Python 然后按 Enter。


运行 Python

我们可以使用以下三种方式中的任意一种来启动Python −

交互式解释器

提供命令行解释器或 shell 的操作系统(如 UNIX 和 DOS)可用于启动 Python。

我们可以在交互式解释器中开始编码,如下所示 −

第 1 步 − 在命令行输入python

第 2 步 − 然后,我们可以立即在交互式解释器中开始编码。

$python # Unix/Linux
or
python% # Unix/Linux
or
C:> python # Windows/DOS

命令行脚本

我们可以通过调用解释器在命令行中执行 Python 脚本。 可以这样理解 −

$python script.py # Unix/Linux
or
python% script.py # Unix/Linux
or
C: >python script.py # Windows/DOS

集成开发环境

如果系统有支持 Python 的 GUI 应用程序,我们也可以从 GUI 环境运行 Python。 下面给出一些在各种平台上支持Python的IDE −

UNIX IDE − UNIX,对于 Python,有 IDLE IDE。

Windows IDE − Windows 有 PythonWin IDE,它也有 GUI。

Macintosh IDE − Macintosh 有 IDLE IDE,可以从主网站下载 MacBinary 或 BinHex 文件。