使用 Python 中的正则表达式和 urllib 解析网站

pythonserver side programmingprogramming

网页抓取是一种从网站提取数据的强大技术，可以实现自动数据提取和分析。得益于其强大的模块生态系统，Python 提供了多种工具来简化网页抓取工作。urllib 和 re(正则表达式)库是两个常用于在线抓取的库。

名为 urllib 的 Python 模块允许获取网页内容、处理 URL 和发送 HTTP 请求。它提供了一种连接 Web 服务器、打开 URL 和从网页获取 HTML 的简单方法。另一方面，内置 Python 模块 re 支持正则表达式，即用于构建搜索模式的字符序列。

在本文中，我们将专注于使用 urllib 和 re 来解析网站并检索相关数据。我们将研究两种仅依赖于这些库的方法，并展示如何使用正则表达式从网页的 HTML 内容中获取指定的数据。

让我们看一下这两个例子 -

使用 Urlib 和 Regex 解析网站以获取网站标题

在此示例中，可以使用 urllib 获取网页的 HTML 内容，并定义一个通过正则表达式收集数据的模式。可以利用正则表达式匹配并提取 HTML 文本中所需的信息，为简单的网页抓取操作提供快速且适应性强的解决方案。

算法

使用 Python 中的正则表达式和 urlib 解析网站的算法如下 -

步骤 1 - 导入所需的库 urlib 和 re。
步骤 2 - 在 urllib.request() 的帮助下使用 urlopen() 打开 url，并检索 HTML 内容。
步骤 3 - 为 <title> 定义正则表达式模式标签。
步骤 4 - 搜索模式的所有出现位置
步骤 5 - 运行循环并打印所有匹配的标题。

示例

# 导入所需的库
import urllib.request
import re

# 打开 URL 并检索 HTML 内容
link = "https://www.tutorialspoint.com/index.htm"
# 借助 urllib.request 的 urlopen() 获取 URL
retrieving = urllib.request.urlopen(link)
retrieved_content = retrieving.read().decode()

# 定义正则表达式模式
pattern = r"<title>(.*?)</title>"

# 搜索模式的所有出现位置
matches = re.findall(pattern, removed_content)

# 处理提取的数据
for match in matches:
   print("Title:", match)

输出

Title: Online Courses and eBooks Library

使用 Urlib 和 Regex 解析网站以获取网站的 URL

在此示例中，使用 urllib 获取网页的 HTML 内容，并使用 re 定义特定的正则表达式模式。该模式用于从 HTML 页面中取出特定数据项，如 URL 或其他结构化数据。为了根据需要提取信息，此方法允许定制和适应性。

算法

下面给出了使用 Python 中的 regex 和 urlib 解析网站的算法 -

步骤 1 - 要使用 urlib 和 regex，请导入所需的库 urlib 和 re。
步骤 2 - 借助 urllib.request()，使用 urlopen() 函数打开 URL，并检索 HTML 内容。
步骤 3 - 借助 href 标记为 url 定义正则表达式模式。
步骤 4 - 搜索模式的所有出现位置
步骤 5 - 运行循环并打印所有匹配标题。

示例

import urllib.request
import re

# 打开 URL 并检索 HTML 内容
link = "https://www.tutorialspoint.com/index.htm"
# 借助 urllib.request 的 urlopen() 获取 URL
retrieving = urllib.request.urlopen(link)
retrieved_content = retrieving.read().decode()

# 定义所需的正则表达式模式
pattern = r"<a href="(.*?)">"

# 搜索模式的所有出现位置
matches = re.findall(pattern, removed_content)

# 处理提取的数据后显示
for match in matches:
   print("URL:", match)

输出

URL: All the url’s of the website

结论

在本文中，我们分析了两个仅使用 urllib 和重新打包的 Python 网站解析示例。第一个示例展示了如何使用正则表达式提取网页标题。第二个示例演示了如何使用特定的正则表达式模式从锚标记中提取 URL。这些方法为需要从 HTML 文本中提取模式的简单 Web 抓取应用程序提供了快速解决方案。但是，请务必记住，当模式匹配需要更复杂的方法时，正则表达式可能不适合管理复杂的 HTML 结构或情况。

技术文章和资源

热门类别

使用 Python 中的正则表达式和 urllib 解析网站

使用 Urlib 和 Regex 解析网站以获取网站标题

算法

示例

输出

使用 Urlib 和 Regex 解析网站以获取网站的 URL

算法

示例

输出

结论

相关文章

颜色选择器

读后有收获微信请站长喝咖啡

错误报告

您的建议:

感谢您的帮助！