搜索引擎

简介

搜索引擎是指网页、新闻组、程序、图像等互联网资源的庞大数据库。它有助于在万维网上查找信息。

用户可以通过以关键字或短语的形式传递查询来搜索任何信息。 然后它在数据库中搜索相关信息并返回给用户。

internet_technologies_tutorial

搜索引擎组件

一般来说,搜索引擎由以下三个基本组成部分组成:

  1. 网络爬虫

  2. 数据库

  3. 搜索界面

网络爬虫

它也称为蜘蛛机器人。它是一个遍历网络收集信息的软件组件。

数据库

网络上的所有信息都存储在数据库中。 它包含大量的网络资源。

搜索界面

该组件是用户和数据库之间的接口。 它可以帮助用户在数据库中进行搜索。

搜索引擎工作

网络爬虫、数据库和搜索界面是搜索引擎的主要组成部分,它们实际上使搜索引擎发挥作用。 搜索引擎使用布尔表达式 AND、OR、NOT 来限制和扩大搜索结果。 以下是搜索引擎执行的步骤:

  • 搜索引擎在预定义数据库的索引中查找关键字,而不是直接到网络上搜索关键字。

  • 然后它使用软件在数据库中搜索信息。 该软件组件称为网络爬虫。

  • 网络爬虫找到页面后,搜索引擎就会显示相关网页作为结果。 这些检索到的网页一般包括页面标题、文本部分的大小、前几句话等。

这些搜索条件可能因搜索引擎而异。 检索到的信息根据关键词频率、信息相关性、链接等各种因素进行排名。

  • 用户可以单击任何搜索结果将其打开。

架构

搜索引擎架构由下面列出的三个基本层组成:

  • 内容收集和细化。

  • 搜索核心

  • 用户和应用程序界面

internet_technologies_tutorial

搜索引擎处理

索引过程

索引过程包括以下三个任务:

  • 文本获取

  • 文本转换

  • 索引创建

文本获取

它识别并存储用于索引的文档。

文本转换

它将文档转换为索引术语或特征。

创建索引

它采用文本转换创建的索引项并创建数据结构来支持快速搜索。

查询流程

查询过程包括以下三个任务:

  • 用户交互

  • 排名

  • 评估

用户交互

它支持创建和细化用户查询并显示结果。

排名

它使用查询和索引来创建文档的排名列表。

评估

它监控和衡量有效性和效率。 它是离线完成的。

示例

以下是国外比较流行的几个搜索引擎:

搜索引擎描述
Google它最初称为BackRub。是全球最受欢迎的搜索引擎。
Bing它由 Microsoft 于 2009 年推出。它是最新的基于网络的搜索引擎,也提供雅虎的结果。
Ask它于 1996 年推出,最初称为 Ask Jeeves。 它包括对匹配、字典和对话问题的支持。
AltaVista它由Digital Equipment Corporation于1995年推出。自2003年以来,它由雅虎技术提供支持。
AOL.Search由 Google 提供支持。
LYCOS根据 Media Matrix,它是排名前 5 的互联网门户网站和第 13 大在线资产。
Alexa它是亚马逊的子公司,用于提供网站流量信息。