TIKA - 引用的 API

用户可以使用 Tika Facade 类将 Tika 嵌入到他们的应用程序中。它具有探索 Tika 所有功能的方法。由于它是一个 Facade 类,Tika 抽象了其功能背后的复杂性。除此之外,用户还可以在他们的应用程序中使用 Tika 的各种类。

User Application

Tika 类(facade)

这是 Tika 库中最突出的类,遵循 Facade 设计模式。因此,它抽象了所有内部实现并提供简单的方法来访问 Tika 功能。下表列出了此类的构造函数及其描述。

− org.apache.tika

− Tika

Sr.No. 构造函数 &描述
1

Tika ()

使用默认配置并构造 Tika 类。

2

Tika (Detector 检测器)

通过接受检测器实例作为参数创建 Tika 外观

3

Tika (Detector 检测器,Parser 解析器)

通过接受检测器和解析器实例作为参数创建 Tika 外观。

4

Tika (Detector检测器、Parser解析器、Translator翻译器)

通过接受检测器、解析器和翻译器实例作为参数来创建Tika外观。

5

Tika (TikaConfig配置)

通过接受TikaConfig类的对象作为参数来创建Tika外观。

方法和说明

以下是Tika外观类的重要方法 −

Sr.No. 方法和说明
1

parseToString (File file)

此方法及其所有变体解析作为参数传递的文件并以字符串格式返回提取的文本内容。默认情况下,此字符串参数的长度是有限的。

2

int getMaxStringLength ()

返回 parseToString 方法返回的字符串的最大长度。

3

void setMaxStringLength (int maxStringLength)

设置 parseToString 方法返回的字符串的最大长度。

4

Reader parse (File file)

此方法及其所有变体解析文件作为参数传递,并以 java.io.reader 对象的形式返回提取的文本内容。

5

String detect (InputStream stream, Metadata metadata)

此方法及其所有变体接受 InputStream 对象和 Metadata 对象作为参数,检测给定文档的类型,并将文档类型名称作为 String 对象返回。此方法抽象了 Tika 使用的检测机制。

6

String translate (InputStream text, String targetLanguage)

此方法及其所有变体接受 InputStream 对象和表示我们希望文本翻译的语言的字符串,并将给定的文本翻译成所需的语言,尝试自动检测源语言。

解析器接口

这是由 Tika 包的所有解析器类实现的接口。

− org.apache.tika.parser

接口 − 解析器

方法和说明

以下是 Tika 解析器接口的重要方法 −

Sr.No. 方法和描述
1

parse (InputStream stream, ContentHandler handler, Metadata metadata, ParseContext context)

此方法将给定的文档解析为一系列 XHTML 和 SAX 事件。解析后,它将提取的文档内容放置在 ContentHandler 类的对象中,将元数据放置在 Metadata 类的对象中。

Metadata 类

此类实现各种接口,例如 CreativeCommons、Geographic、HttpHeaders、Message、MSOffice、ClimateForcast、TIFF、TikaMetadataKeys、TikaMimeKeys、Serializable,以支持各种数据模型。下表列出了此类的构造函数和方法及其说明。

package − org.apache.tika.metadata

class − 元数据

Sr.No. 构造函数和说明
1

Metadata()

构造一个新的空元数据。

Sr.No. 方法和描述
1

add (Property property, String value)

向给定文档添加元数据属性/值映射。使用此函数,我们可以将值设置为属性。

2

add (String name, String value)

向给定文档添加元数据属性/值映射。使用此方法,我们可以将新名称值设置为文档的现有元数据。

3

String get (Property property)

返回给定元数据属性的值(如果有)。

4

String get(String name)

返回给定元数据名称的值(如果有)。

5

Date getDate(Property property)

返回 Date 元数据属性的值。

6

String[] getValues(Property property)

返回元数据的所有值属性。

7

String[] getValues (String name)

返回给定元数据名称的所有值。

8

String[] names()

返回元数据对象中所有元数据元素的名称。

9

set (Property property, Date date)

设置给定元数据属性的日期值

10

set(Property property, String[] values)

将多个值设置为元数据属性。

语言标识符类

此类标识给定内容的语言。下表列出了此类的构造函数及其说明。

package − org.apache.tika.language

class − 语言标识符

Sr.No. 构造函数 &描述
1

LanguageIdentifier(LanguageProfile profile)

实例化语言标识符。在这里,您必须传递一个 LanguageProfile 对象作为参数。

2

LanguageIdentifier(String content)

此构造函数可以通过从文本内容传递字符串来实例化语言标识符。

Sr.No. 方法 &描述
1

String getLanguage ()

返回赋予当前 LanguageIdentifier 对象的语言。