TIKA - 环境
本章将带您了解在 Windows 和 Linux 上设置 Apache Tika 的过程。安装 Apache Tika 时需要用户管理。
系统要求
JDK | Java SE 2 JDK 1.6 或更高版本 |
内存 | 1 GB RAM(推荐) |
磁盘空间 | 无最低要求 |
操作系统版本 | Windows XP 或更高版本、Linux |
步骤 1:验证 Java安装
要验证 Java 安装,请打开控制台并执行以下 java 命令。
操作系统 | 任务 | 命令 |
---|---|---|
Windows | 打开命令控制台 | \>java –version |
Linux | 打开命令终端 | $java –version |
如果 Java 已正确安装在您的系统上,则您应该获得以下输出之一,具体取决于在您正在使用的平台上。
操作系统 | 输出 |
---|---|
Windows | Java version "1.7.0_60"
Java (TM) SE Run Time Environment (build 1.7.0_60-b19) Java Hotspot (TM) 64-bit Server VM (build 24.60-b09, mixed mode) |
Lunix | java version "1.7.0_25" Open JDK Runtime Environment (rhel-2.3.10.4.el6_4-x86_64) Open JDK 64-Bit Server VM (build 23.7-b01, mixed mode) |
我们假设本教程的读者在继续本教程之前已在其系统上安装了 Java 1.7.0_60。
如果您没有 Java SDK,请从 https://www.oracle.com/technetwork/java/javase/downloads/index.html 下载其当前版本并进行安装。
步骤 2:设置 Java 环境
设置 JAVA_HOME 环境变量以指向您的计算机上安装 Java 的基本目录位置。例如,
OS | 输出 |
---|---|
Windows | 将环境变量 JAVA_HOME 设置为 C:\ProgramFiles\java\jdk1.7.0_60 |
Linux | export JAVA_HOME = /usr/local/java-current |
将 Java 编译器位置的完整路径附加到系统路径。
OS | 输出 |
---|---|
Windows | 附加字符串; C:\Program Files\Java\jdk1.7.0_60\bin 到系统变量 PATH 的末尾。 |
Linux | export PATH = $PATH:$JAVA_HOME/bin/ |
按照上述说明从命令提示符验证命令 java-version。
步骤 3:设置 Apache Tika 环境
程序员可以使用以下方式将 Apache Tika 集成到他们的环境中
- 命令行,
- Tika API,
- Tika 的命令行界面 (CLI),
- Tika 的图形用户界面 (GUI),或
- 源代码。
对于任何一种方法,首先,您必须下载 Tika 的源代码。
您可以在 https://Tika.apache.org/download.html 找到 Tika 的源代码,您将在其中找到两个链接 −
apache-tika-1.6-src.zip − 它包含 Tika 的源代码,并且
Tika -app-1.6.jar − 它是一个包含 Tika 应用程序的 jar 文件。
下载这两个文件。下面是Tika官方网站的快照。

下载文件后,设置jar文件tika-app-1.6.jar的类路径。添加 jar 文件的完整路径,如下表所示。
OS | 输出 |
---|---|
Windows | 将字符串"C:\jars\Tika-app-1.6.jar"附加到用户环境变量 CLASSPATH |
Linux | Export CLASSPATH = $CLASSPATH − /usr/share/jars/Tika-app-1.6.tar − |
Apache 提供了 Tika 应用程序,一个使用 Eclipse 的图形用户界面 (GUI) 应用程序。
使用 Eclipse 构建 Tika-Maven
打开 eclipse 并创建一个新项目。
如果您的 Eclipse 中没有 Maven,请按照给定的步骤进行设置。
打开链接 https://wiki.eclipse.org/M2E_updatesite_and_gittags。您将在那里以表格格式找到 m2e 插件版本

选择最新版本,并在 p2 url 列中保存 url 的路径。
现在重新访问 eclipse,在菜单栏中,单击 帮助,然后从下拉菜单中选择 安装新软件

单击 添加 按钮,输入任何所需的名称,因为它是可选的。现在将保存的 URL 粘贴到 Location 字段中。
将添加一个新插件,其名称与您在上一步中选择的名称相同,选中它前面的复选框,然后单击 Next。

继续安装。完成后,重新启动 Eclipse。
现在右键单击项目,然后在 configure 选项中选择 convert to maven project。
出现一个用于创建新 pom 的新向导。输入 Group Id 为 org.apache.tika,输入 Tika 的最新版本,选择 packaging 为 jar,然后单击 Finish。
Maven 项目已成功安装,您的项目已转换为 Maven。现在您必须配置 pom.xml 文件。
配置 XML 文件
从 https://mvnrepository.com/artifact/org.apache.tika
获取 Tika maven 依赖项下面显示的是 Apache Tika 的完整 Maven 依赖项。
<dependency> <groupId>org.apache.Tika</groupId> <artifactId>Tika-core</artifactId> <version>1.6</version> <groupId>org.apache.Tika</groupId> <artifactId> Tika-parsers</artifactId> <version> 1.6</version> <groupId> org.apache.Tika</groupId> <artifactId>Tika</artifactId> <version>1.6</version> <groupId>org.apache.Tika</groupId> < artifactId>Tika-serialization</artifactId> < version>1.6< /version> < groupId>org.apache.Tika< /groupId> < artifactId>Tika-app< /artifactId> < version>1.6< /version> <groupId>org.apache.Tika</groupId> <artifactId>Tika-bundle</artifactId> <version>1.6</version> </dependency>