TIKA - 元数据提取

除了内容之外,Tika 还从文件中提取元数据。元数据只不过是文件附带的附加信息。如果我们考虑一个音频文件,艺术家姓名、专辑名称、标题都属于元数据。

XMP 标准

可扩展元数据平台 (XMP) 是处理和存储与文件内容相关的信息的标准。它由 Adobe Systems Inc 创建。XMP 提供了定义、创建和处理 元数据 的标准。您可以将此标准嵌入到多种文件格式中,例如 PDFJPEGJPEGGIFjpgHTML 等。

Property 类

Tika 使用 Property 类来遵循 XMP 属性定义。它提供 PropertyTypeValueType 枚举来捕获元数据的名称和值。

元数据类

此类实现各种接口,例如 ClimateForcast、CativeCommons、Geographic、TIFF 等,以提供对各种元数据模型的支持。此外,此类还提供各种方法来从文件中提取内容。

元数据名称

我们可以使用方法 names() 从文件的元数据对象中提取文件的所有元数据名称列表。它将所有名称作为字符串数组返回。使用元数据的名称,我们可以使用 get() 方法获取值。它接受元数据名称并返回与其关联的值。

String[] metadaNames = metadata.names();

String value = metadata.get(name);

使用 Parse 方法提取元数据

每当我们使用 parse() 解析文件时,我们都会传递一个空的元数据对象作为参数之一。此方法提取给定文件的元数据(如果该文件包含任何元数据),并将其放置在元数据对象中。因此,在使用 parse() 解析文件后,我们可以从该对象中提取元数据。

Parser parser = new AutoDetectParser();
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata(); //空元数据对象
FileInputStream inputstream = new FileInputStream(file);
ParseContext context = new ParseContext();
parser.parse(inputstream, handler, metadata, context);

// 现在这个元数据对象包含给定文件的提取元数据。
metadata.metadata.names();

下面给出了从文本文件中提取元数据的完整程序。

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;

import org.xml.sax.SAXException;

public class GetMetadata {
	
   public static void main(final String[] args) throws IOException, TikaException {
	
      //假设 boy.jpg 位于当前目录中
      File file = new File("boy.jpg");

      //解析器方法参数
      Parser parser = new AutoDetectParser();
      BodyContentHandler handler = new BodyContentHandler();
      Metadata metadata = new Metadata();
      FileInputStream inputstream = new FileInputStream(file);
      ParseContext context = new ParseContext();
      
      parser.parse(inputstream, handler, metadata, context);
      System.out.println(handler.toString());

      //获取所有元数据元素的列表 
      String[] metadataNames = metadata.names();

      for(String name : metadataNames) {		        
         System.out.println(name + ": " + metadata.get(name));
      }
   }
}

将上述代码保存为 GetMetadata.java,然后使用以下命令从命令提示符运行它 −

javac GetMetadata .java
java GetMetadata

下面给出的是 boy.jpg 的快照

jpg

如果执行上述程序,它将为您提供以下输出 −

X-Parsed-By: org.apache.tika.parser.DefaultParser
Resolution Units: inch
Compression Type: Baseline
Data Precision: 8 bits
Number of Components: 3
tiff:ImageLength: 3000
Component 2: Cb component: Quantization table 1, Sampling factors 1 horiz/1 vert
Component 1: Y component: Quantization table 0, Sampling factors 2 horiz/2 vert
Image Height: 3000 pixels
X Resolution: 300 dots
Original Transmission Reference:
   53616c7465645f5f2368da84ca932841b336ac1a49edb1a93fae938b8db2cb3ec9cc4dc28d7383f1
Image Width: 4000 pixels
IPTC-NAA record: 92 bytes binary data
Component 3: Cr component: Quantization table 1, Sampling factors 1 horiz/1 vert
tiff:BitsPerSample: 8
Application Record Version: 4
tiff:ImageWidth: 4000
Content-Type: image/jpeg
Y Resolution: 300 dots

我们还可以获取所需的元数据值。

添加新的元数据值

我们可以使用元数据类的 add() 方法添加新的元数据值。下面给出了此方法的语法。这里我们添加作者姓名。

metadata.add("author","Tutorials point");

Metadata 类具有预定义属性,包括从 ClimateForcast、CativeCommons、Geographic 等类继承的属性,以支持各种数据模型。下面显示的是从 Tika 实现的 TIFF 接口继承的 SOFTWARE 数据类型的用法,以遵循 TIFF 图像格式的 XMP 元数据标准。

metadata.add(Metadata.SOFTWARE,"ms paint");

下面给出了完整的程序,演示了如何向给定文件添加元数据值。这里,元数据元素的列表显示在输出中,以便您可以在添加新值后观察列表中的变化。

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.util.Arrays;

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;

import org.xml.sax.SAXException;

public class AddMetadata {

   public static void main(final String[] args) throws IOException, SAXException, TikaException {

      //创建一个文件对象并假设sample.txt位于当前目录中
      File file = new File("Example.txt");

      //解析器方法参数
      Parser parser = new AutoDetectParser();
      BodyContentHandler handler = new BodyContentHandler();
      Metadata metadata = new Metadata();
      FileInputStream inputstream = new FileInputStream(file);
      ParseContext context = new ParseContext();

      //解析文档
      parser.parse(inputstream, handler, metadata, context);

      //添加新元素之前的元数据元素列表
      System.out.println( " metadata elements :"  +Arrays.toString(metadata.names()));

      //添加新的元数据名称值对
      metadata.add("Author","Tutorials Point");
      System.out.println(" metadata name value pair is successfully added");
      
      //添加新元素后打印所有元数据元素
      System.out.println("Here is the list of all the metadata 
         elements after adding new elements");
      System.out.println( Arrays.toString(metadata.names()));
   }
}

将上述代码保存为 AddMetadata.java 类并从命令提示符 − 运行它

javac AddMetadata .java
java AddMetadata

下面给出的是 Example.txt 的内容

Hi students welcome to tutorialspoint

如果执行上述程序,它将给出以下输出 −

metadata elements of the given file :
[Content-Encoding, Content-Type] 
enter the number of metadata name value pairs to be added 1
enter metadata1name: 
Author enter metadata1value: 
Tutorials point metadata name value pair is successfully added
Here is the list of all the metadata elements  after adding new elements
[Content-Encoding, Author, Content-Type]  

为现有元数据元素设置值

您可以使用 set() 方法为现有元数据元素设置值。使用 set() 方法设置 date 属性的语法如下 −

metadata.set(Metadata.DATE, new Date());

您还可以使用 set() 方法为属性设置多个值。使用 set() 方法为 Author 属性设置多个值的语法如下 −

metadata.set(Metadata.AUTHOR, "ram ,raheem ,robin ");

下面给出了演示 set() 方法的完整程序。

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

import java.util.Date;

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;

import org.xml.sax.SAXException;

public class SetMetadata {

   public static void main(final String[] args) throws IOException,SAXException, TikaException {
   
      //创建一个文件对象并假设example.txt位于您当前的目录中
      File file = new File("example.txt");
      
      //parse() 方法的参数
      Parser parser = new AutoDetectParser();
      BodyContentHandler handler = new BodyContentHandler();
      Metadata metadata = new Metadata();
      FileInputStream inputstream = new FileInputStream(file);
      ParseContext context = new ParseContext();
      
      //解析给定的文件
      parser.parse(inputstream, handler, metadata, context);
     
      //元数据元素列表
      System.out.println( " metadata elements and values of the given file :");
      String[] metadataNamesb4 = metadata.names();
      
      for(String name : metadataNamesb4) {
    	  System.out.println(name + ": " + metadata.get(name));
      }
      
      //设置日期元数据
      metadata.set(Metadata.DATE, new Date());
      
      //为 author 属性设置多个值
      metadata.set(Metadata.AUTHOR, "ram ,raheem ,robin ");
      
      //使用新元素打印所有元数据元素
      System.out.println("List of all the metadata elements  after adding new elements ");
      String[] metadataNamesafter = metadata.names();
      
      for(String name : metadataNamesafter) {
         System.out.println(name + ": " + metadata.get(name));
      }
   }
}		    		

将上述代码保存为 SetMetadata.java 并从命令提示符 − 运行它

javac SetMetadata.java
java SetMetadata

下面给出了 example.txt 的内容。

Hi students welcome to tutorialspoint

如果您执行上述程序,它将为您提供以下输出。在输出中,您可以观察到新添加的元数据元素。

metadata elements and values of the given file :
Content-Encoding: ISO-8859-1
Content-Type: text/plain; charset = ISO-8859-1
Here is the list of all the metadata elements  after adding new elements 
date: 2014-09-24T07:01:32Z
Content-Encoding: ISO-8859-1
Author: ram, raheem, robin 
Content-Type: text/plain; charset = ISO-8859-1