HCatalog - 读取器写入器
HCatalog 包含一个数据传输 API,用于不使用 MapReduce 进行并行输入和输出。此 API 使用表和行的基本存储抽象从 Hadoop 集群读取数据并将数据写入其中。
数据传输 API 主要包含三个类;它们是 −
HCatReader − 从 Hadoop 集群读取数据。
HCatWriter − 将数据写入 Hadoop 集群。
DataTransferFactory − 生成读取器和写入器实例。
此 API 适用于主从节点设置。让我们进一步讨论 HCatReader 和 HCatWriter。
HCatReader
HCatReader 是 HCatalog 内部的一个抽象类,它抽象出了从中检索记录的底层系统的复杂性。
Sr.No. | 方法名称 &描述 |
---|---|
1 | 公共抽象 ReaderContext prepareRead() 抛出 HCatException 应在主节点调用此方法以获取 ReaderContext,然后应将其序列化并发送到从属节点。 |
2 | 公共抽象迭代器 <HCatRecorder> read() 抛出 HCaException 应在从属节点上调用此方法以读取 HCatRecords。 |
3 | 公共配置 getConf() 它将返回配置类对象。 |
HCatReader 类用于从 HDFS 读取数据。读取是一个两步过程,其中第一步发生在外部系统的主节点上。第二步在多个从属节点上并行执行。
读取在 ReadEntity 上完成。在开始读取之前,您需要定义一个要从中读取的 ReadEntity。这可以通过 ReadEntity.Builder 完成。您可以指定数据库名称、表名称、分区和过滤字符串。例如 −
ReadEntity.Builder builder = new ReadEntity.Builder(); ReadEntity entity = builder.withDatabase("mydb").withTable("mytbl").build(); 10.
上述代码片段定义了一个 ReadEntity 对象("entity"),它包含一个名为 mydb 的数据库中的一个名为 mytbl 的表,可用于读取此表的所有行。请注意,此表必须在开始此操作之前存在于 HCatalog 中。
定义 ReadEntity 后,使用 ReadEntity 和集群配置获取 HCatReader 的实例 −
HCatReader reader = DataTransferFactory.getHCatReader(entity, config);
下一步是从 reader 获取 ReaderContext,如下所示 −
ReaderContext cntxt = reader.prepareRead();
HCatWriter
此抽象是 HCatalog 内部的。这是为了方便从外部系统写入 HCatalog。不要尝试直接实例化它。相反,请使用 DataTransferFactory。
Sr.No. | 方法名称和说明 |
---|---|
1 | Public abstract WriterContext prepareRead() throws HCatException 外部系统应从主节点调用此方法一次。它返回一个 WriterContext。这应该被序列化并发送到从属节点以在那里构造 HCatWriter。 |
2 | Public abstract void write(Iterator<HCatRecord> recordItr) throws HCaException 此方法应在从属节点上用于执行写入。recordItr 是一个迭代器对象,其中包含要写入 HCatalog 的记录集合。 |
3 | Public abstract void abort(WriterContext cntxt) throws HCatException 此方法应在主节点上调用。此方法的主要目的是在发生故障时进行清理。 |
4 | public abstract void commit(WriterContext cntxt) throws HCatException 此方法应在主节点上调用。此方法的目的是进行元数据提交。 |
与读取类似,写入也是一个两步过程,其中第一步发生在主节点上。随后,第二步在从属节点上并行发生。
写入是在 WriteEntity 上完成的,其构造方式类似于读取 −
WriteEntity.Builder builder = new WriteEntity.Builder(); WriteEntity entity = builder.withDatabase("mydb").withTable("mytbl").build();
上述代码创建了一个WriteEntity对象entity
,该对象可用于向数据库mydb中名为mytbl的表进行写入。
创建WriteEntity后,下一步是获取WriterContext −
HCatWriter writer = DataTransferFactory.getHCatWriter(entity, config); WriterContext info = writer.prepareWrite();
以上所有步骤均在主节点上进行。然后,主节点序列化 WriterContext 对象,并使其可供所有从属节点使用。
在从属节点上,您需要使用 WriterContext 获取 HCatWriter,如下所示 −
HCatWriter writer = DataTransferFactory.getHCatWriter(context);
然后,writer 将迭代器作为 write
方法的参数 −
writer.write(hCatRecordItr);
然后,writer 循环调用此迭代器上的 getNext(),并写出附加到迭代器的所有记录。
TestReaderWriter.java 文件用于测试 HCatreader 和 HCatWriter 类。以下程序演示了如何使用 HCatReader 和 HCatWriter API 从源文件读取数据,然后将其写入目标文件。
import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.ObjectInputStream; import java.io.ObjectOutputStream; import java.util.ArrayList; import java.util.HashMap; import java.util.Iterator; import java.util.List; import java.util.Map; import java.util.Map.Entry; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hive.metastore.api.MetaException; import org.apache.hadoop.hive.ql.CommandNeedRetryException; import org.apache.hadoop.mapreduce.InputSplit; import org.apache.hive.HCatalog.common.HCatException; import org.apache.hive.HCatalog.data.transfer.DataTransferFactory; import org.apache.hive.HCatalog.data.transfer.HCatReader; import org.apache.hive.HCatalog.data.transfer.HCatWriter; import org.apache.hive.HCatalog.data.transfer.ReadEntity; import org.apache.hive.HCatalog.data.transfer.ReaderContext; import org.apache.hive.HCatalog.data.transfer.WriteEntity; import org.apache.hive.HCatalog.data.transfer.WriterContext; import org.apache.hive.HCatalog.mapreduce.HCatBaseTest; import org.junit.Assert; import org.junit.Test; public class TestReaderWriter extends HCatBaseTest { @Test public void test() throws MetaException, CommandNeedRetryException, IOException, ClassNotFoundException { driver.run("drop table mytbl"); driver.run("create table mytbl (a string, b int)"); Iterator<Entry<String, String>> itr = hiveConf.iterator(); Map<String, String> map = new HashMap<String, String>(); while (itr.hasNext()) { Entry<String, String> kv = itr.next(); map.put(kv.getKey(), kv.getValue()); } WriterContext cntxt = runsInMaster(map); File writeCntxtFile = File.createTempFile("hcat-write", "temp"); writeCntxtFile.deleteOnExit(); // Serialize context. ObjectOutputStream oos = new ObjectOutputStream(new FileOutputStream(writeCntxtFile)); oos.writeObject(cntxt); oos.flush(); oos.close(); // Now, deserialize it. ObjectInputStream ois = new ObjectInputStream(new FileInputStream(writeCntxtFile)); cntxt = (WriterContext) ois.readObject(); ois.close(); runsInSlave(cntxt); commit(map, true, cntxt); ReaderContext readCntxt = runsInMaster(map, false); File readCntxtFile = File.createTempFile("hcat-read", "temp"); readCntxtFile.deleteOnExit(); oos = new ObjectOutputStream(new FileOutputStream(readCntxtFile)); oos.writeObject(readCntxt); oos.flush(); oos.close(); ois = new ObjectInputStream(new FileInputStream(readCntxtFile)); readCntxt = (ReaderContext) ois.readObject(); ois.close(); for (int i = 0; i < readCntxt.numSplits(); i++) { runsInSlave(readCntxt, i); } } private WriterContext runsInMaster(Map<String, String> config) throws HCatException { WriteEntity.Builder builder = new WriteEntity.Builder(); WriteEntity entity = builder.withTable("mytbl").build(); HCatWriter writer = DataTransferFactory.getHCatWriter(entity, config); WriterContext info = writer.prepareWrite(); return info; } private ReaderContext runsInMaster(Map<String, String> config, boolean bogus) throws HCatException { ReadEntity entity = new ReadEntity.Builder().withTable("mytbl").build(); HCatReader reader = DataTransferFactory.getHCatReader(entity, config); ReaderContext cntxt = reader.prepareRead(); return cntxt; } private void runsInSlave(ReaderContext cntxt, int slaveNum) throws HCatException { HCatReader reader = DataTransferFactory.getHCatReader(cntxt, slaveNum); Iterator<HCatRecord> itr = reader.read(); int i = 1; while (itr.hasNext()) { HCatRecord read = itr.next(); HCatRecord written = getRecord(i++); // Argh, HCatRecord doesnt implement equals() Assert.assertTrue("Read: " + read.get(0) + "Written: " + written.get(0), written.get(0).equals(read.get(0))); Assert.assertTrue("Read: " + read.get(1) + "Written: " + written.get(1), written.get(1).equals(read.get(1))); Assert.assertEquals(2, read.size()); } //Assert.assertFalse(itr.hasNext()); } private void runsInSlave(WriterContext context) throws HCatException { HCatWriter writer = DataTransferFactory.getHCatWriter(context); writer.write(new HCatRecordItr()); } private void commit(Map<String, String> config, boolean status, WriterContext context) throws IOException { WriteEntity.Builder builder = new WriteEntity.Builder(); WriteEntity entity = builder.withTable("mytbl").build(); HCatWriter writer = DataTransferFactory.getHCatWriter(entity, config); if (status) { writer.commit(context); } else { writer.abort(context); } } private static HCatRecord getRecord(int i) { List<Object> list = new ArrayList<Object>(2); list.add("Row #: " + i); list.add(i); return new DefaultHCatRecord(list); } private static class HCatRecordItr implements Iterator<HCatRecord> { int i = 0; @Override public boolean hasNext() { return i++ < 100 ? true : false; } @Override public HCatRecord next() { return getRecord(i); } @Override public void remove() { throw new RuntimeException(); } } }
上述程序以记录的形式从HDFS读取数据,并将记录数据写入mytable