Apache IoTDB开发系统整合之Hive TsFile

举报
小云悠悠zZ 发表于 2023/09/06 11:48:32 2023/09/06
【摘要】 TsFile-Hive-Connector 实现了 Hive 对 Tsfile 类型的外部数据源的支持。这使用户能够按Hive操作Tsfile,还可以将单个 TsFile 从本地文件系统或 hdfs 加载到 hive 中, 并且把特定目录中的所有文件(从本地文件系统或 hdfs)加载到 hive 中。

TsFile-Hive-Connector 用户指南

关于 TsFile-Hive-Connector

TsFile-Hive-Connector 实现了 Hive 对 Tsfile 类型的外部数据源的支持。这使用户能够按Hive操作Tsfile。

使用此连接器,您可以

  • 将单个 TsFile 从本地文件系统或 hdfs 加载到 hive 中
  • 将特定目录中的所有文件(从本地文件系统或 hdfs)加载到 hive 中
  • 通过 HQL 查询 tsfile。
  • 截至目前,配置单元连接器不支持写入操作。因此,通过配置单元操作 tsfile 时,不允许在 HQL 中进行插入操作。

System Requirements

Hadoop Version Hive Version Java Version TsFile
2.7.3 or 3.2.1 2.3.6 or 3.1.2 1.8 0.10.0

Data Type Correspondence

TsFile data type Hive field type
BOOLEAN Boolean
INT32 INT
INT64 BIGINT
FLOAT Float
DOUBLE Double
TEXT STRING

为 Hive 添加依赖项

要在 hive 中使用 hive-connector,我们应该将 hive-connector jar 添加到 hive 中。

从 iotdb 下载代码后https://github.com/apache/incubator-iotdbHive TsFile - 图1,您可以使用 的命令获取 .mvn clean package -pl hive-connector -am -Dmaven.test.skip=truehive-connector-X.X.X-jar-with-dependencies.jar

然后在 hive 中,使用 的命令添加依赖项。例如:add jar XXX

  1. hive> add jar /Users/hive/incubator-iotdb/hive-connector/target/hive-connector-0.10.0-jar-with-dependencies.jar;
  2. Added [/Users/hive/incubator-iotdb/hive-connector/target/hive-connector-0.10.0-jar-with-dependencies.jar] to class path
  3. Added resources: [/Users/hive/incubator-iotdb/hive-connector/target/hive-connector-0.10.0-jar-with-dependencies.jar]

创建 Tsfile 支持的 Hive 表

要创建支持 Tsfile 的表,请指定 as 、 指定 as 和 as 。serdeorg.apache.iotdb.hive.TsFileSerDeinputformatorg.apache.iotdb.hive.TSFHiveInputFormatoutputformatorg.apache.iotdb.hive.TSFHiveOutputFormat

还要提供一个仅包含两个字段的架构:和表。 是时间序列的时间值,是要从 TSFILE 提取到 Hive 的传感器的名称,例如 。表的名称可以是 hive 中的任何有效表名称。time_stampsensor_idtime_stampsensor_idsensor_1

此外,提供配置单元连接器将从中提取表的最新数据的位置。

该位置必须是特定的目录,如果您已设置Hadoop,它可以位于本地文件系统或HDFS上。如果它位于本地文件系统中,则位置应如下所示file:///data/data/sequence/root.baic2.WWS.leftfrontdoor/

最后,您应该将 in 设置为要分析的设备名称。device_idTBLPROPERTIES

例如:

CREATE EXTERNAL TABLE IF NOT EXISTS only_sensor_1(
time_stamp TIMESTAMP,
sensor_1 BIGINT)
ROW FORMAT SERDE 'org.apache.iotdb.hive.TsFileSerDe'
STORED AS
INPUTFORMAT 'org.apache.iotdb.hive.TSFHiveInputFormat'
OUTPUTFORMAT 'org.apache.iotdb.hive.TSFHiveOutputFormat'
LOCATION '/data/data/sequence/root.baic2.WWS.leftfrontdoor/'
TBLPROPERTIES ('device_id'='root.baic2.WWS.leftfrontdoor.plc1');

在此示例中,我们将从 的目录中提取 的数据。此表可能会导致如下说明:root.baic2.WWS.leftfrontdoor.plc1.sensor_1/data/data/sequence/root.baic2.WWS.leftfrontdoor/

  1. hive> describe only_sensor_1;
  2. OK
  3. time_stamp timestamp from deserializer
  4. sensor_1 bigint from deserializer
  5. Time taken: 0.053 seconds, Fetched: 2 row(s)

此时,可以在 Hive 中像处理任何其他表一样处理 Tsfile 支持的表。

从 Tsfile 支持的 Hive 表查询

在执行任何查询之前,我们应该通过执行以下命令来设置 in hive。hive.input.format

  1. hive> set hive.input.format=org.apache.hadoop.hive.ql.io.HiveInputFormat;

现在,我们已经有了一个在 hive 中命名的外部表。我们可以通过 HQL 使用任何查询操作来分析它。only_sensor_1

例如:

选择子句示例

hive> select * from only_sensor_1 limit 10;
OK
1000000
1000001
1000002
1000003
1000004
1000005
1000006
1000007
1000008
1000009
Time taken: 1.464 seconds, Fetched: 10 row(s)

聚合子句示例

hive> select count(*) from only_sensor_1;
WARNING: Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases.
Query ID = jackietien_20191016202416_d1e3e233-d367-4453-b39a-2aac9327a3b6
Total jobs = 1
Launching Job 1 out of 1
Number of reduce tasks determined at compile time: 1
In order to change the average load for a reducer (in bytes):
set hive.exec.reducers.bytes.per.reducer=<number>
In order to limit the maximum number of reducers:
set hive.exec.reducers.max=<number>
In order to set a constant number of reducers:
set mapreduce.job.reduces=<number>
Job running in-process (local Hadoop)
2019-10-16 20:24:18,305 Stage-1 map = 0%, reduce = 0%
2019-10-16 20:24:27,443 Stage-1 map = 100%, reduce = 100%
Ended Job = job_local867757288_0002
MapReduce Jobs Launched:
Stage-Stage-1: HDFS Read: 0 HDFS Write: 0 SUCCESS
Total MapReduce CPU Time Spent: 0 msec
OK
1000000
Time taken: 11.334 seconds, Fetched: 1 row(s)

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。