- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

GeminiDB Cassandra copy最佳实践方案

贾玲发表于 2021/02/23 18:31:03 2021/02/23

【摘要】华为云,华为云数据库,GeminiDB Cassandra

1. 版本获取方式

最新二进制包下载地址：请从https://support.huaweicloud.com/cassandraug-nosql/nosql_02_0005.html中获取对应平台的包

2. COPY介绍

COPY TO支持将数据从表中导出到CSV，json，parquet，orc格式的文件中。其中为csv格式时，每行都写入目标文件中的一行，其中的字段由定界符分隔。如果未指定列名，则导出所有字段。要跳过部分列，请指定列列表。
COPY FROM支持将数据从CSV文件和json文件导入到现有表中。源文件中的每一行都作为一行导入。数据集中的所有行必须包含相同数量的字段，并且在PRIMARY KEY字段中必须具有值。该过程将验证PRIMARY KEY并更新现有记录。如果HEADER = false并且没有指定列名，则以确定的顺序导入字段。指定列名后，将按该顺序导入字段。缺少和空字段设置为null。源不能具有比目标表更多的字段，但是可以具有更少的字段。

注意：仅使用COPY FROM导入少于200万行的数据集。

3. COPY语法约定

说明： COPY支持一个或多个以逗号分隔的文件名或python glob表达式的列表。

语法说明

语法约定	描述
UPPERCASE	文字关键字。
小写	不是字面意思。
*Lowercase*	可变值。用用户定义的值替换。
Italics	可选的。方括号（ [] ）围绕可选命令参数。请勿输入方括号。
( )	组。括号（( )）表示要选择的组。不要键入括号。
\|	或。竖线（ \| ）分隔其他元素。键入任何一个元素。请勿输入竖线。
...	可重复的。省略号（...）表示您可以根据需要多次重复语法元素。
'*Literal string*'	单引号（ ' ）必须包含CQL语句中的文字字符串。使用单引号将大写字母保留下来。
{ *key* : *value* }	地图集合map。大括号（ { } ）包含地图集合或键值对。用冒号分隔键和值。
<*datatype1,datatype2*>	有序列表set，列出，映射或元组。尖括号（< >）将数据类型包含在集合，列表，地图或元组中。用逗号分隔数据类型。
*cql_statement*;	结束CQL语句。分号（ ; ）终止所有CQL语句。
[--]	使用两个连字符（--）将命令行选项与命令参数分开。当参数可能误认为命令行选项时，此语法很有用。
' *<schema> ... </schema>* '	仅搜索CQL：单引号（ ' ）包围整个XML模式声明。
@*xml_entity='xml_entity_type*'	仅搜索CQL：标识实体和文字值以覆盖模式和solrConfig文件中的XML元素。

4. COPY参数介绍

命令	选项	描述	默认值
TO/FROM	DELIMITER	用于分隔字段的单个字符	英文逗号,
TO/FROM	QUOTE	包含字段值的单个字符	双引号"
TO/FROM	ESCAPE	转义使用QUOTE字符的单个字符	反斜杠\
TO/FROM	HEADER	布尔值（true \| false），指示第一行上的列名称。True将字段名称与导入（FROM）上的列名匹配，并将列名称插入到导出（TO）数据的第一行中	FALSE
TO/FROM	NULL	查询结果为空的字段的填充值，可自由设置	空字符串（）
TO/FROM	DATETIMEFORMAT	用于读取或写入CSV时间数据的时间格式。时间戳使用strftime格式。如果未设置，则默认值将设置为cqlshrc文件中的time_format值。默认格式：%Y-%m-%d %H:%M:%S%z。	%Y-%m-%d %H:%M:%S%z
TO/FROM	MAXATTEMPTS	发生错误时的最大重试次数	5
TO/FROM	REPORTFREQUENCY	状态显示的频率（以秒为单位）	0.25
TO/FROM	DECIMALSEP	decimal（大数）值的分隔字符	英文句号.
TO/FROM	THOUSANDSSEP	千位数组的分隔符	None
TO/FROM	BOOLSTYLE	布尔值指示True和False。该值不区分大小写，例如：yes，no和YES，NO相同	True,False
TO/FROM	NUMPROCESSES	工作进程数	16
TO/FROM	CONFIGFILE	指定一个cqlshrc配置文件以设置WITH选项。注意：命令行选项始终会覆盖cqlshrc文件。	无，需自行制定
TO/FROM	CONFIGFILE	指定一个cqlshrc配置文件以设置WITH选项。注意：命令行选项始终会覆盖cqlshrc文件。	无，需自行制定
TO/FROM	RATEFILE	将输出统计信息打印到此文件。	无，需自行制定
TO/FROM	ORIGIN	需要导入导出的数据库是否为开源cassandra，如果是则为true；如果是GaussDB for Cassandra则为false	False
FROM	CHUNKSIZE	块大小传递给工作进程。	5000
FROM	INGESTRATE	每秒的近似导入速率	100000
FROM	MAXBATCHSIZE	导入批处理的最大大小	20
FROM	MINBATCHSIZE	导入批处理的最小大小	2
FROM	MAXROWS	最大行数。使用“ -1”意味无最大限制	-1
FROM	SKIPROWS	要跳过的行数	0
FROM	SKIPCOLS	以逗号分隔的要跳过的列名称列表	无，需自行制定
FROM	MAXPARSEERRORS	最大全局解析错误数。使用“ -1”意味无最大限制	-1
FROM	MAXINSERTERRORS	全局最大插入错误数。使用“ -1”意味无最大限制	-1
FROM	ERRFILE	用于存储所有未导入的行的文件。如果未设置任何值，则信息存储在import_ ks _ table .err中，其中 ks是键空间，而table是表名。	import_ ks _ table .err
FROM	TTL	生存时间以秒为单位。默认情况下，数据不会过期	3600
TO	ENCODING	输出字符串类型。	UTF-8
TO	PAGESIZE	用于获取结果的页面大小	1000
TO	PAGETIMEOUT	页面超时以获取结果	10
TO	BEGINTOKEN	用于导出数据的最小token	无，需自行制定
TO	ENDTOKEN	用于导出数据的最大token	无，需自行制定
TO	MAXREQUESTS	每个工作者可以并行处理的最大请求数	6
TO	MAXOUTPUTSIZE	输出文件的最大大小，以行数为单位。设置后，超过该值时，输出文件将拆分为多个段。使用“ -1”意味无最大限制	-1
TO	MAXFILESIZE	输出文件的最大大小，以kb为单位。设置后，超过该值时，输出文件将拆分为多个段	无，需自行制定
TO	dataformats	输出文件格式，当前如果设置值只能选json	无，需自行制定
TO	DATATYPE	文件格式可选parquet或者orc	无，需自行制定
TO	resultfile	导出的详细结果文件	无，需自行制定
TO	wherecondition	导出时，指定的导出条件	无，需自行制定

5. 简单样例展示

预置数据：

1.创建keyspace

CREATE KEYSPACE cycling WITH replication = {'class': 'SimpleStrategy', 'replication_factor': 3};

2.创建table

CREATE TABLE cycling.cyclist_name (

id UUID PRIMARY KEY,

lastname text,

firstname text

) ;

3.插入数据