GeminiDB Cassandra copy最佳实践方案
1. 版本获取方式
- 最新二进制包下载地址:请从https://support.huaweicloud.com/cassandraug-nosql/nosql_02_0005.html中获取对应平台的包
2. COPY介绍
- COPY TO支持将数据从表中导出到CSV,json,parquet,orc格式的文件中。其中为csv格式时,每行都写入目标文件中的一行,其中的字段由定界符分隔。如果未指定列名,则导出所有字段。要跳过部分列,请指定列列表。
- COPY FROM支持将数据从CSV文件和json文件导入到现有表中。源文件中的每一行都作为一行导入。数据集中的所有行必须包含相同数量的字段,并且在PRIMARY KEY字段中必须具有值。该过程将验证PRIMARY KEY并更新现有记录。如果
HEADER = false
并且没有指定列名,则以确定的顺序导入字段。指定列名后,将按该顺序导入字段。缺少和空字段设置为null。源不能具有比目标表更多的字段,但是可以具有更少的字段。
注意:仅使用COPY FROM导入少于200万行的数据集。
3. COPY语法约定
说明: COPY支持一个或多个以逗号分隔的文件名或python glob表达式的列表。
语法说明
语法约定 |
描述 |
UPPERCASE |
文字关键字。 |
小写 |
不是字面意思。 |
Lowercase |
可变值。用用户定义的值替换。 |
Italics |
可选的。方括号( [] )围绕可选命令参数。请勿输入方括号。 |
( ) |
组。括号(( ))表示要选择的组。不要键入括号。 |
| |
或。竖线( | )分隔其他元素。键入任何一个元素。请勿输入竖线。 |
... |
可重复的。省略号(...)表示您可以根据需要多次重复语法元素。 |
'Literal string' |
单引号( ' )必须包含CQL语句中的文字字符串。使用单引号将大写字母保留下来。 |
{ key : value } |
地图集合map。大括号( { } )包含地图集合或键值对。用冒号分隔键和值。 |
<datatype1,datatype2> |
有序列表set,列出,映射或元组。尖括号(< >)将数据类型包含在集合,列表,地图或元组中。用逗号分隔数据类型。 |
cql_statement; |
结束CQL语句。分号( ; )终止所有CQL语句。 |
[--] |
使用两个连字符(--)将命令行选项与命令参数分开 。当参数可能误认为命令行选项时,此语法很有用。 |
' <schema> ... </schema> ' |
仅搜索CQL:单引号( ' )包围整个XML模式声明。 |
@xml_entity='xml_entity_type' |
仅搜索CQL:标识实体和文字值以覆盖模式和solrConfig文件中的XML元素。 |
4. COPY参数介绍
命令 |
选项 |
描述 |
默认值 |
|
TO/FROM |
DELIMITER |
用于分隔字段的单个字符 |
英文逗号, |
|
TO/FROM |
QUOTE |
包含字段值的单个字符 |
双引号" |
|
TO/FROM |
ESCAPE |
转义使用QUOTE字符的单个字符 |
反斜杠\ |
|
TO/FROM |
HEADER |
布尔值(true | false),指示第一行上的列名称。True将字段名称与导入(FROM)上的列名匹配,并将列名称插入到导出(TO)数据的第一行中 |
FALSE |
|
TO/FROM |
NULL |
查询结果为空的字段的填充值,可自由设置 |
空字符串() |
|
TO/FROM |
DATETIMEFORMAT |
用于读取或写入CSV时间数据的时间格式。时间戳使用strftime格式。如果未设置,则默认值将设置为cqlshrc文件中的time_format值。默认格式:%Y-%m-%d %H:%M:%S%z。 |
%Y-%m-%d %H:%M:%S%z |
|
TO/FROM |
MAXATTEMPTS |
发生错误时的最大重试次数 |
5 |
|
TO/FROM |
REPORTFREQUENCY |
状态显示的频率(以秒为单位) |
0.25 |
|
TO/FROM |
DECIMALSEP |
decimal(大数)值的分隔字符 |
英文句号. |
|
TO/FROM |
THOUSANDSSEP |
千位数组的分隔符 |
None |
|
TO/FROM |
BOOLSTYLE |
布尔值指示True和False。该值不区分大小写,例如:yes,no和YES,NO相同 |
True,False |
|
TO/FROM |
NUMPROCESSES |
工作进程数 |
16 |
|
TO/FROM |
CONFIGFILE |
指定一个cqlshrc配置文件以设置WITH选项。注意:命令行选项始终会覆盖cqlshrc文件。 |
无,需自行制定 |
|
TO/FROM |
RATEFILE |
将输出统计信息打印到此文件。 |
无,需自行制定 |
|
TO/FROM |
ORIGIN |
需要导入导出的数据库是否为开源cassandra,如果是则为true;如果是GaussDB for Cassandra则为false |
False |
|
FROM |
CHUNKSIZE |
块大小传递给工作进程。 |
5000 |
|
FROM |
INGESTRATE |
每秒的近似导入速率 |
100000 |
|
FROM |
MAXBATCHSIZE |
导入批处理的最大大小 |
20 |
|
FROM |
MINBATCHSIZE |
导入批处理的最小大小 |
2 |
|
FROM |
MAXROWS |
最大行数。使用“ -1”意味无最大限制 |
-1 |
|
FROM |
SKIPROWS |
要跳过的行数 |
0 |
|
FROM |
SKIPCOLS |
以逗号分隔的要跳过的列名称列表 |
无,需自行制定 |
|
FROM |
MAXPARSEERRORS |
最大全局解析错误数。使用“ -1”意味无最大限制 |
-1 |
|
FROM |
MAXINSERTERRORS |
全局最大插入错误数。使用“ -1”意味无最大限制 |
-1 |
|
FROM |
ERRFILE |
用于存储所有未导入的行的文件。如果未设置任何值,则信息存储在import_ ks _ table .err中,其中 ks是键空间,而table是表名。 |
import_ ks _ table .err |
|
FROM |
TTL |
生存时间以秒为单位。默认情况下,数据不会过期 |
3600 |
|
TO |
ENCODING |
输出字符串类型。 |
UTF-8 |
|
TO |
PAGESIZE |
用于获取结果的页面大小 |
1000 |
|
TO |
PAGETIMEOUT |
页面超时以获取结果 |
10 |
|
TO |
BEGINTOKEN |
用于导出数据的最小token |
无,需自行制定 |
|
TO |
ENDTOKEN |
用于导出数据的最大token |
无,需自行制定 |
|
TO |
MAXREQUESTS |
每个工作者可以并行处理的最大请求数 |
6 |
|
TO |
MAXOUTPUTSIZE |
输出文件的最大大小,以行数为单位。设置后,超过该值时,输出文件将拆分为多个段。使用“ -1”意味无最大限制 |
-1 |
|
TO |
MAXFILESIZE |
输出文件的最大大小,以kb为单位。设置后,超过该值时,输出文件将拆分为多个段 |
无,需自行制定 |
|
TO |
dataformats |
输出文件格式,当前如果设置值只能选json |
无,需自行制定 |
|
TO |
DATATYPE |
文件格式可选parquet或者orc |
无,需自行制定 |
|
TO |
resultfile |
导出的详细结果文件 |
无,需自行制定 |
|
TO |
wherecondition |
导出时,指定的导出条件 |
无,需自行制定 |
5. 简单样例展示
- 预置数据:
1.创建keyspace CREATE KEYSPACE cycling WITH replication = {'class': 'SimpleStrategy', 'replication_factor': 3}; 2.创建table CREATE TABLE cycling.cyclist_name ( id UUID PRIMARY KEY, lastname text, firstname text ) ; 3.插入数据 INSERT INTO cycling.cyclist_name (id, lastname, firstname) VALUES (5b6962dd-3f90-4c93-8f61-eabfa4a803e2, 'VOS','Marianne'); INSERT INTO cycling.cyclist_name (id, lastname, firstname) VALUES (e7cd5752-bc0d-4157-a80f-7523add8dbcd, 'VAN DER BREGGEN','Anna'); INSERT INTO cycling.cyclist_name (id, lastname, firstname) VALUES (e7ae5cf3-d358-4d99-b900-85902fda9bb0, 'FRAME','Alex'); INSERT INTO cycling.cyclist_name (id, lastname, firstname) VALUES (220844bf-4860-49d6-9a4b-6b5d3a79cbfb, 'TIRALONGO','Paolo'); INSERT INTO cycling.cyclist_name (id, lastname, firstname) VALUES (6ab09bec-e68e-48d9-a5f8-97e6fb4c9b47, 'KRUIKSWIJK','Steven'); INSERT INTO cycling.cyclist_name (id, lastname, firstname) VALUES (fb372533-eb95-4bb4-8685-6ef61e994caa, 'MATTHEWS', 'Michael');
|
- 从cyclist_name表中导出和导入数据
1. 仅将cyclist_name表中的id和lastname列导出到CSV文件。 在当前目录的上层目录中会创建cyclist_lastname.csv文件。如果文件已经存在,则将其覆盖。 2. 将cyclist_name表中的id和first name列导出到另一个CSV文件。 COPY cycling.cyclist_name (id,firstname) TO '../cyclist_firstname.csv' WITH HEADER = TRUE ; cyclist_firstname.csv会被新创建出来 3. 将cyclist_name表中的数据truncate掉 TRUNCATE cycling.cyclist_name ; 4. 查看此时表中无数据 5. 导入cyclist_firstname.csv文件 6. 校验新导入数据 7. 导入cyclist_lastname.csv文件 8. 校验数据是否被更新 查看发现lastname列被更新 |
6. 导出参数最佳实践
- NUMPROCESSES
这是工作进程的数量,其默认值是计算机上的内核数量减一个,当前未设置上限值。您可以通过dstat,dstat -lvrn 10观察CPU空闲时间,如果存在CPU空闲时间,请使用默认的工作进程数,您可以增加它。增加的同时也需要观察实例的CPU使用情况,建议不超过60%,如果执行机CPU有空闲,而实例CPU已经超过建议值,进一步提升性能则需要扩容
- PAGESIZE
一个整数,指示获取结果的页面大小。默认为1,000。页面大小越大,pagetimeout应该越长。单行数据量比较大时需要调小,单行数据量比较小时可以适当增大该值;该值的最佳效果还取决于执行机批量本地写的能力,如果批量本地写能力很强(如使用华为云obsfs),可适当增大
- PAGETIMEOUT
一个整数,指示获取每个页面的超时(以秒为单位)。默认为10秒。对于较大的页面大小或较大的分区,请增加它。如果发现超时,则应考虑增加此值。如果服务器超时,则会自动启动一个指数退避策略,因此您可能会注意到延迟,但这是为了防止服务器进一步过载。驱动程序还会生成超时,在这种情况下,由于驱动程序不知道服务器稍后是否会丢弃请求或返回结果,因此可能会丢失或重复数据的可能性很小。增大此值对于防止驱动程序生成超时非常有帮助。
- MAXREQUESTS
一个整数,指示每个工作进程可以处理的最大运行中请求数。导出数据时总的并行度=工作进程数*该值。默认值为6。每个请求将导出整个令牌范围的数据
- MAXOUTPUTSIZE
一个整数,指示以行数为单位的输出文件的最大大小。超过此值,输出文件将被拆分为多个段。它的默认值为-1,表示无限制的最大值,因此是唯一的输出文件。可以和MAXFILESIZE同时使用
- MAXFILESIZE
一个整数,指示以字节为单位的输出文件的最大大小,文件最终大小近似于该值。超过此值,输出文件将被拆分为多个段。它的默认值为-1,表示无限制的最大值,因此是唯一的输出文件。可以和MAXOUTPUTSIZE同时使用
- BEGINTOKEN
一个字符串,表示导出数据时要考虑的最小令牌。具有较小令牌的记录将不会导出。默认为空,表示没有最小令牌。
- ENDTOKEN
一个字符串,表示导出数据时要考虑的最大令牌。具有较大令牌的记录将不会导出。默认为空,表示没有最大令牌。
7. 导入参数最佳实践
- NUMPROCESSES
这是工作进程的数量,其默认值是计算机上的内核数量减一个,当前未设置上限值。您可以通过dstat,dstat -lvrn 10观察CPU空闲时间,如果存在CPU空闲时间,请使用默认的工作进程数,您可以增加它。增加的同时也需要观察实例的CPU使用情况,建议不超过60%,如果执行机CPU有空闲,而实例CPU已经超过建议值,进一步提升性能则需要扩容
- CHUNKSIZE
这是从Feeder进程(从文件读取数据)发送到worker进程的行数;根据数据集的平均行大小,增加此参数的值可能是有利的。
- MINBATCHSIZE
对于每一个chunk,worker进程至少会按照最小batchsize进行batch写入,根据块的大小,群集中的节点数以及每个节点的VNODES数,此值可能需要调整:chunksize越大,此值需要调大
- MAXBATCHSIZE
该值的设置可以尽可能大,但不要超过上限,MAXBATCHSIZE*单行size < batch_size_fail_threshold_in_kb;批大小太大可能会导致警告并最终被拒绝;两个参数在cassandra.yaml中被控制,此行为:
- batch_size_warn_threshold_in_kb(当前值为5)
- batch_size_fail_threshold_in_kb(当前值为50)
- INGESTRATE
这个是feeder进程发送数据给worker进程的每秒速率(以行数为单位),通常,除非每秒速率太高,需要限制速率,否则无需更改此值。
8. 公共参数和环境配置推荐
² 建议导出时加上以下公共参数以提升统计效率
- RATEFILE
一个文件名,实时速率统计文件
- RESULTFILE
一个文件名,最终导入导出结果的统计信息会记录在里面
² 推荐导出时配合使用obsfs文件系统
使用指南:https://support.huaweicloud.com/fstg-obs/obs_12_0004.html,使用obsfs文件系统可提升一下两个方面性能:
- 减少执行机导出文件上传到obs或其他机器的时间
- 大幅提升执行机本地批量写的能力,从而提升导出性能
- 点赞
- 收藏
- 关注作者
评论(0)