- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

有什么轻量级的大数据技术

红目香薰发表于 2022/05/27 15:26:16 2022/05/27

【摘要】流行的大数据技术有Hadoop, Storm, Hive、Spark等，这些都是大集群方案，适合有海量规模数据的巨大企业。实际上，流行的大数据技术通常也源自这类头部互联网企业。很多场景下，数据虽然也很多，但小集群甚至无集群就足够处理，远没多到这些巨大企业的规模，也没有那么多的硬件设备和维护人员。这种情况下，就需要轻量级的大数据技术了。轻量级的大数据技术不多，集算器SPL是其中的佼佼者。SPL...

流行的大数据技术有Hadoop, Storm, Hive、Spark等，这些都是大集群方案，适合有海量规模数据的巨大企业。实际上，流行的大数据技术通常也源自这类头部互联网企业。很多场景下，数据虽然也很多，但小集群甚至无集群就足够处理，远没多到这些巨大企业的规模，也没有那么多的硬件设备和维护人员。这种情况下，就需要轻量级的大数据技术了。

轻量级的大数据技术不多，集算器SPL是其中的佼佼者。

SPL是开源的大数据JAVA计算库，不仅代码简洁，架构轻便，易于集成，而且提供了高性能存储格式，支持单机并行计算和多机集群计算，可以充分发挥小集群的硬件性能。

SPL架构轻便，没有复杂的计算框架，也不依赖外部环境，不需要集群时，只要嵌入SPL的jar包就能直接进行计算，不需要启动服务器。SPL的集群计算也没有沉重的中心体系，只要随便找来几台节点机启动SPL服务，可以是配置不同或操作系统不同的PC/Linux/服务器/工作站/笔记本，然后在任意的机器上执行很简单的集群运算代码即可：

	A
1	=[“192.168.1.11:8281”,“192.168.1.12:8281”,“192.168.1.13:8281”,“192.168.1.14:8281”]
2	=file(“Orders.ctx”:[1,2,3,4],A1)
3	=A2.open().cursor@m(Client, Amount,
4	=A3.groups(year(OrderDate),Client;sum(Amount))

这段代码即可以完成集群分组汇总，任务拆分汇总的压力远小于计算节点，可以在任意节点\集成环境上执行。

SPL提供了轻便的JDBC接口，方便被JAVA集成。比如将上面的算法存为SPL脚本文件，在JAVA中以存储过程的形式引用脚本文件名：

…

Class.forName("com.esproc.jdbc.InternalDriver");
Connection conn =DriverManager.getConnection("jdbc:esproc:local://");
CallableStatement statement = conn.prepareCall("{call groupQuery(?, ?)}");
statement.setObject(1, "2021-01-01");
statement.setObject(2, "2021-12-31");
statement.execute();
...

在大数据计算方面，SPL也有很多高性能的存储机制和算法支持，比大多数使用SQL的大数据平台的性能表现要好很多，需要Hadoop/Spark集群才能完成的运算在SPL中常常用单机就解决了。

SPL提供了名为组表的高性能存储格式。组表经过精心设计，信息存储密度和计算性能高于普通格式；组表默认支持压缩，擅长存储大数据，尤其适合字段值有重复的情况；除了行存，组表也支持列存，适合对宽表的少数字段进行计算的情况，可以大幅提升压缩比和计算性能：

	A
1	=file(“Orders.ctx”)
2	=A1.open().cursor(Client,Amount, OrderDate; OrderDate>=arg1 && OrderDate
3	=A2.groups(year(OrderDate),Client;sum(Amount))

SPL组表支持并行计算，只要在cursor函数后面简单添加选项@m，这样可以充分利用多核CPU的性能优势：

	A
1	=file(“Orders.ctx”)
2	=A1.open().cursor@m(Client,Amount, OrderDate; OrderDate>=arg1 && OrderDate
3	=A2.groups(year(OrderDate),Client;sum(Amount))

大数据计算中的遍历很耗时，SPL支持游标遍历复用，只须对数据遍历一次，就可以计算出多个计算目标：

	A
1	=file(“Orders.ctx”).open()
2	=A1.open().cursor(Client, Amount, OrderDate)
3	=channel(A2).groups(year(OrderDate);max(Amount))
4	=A2.groups(Client;sum(Amount))
5	=A3.result()

和许多OLAP Server类似，SPL组表支持预汇总，可预先将常见的几种汇总结果缓存起来，正式计算时根据实际情况直接输出缓存结果，或对缓存结果进行二次计算，从而提升计算性能。比如下面代码即可利用预汇总的数据进行高速计算：

	A
1	=file(“fact.ctx”).open()
2	=A1.open().cgroups(dim1,dim2;sum(fact1),sum(fact2))

遇到较小的维表与大事实表进行关联计算的情况，可以把维表全量加载到每个节点的内存中，把大事实表以集群组表的形式存储在多个节点上，之后用内存的维表与外存的事实表进行关联计算，从而提升计算性能：

	A
1	=[“192.168.1.11:8281”,“192.168.1.12:8281”,“192.168.1.13:8281”,“192.168.1.14:8281”]
2	=file(“Orders.ctx”:[1,2,3,4],A1)
3	=A2.open().cursor@m(SellerId, Amount)
4	=file(“Employees.ctx”,A2).open().memory()
5	=A2.join(SellerId,A4,Name,Dept)
6	=A5.groups(dept;sum(Amount))

遇到大主子表关联计算的情况，可以把主表和子表各自以集群组表的形式存储于多个节点，并按关联字段有序存放，计算时就可以使用有序归并的方式进行关联计算，从而提升计算性能：

	A	B
1	=[“192.168.1.11:8281”,“192.168.1.12:8281”,“192.168.1.13:8281”,“192.168.1.14:8281”]
2	=file(“orders.ctx”:[1,2,3,4],A1)	=file(“orderdetail.ctx”,A2)
3	=A2.open().cursor@m()	=B2.open().cursor(;;A3)
4	=joinx(A3:m,ID;B3:c,ID)
5	=A4.groups(m.Client;sum(c.Amount))

在大数据计算方面，SPL还支持大维表集群计算，可自定义任务大小，指定并行数量，允许设计高效的执行路径，支持外存容错和内存容错。此外，SPL还支持多种文件、RDB、NoSQL、大数据数据源，并支持数据源之间的混合计算，经常可以省去大数据计算时麻烦耗时的格式转换和出库入库过程。

SPL资料

SPL官网
SPL下载
SPL源代码

![SPL交流群](https://img-blog.csdnimg.cn/img_convert/f8df3fd69748bb0d78c61c46838d90d1.png

欢迎对SPL有兴趣的加小助手（VX号：SPL-helper），进SPL技术交流群

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

有什么轻量级的大数据技术

SPL资料

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

有什么轻量级的大数据技术

SPL资料

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品