Hubble:“百万原生代码+混合交易分析”的利器!
长时间以来,人工智能和大数据一直作为孪生兄弟相互支撑。
但如今,生产与离线分析各自独立的传统信息化结构已经无法支撑AI的发展。
每个异构数据库产品之间的同步和数据冗余、业务的实时性需要流数据框架、ML越来越多作为核心业务部件被部署在流程中自动化完成……这些问题的出现通通限制了大数据企业应用的发展。
新一代数据驱动业务提出了数据湖等全新架构,而数据湖不仅仅是低成本的存储,更应是面向生产交易等数据科学处理的核心计算框架。
在此背景下,天云大数据推出了百万原生代码规模的HTAP数据库产品:Hubble!可以实现混合交易分析处理。
据了解,Hubble对SQL进行了全面支持,并具备NoSQL的能力。采用了大数据高扩展、高可用的架构,可以满足不同的业务企业级应用,还可以对实时、高性能的需求提供多种交互接口。
Hubble底层采用Hdfs做数据为存储介质,具备存储海量数据的能力以及集群的横向动态扩展能力,在安全性方面利用HDFS的三副本机制来保证整个集群的稳定运行。
分片服务会将预写日志直接持久化到磁盘,以保证事务,而不是放在内存中,避免使用内存导致事务出错的风险,并提高事务的可靠性。
通过Mem Storage作为数据缓冲层,HDFS Storage将数据序列化到HDFS中,并从API层级支持数据的批量加载,每个shard作为哈勃逻辑层面的最小单元。
Hubble可以使用JAVA SDK、JDBC客户端、SQL等多种访问方式为前端应用提供数据的访问。
在使用hubble时,无论业务规模大小,始终都与小型应用阶段相同,无需改变使用习惯。当业务规模扩大时,只需要添加新的节点,提升数据库的能力,就可以适应业务变化的需要,每个阶段无需付出额外的成本。
Hubble具有实时离线高速入库、超高并发、全部SQL标准三种特性,同时兼具三大目标 。
第一是支持实时、离线高速入库,满足各种入库需要,并支持实时入库,支持离线批量加载,并支持多节点的ACID。
第二支持超高并发,即支持大规模用户访问,支持上万用户在线实时高并发修改和查询。
第三是支持全部标准SQL的语法,提供各种分类、汇总等统计公式,及OLAP分析。
此外,Hubble与MPP数据库impala,还有内存计算Spark的对比,可以看到,50万条、5千万条和5亿条记录的3个测试维度,无论哪个查询,hubble都存在着巨大的优势,hubble基本都是毫秒级响应,而无论是impala还是spark都是分钟级的响应速度。
数据存储在HDFS上,支持数据的批量入库,凭借HDFS的多副本机制,确保数据的高可用性,保证数据不丢失,并具备天然的高扩展性。
对ACID的支持,数据的高一致性,确保新增、修改、删除时数据的一致性,并支持联机操作。利用快照技术,方便记录数据的当前状态,随时对数据对数据进行快照恢复。可以监控集群和Hubble的状态信息,方便数据库管理进行维护和监控。
Hubble使用灵活,无需太多额外的成本,对传统应用的迁移,只需要替换jdbc使用的驱动即可。
既支持OLTP又支持OLAP,一站式的解决联机查询问题,无需部署众多的数据库组件,可以涵盖大部分的业务需求。
在小型应用方面,企业为节省成本,可能选择OLTP数据库,在数据规模小时,可以运转的很好。
但到了中型应用阶段,就会面临资源不够用的问题,这个时候开始做读写分离,分式复用。
过渡到大型应用时期,读写数据开始跑不动,越来越复杂的SQL,这时开始做分库分表操作,并引入了分析型数据库。
最后,巨型应用阶段,开始对不同业务选择不同数据库入口,管理复杂度极高。
这个时候Hubble数据库的引入,就有效解决以上众多问题,降低使用者的门槛,减小开发的投入,方便原有系统的迁移,运行稳定,不需要额外的维护成本。
并且系统在大规模数据量下仍然支持高并发实时响应,减小查询等待时间,从而提升了用户体验,提高了效率。
在游戏和电商数据分析,Hubble可以支持海量的游戏、电商数据的存储,方便对用户进行画像,实现精准营销,并提供秒级的响应速度。
在基础设施监控方面,可以提供准实时入库,对基础实时数据进行流处理,并实时的提供对基础设施数据的监控。
同样在IOT及传感器数据方面,也可以通过实时入库,对物联网数据进行存储、查询及挖掘等。
本文章来源:CSDN社区,用户:L-JingJing,版权归原作者所有
- 点赞
- 收藏
- 关注作者
评论(0)