商业智能杂记

举报
黄生 发表于 2023/09/25 08:32:00 2023/09/25
【摘要】 商业智能(Business Intelligence BI)将商业分析方法、数据可视化技术、数据挖掘技术结合在一起,帮助企业更好地利用数据进行科学决策。商业智能应用已从报表级、部门级应用,向企业级智能决策平台转型。商业智能的流程活动:数据准备:收集多个不同的数据源,确定维度和度量,为数据分析做准各。数据查询:提出具体的数据需求,让商业智能系统从数据集群中提取出所需要的数据统计分析:通过描述性...

商业智能(Business Intelligence BI)将商业分析方法、数据可视化技术、数据挖掘技术结合在一起,帮助企业更好地利用数据进行科学决策。商业智能应用已从报表级、部门级应用,向企业级智能决策平台转型。

商业智能的流程活动:
数据准备:收集多个不同的数据源,确定维度和度量,为数据分析做准各。
数据查询:提出具体的数据需求,让商业智能系统从数据集群中提取出所需要的数据
统计分析:通过描述性分析获取初步分析结果,并使用统计方法对数据做进一步探索
数据挖掘:在大型数据集中使用数据挖掘、机器学习算法等发现数据变化的趋势和规律。
报告生成:与利益相关者共享数据,帮助他们得出结论和制定决策。
数据可视化:以直观的形式呈现结果,使人们可以更方便地理解数据。
可视化分析:以故事的方式来探索数据,实现对见解的展示并保持分析的连贯性。
描述性分析:用统计的方法进行初步数据分析,以确定数据的实际情况
绩效指标比较:比较企业的经营业绩和历史数据,以确定是否己实现目标。

数据仓库之父比尔恩门(Bill Inmon)在1991年出版了《建立数据仓库》,提出了数据仓库的定义:一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合。
数据仓库与数据库应用系统不同,其更像是一个流程,主要是对分布在企业内部的业务数据进行集成、处理和分析。建立数据仓库的最终目标是为企业提供决策支持。

在建立数据仓库的过程中,最难的部分是用户需求调查、业务分析及商业模式的设计,而占据了工程大部分工作时间的是数据的转换与清理,即ETL。
数据仓库中的数据导入部分一般是在批处理模式下操作的。数据源以确定的时间频率获取,通常为每日、每星期或每个月,然后,数据仓库的ETL子系统将它们提取、转换和清洗,并将它们导入数据仓库中。较为流行的ETL商业工具,如MySQL公司的OWB、ODI,IBM的DataStage等。

Apache Superset是基于Python的开源BI工具,是一个大数据探索和可视化平台,用户可以使用无代码可视化构建器和SQL编辑器,方便、快捷地创建数据看板,设置可视化样式,例如,基础柱状图、词云、地图、树形图等。这些都能为数据分析员提供丰富的可视化图表。
2015年由Airbnb企业研发和开源,并于2017年5月进入Apache孵化器,在2021年1月成为Apache软件基金会的顶级项目。

CIickHouse是俄罗斯第一大搜索引擎公司Yandex开发的列式存储数据库。性能超越了很多商业MPP数据库软件,如Vertica、InfiniDB等。它最早是为Yandex Metrica(全球第二大web分析平台)系统开发的,作为这个系统的核心组件己经连续使用了多年。
ClickHouse性能超过了市面上大部分的列式存储数据库,当数据量为100万条时,CIickHouse运行速度比vertica约快5倍,比Hive约快279倍,比MySQL约快801倍:当数据量为10亿条时,CIickHouse运行速度比vertica约快5倍,Hive和MySQL己经无法完成任务了。

列式数据库适合数据分析类型的场景,比如一张4行的学生成绩表中,要统计成绩的中位数,在行数据库中,需要将四行数据都遍历出来,取出成绩;而在列式数据库中,只需要将成绩这一列的数据取出来就可以进行分析计算。

列式数据库的优势如下;

1、针对分析类查询,通常只需要读取表的一小部分列。在列式数据库中你可以只读取你需要的数据。例如,如果只需要读取100列中的5列,这将帮助你最少减少20倍的I/O消耗。

2、由于数据总是打包成批量读取的,所以压缩是非常容易的。同时数据按列分别存储这也更容易压缩。这进一步降低了I/O的体积。

3、由于I/O的降低,这将帮助更多的数据被系统缓存。

OLAP型数据库有一些关键性的场景:
12、每个查询有一个大表。除了他以外,其他的都很小。
13、查询结果明显小于源数据。换句话说,数据经过过滤或聚合,因此结果适合于单个服务器的RAM中

特性:
8、实时的数据更新,数据可以持续不断地高效的写入到表中,并且写入的过程中不会存在任何加锁的行为。
9、索引,按照主键对数据进行排序,这将帮助ClickHouse在几十毫秒以内完成对数据特定值或范围的查找。

缺点:
1、没有完整的事务支持。
2、缺少高频率,低延迟的修改或删除已存在数据的能力。仅能用于批量删除或修改数据。
3、ClickHouse不适合通过检索单行的点查询。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。