GCP BigQuery与PostgreSQL对比
1 前言
BigQuery系Google的数仓产品,作为主流的数仓产品之一,应用广泛。笔者曾参与BigQuery近两年的业务开发,对该产品有所了解,本次针对BigQuery与PostgreSQL对比,分享给大家。
2 Bigquery简介
2.1 GCP简介
GCP(Google Cloud Platform)是谷歌提供的云计算服务平台,提供一系列云计算服务,包括计算、存储、网络、完全等方面的服务,用户可根据实际需求选择不同的服务来构建云计算环境。
GCP中的核心云计算产品包括:
- Google Compute Engine,这是一种基础架构即服务 ( IaaS ) 产品,可为用户提供用于工作负载托管的虚拟机实例。
- Google App Engine, 这是一种平台即服务 ( PaaS ) 产品,可让软件开发人员访问 Google 的可扩展托管。开发人员还可以使用软件开发工具包 ( SDK ) 来开发在 App Engine 上运行的软件产品。
- Google Cloud Storage, 这是一个云存储平台,旨在存储大型非结构化数据集。Google 还提供数据库存储选项,包括用于NoSQL 非关系存储的Cloud Datastore 、用于MySQL 完全关系存储的Cloud SQL 和 Google 的原生 Cloud Bigtable 数据库。
- Google Container Engine,它是运行在 Google 公共云中的Docker容器的管理和编排系统 。Google Container Engine 基于 Google Kubernetes 容器编排引擎。
- Google Cloud Platform 提供应用程序开发和集成服务。例如,Google Cloud Pub/Sub 是一种托管的实时消息传递服务,允许在应用程序之间交换消息。此外,Google Cloud Endpoints 允许开发人员创建基于RESTful API 的服务 ,然后让 Apple iOS、Android 和 JavaScript 客户端可以访问这些服务。其他产品包括 DNS 服务器、直接网络互连、 负载平衡、监控和日志服务。
2.2 BigQuery简介
BigQuery 是一种全代管式企业数据仓库,可帮助您使用机器学习、地理空间分析和商业智能等内置功能管理和分析数据。BigQuery 的无服务器架构允许您使用 SQL 查询来回答组织面临的最大问题,而无需管理基础架构。BigQuery 的可扩缩、分布式分析引擎可让您在几秒钟内查询 TB 级数据,在几分钟内查询 PB 级数据。
BigQuery 实现分析数据的计算引擎与存储选项分离,可最大限度地提高灵活性。您可以在 BigQuery 中存储和分析数据,也可以使用 BigQuery 来考查您的数据位于何处。借助联合查询,您可以从外部源读取数据,而流式传输则支持连续的数据更新。BigQuery ML 和 BI Engine 等强大的工具可让您分析和理解这些数据。
BigQuery 界面包括 Google Cloud 控制台界面和 BigQuery 命令行工具。开发者和数据科学家可以将客户端库与熟悉的编程语言(包括 Python、Java、JavaScript 和 Go)以及 BigQuery 的 REST API 和 RPC API 搭配使用,以转换和管理数据。ODBC 和 JDBC 驱动程序可与现有应用(包括第三方工具和实用程序)进行交互。
BigQuery架构如下图:
3 BigQuery与PosterSQL对比
3.1 数据类型
3.2 对象
3.3 分区表
3.4 SQL
3.5 建表特别注意的SQL保留字
4 参考资料
- 谷歌云平台(GCP)介绍
https://zhuanlan.zhihu.com/p/407921435
- Google Cloud文档
https://cloud.google.com/docs?hl=zh-cn
- BigQuery开发文档
https://cloud.google.com/bigquery/docs/introduction?hl=zh-cn
- 点赞
- 收藏
- 关注作者
评论(0)