Dask适配GaussDB开源开发任务

举报
yd_239286208 发表于 2024/10/28 16:35:54 2024/10/28
【摘要】 1 背景介绍开源for Huawei(参考:https://developer.huaweicloud.com/programs/opensource/contributing/)  通过和公司、高校、社区的开发者合作,完成鲲鹏、昇腾、欧拉、鸿蒙、高斯、云服务等与开源软件的适配开发,帮助繁荣Huawei的基础生态,同时让开源软件能够更加简单、高效的运行于华为云上。开始之前,开发者可以下载 开...

1 背景介绍

开源for Huawei(参考:https://developer.huaweicloud.com/programs/opensource/contributing/)  通过和公司、高校、社区的开发者合作,完成鲲鹏、昇腾、欧拉、鸿蒙、高斯、云服务等与开源软件的适配开发,帮助繁荣Huawei的基础生态,同时让开源软件能够更加简单、高效的运行于华为云上。

开始之前,开发者可以下载 开源for Huawei Wiki(参考:https://gitcode.com/HuaweiCloudDeveloper/OpenSourceForHuaweiWiki/overview) 了解详细的开发步骤,技术准备,以及开发过程需要的各种资源。

1 需求分析

1.1 项目影响力

Dask是一个专为数据分析打造的灵活的并行计算库,它不仅能够提升你的工作效率,还能在大规模数据处理中提供强大的支持。通过Dask,你可以无缝地扩展你在单机上使用的现有工具,如NumPy、Pandas和Scikit-learn,而无需从头学习全新的生态系统。Dask的核心是其任务调度器,它将大型计算拆分为小型任务,然后在多核CPU或分布式集群上并行执行这些任务。Dask提供了两种主要的数据结构:DataFrame(Pandas)和Array(类似于NumPy)。这些数据结构可以被切分成小块,并在多个处理器之间高效地分配和运算。此外,Dask具有延迟计算的能力,这意味着它会在真正需要结果时才执行计算,这些有助于优化资源利用。Dask还内置了与分布式存储系统集成的功能,如HDFS S3和Azure Blob存储,使你能够在云和企业环境中方便地处理大规模数据。

项目数据:Fork 1.7kStar 12.5kContributors 576+,最近一次提交:2024-10-16

主要开发语言

Python 99.8%

Other 0.2%

star历史(https://star-history.com/):

1.2 任务目的和范围

本任务的主要目的是让Dask支持华为云 GuassDB数据库,拓展GuassDB数据库的影响力,Dask的用户使用华为云服务时能够顺利对接GuassDB数据库。同时,该任务方便用户在云上做方案选型的时候,可以选择华为云GuassDB数据库,避免用户安装多个类型的数据库,缩短开发周期

l 适配任务清单

生态

生态细类

是否需要验证

验证逻辑说明

是否需要适配

适配场景说明

昇腾生态

指令

使用昇腾处理器运行应用。

使用昇腾指令实现适配逻辑。

CANN

应用功能依赖于CANN运行。

使用CANN实现适配逻辑。

MindSpore

应用功能依赖于MindSpore运行。

使用MindSpore实现适配逻辑。

鲲鹏生态

指令

使用鲲鹏处理器运行应用。

使用鲲鹏指令实现适配逻辑。

Euler

使用Euler系统运行应用。

使用Euler系统调用实现适配逻辑。

数据库生态

GaussDB

使用GaussDB功能。

使用GaussDB的驱动和SQL实现适配逻辑。

 

GaussDB(DWS)

使用GaussDBDWS)功能。

使用GaussDB(DWS)的驱动和SQL实现适配逻辑。

存储生态

OBS

使用OBS功能。

基于OBS API访问实现适配逻辑。

鸿蒙生态

HarmonyOS

使用HarmonyOS系统运行应用。

使用HarmonyOS系统调用实现适配逻辑。

2 工作量评估及任务分解

2.1 工作量评估

任务

/天

基于华为云ECS完成Dask安装和部署

2

完成GaussDB适配功能设计和开发

5

完成DEMO验证

 

1

输出开发资料和博客

1

代码推送上游社区和发布版本

2

总计

11人天

2.2 基于华为云ECS完成Dask的安装和部署

DEMO的简单部署图如下:

系统架构图:

2.3 完成GaussDB数据库适配功能设计和开发

参考现有Dask部署图,完成2个功能点的分析和适配工作。

1.GitCode完成项目Fork,并完成GaussDB数据库适配需要的脚本和代码开发(包括从GaussDB读取业务数据进行统计分析并且把结果数据写到GaussDB).

2.提供Dask镜像,使用该镜像,能够对接GaussDB数据库

2.4  DEMO部署和验证 

根据DEMO设计,完成演示功能开发和部署。创建一条数据流任务,在数据流的输出阶段 Dask可以写入数据(output)到GaussDB数据库。

2.5 在华为云开发者论坛输出博客

访问华为云开发者论坛(参考:https://bbs.huaweicloud.com/blogs)发表博客,介绍完成这些任务的过程和心得。

内容包括不限于如下内容:

  • 开源for Huawei的背景
  • 开源软件的功能介绍
  • 开发适配过程及碰到和解决的问题
  • DEMO设计、开发、部署过程
  • 代码推送开源社区及互动过程

博客打上如下标签:

  • 开源(必选)
  • 开发者(必选)
  • GaussDB数据库(可选)
  • 云数据库 GaussDB(可选)
  • 鲲鹏(可选)
  • 昇腾(可选)
  • 鸿蒙(可选)

2.6 代码推送上游社区

将代码合并到Dask官网主干代码;更新Dask官网资料,包括版本说明、开发指南等。

3 任务评分和验收材料

l 任务价值和难度评分(1~5等)

定级维度

定级细则

定级说明

权重

结果

备注

项目影响力

1、项目价值潜力:
1)未入选开源基金会,设为3
2)入选"ApacheCNCF基金会项目"等开源基金会,设为5

入选基金会的开源项目通常代表技术趋势,能更好识别潜在价值项目,开源基金会包括:Apache基金会、CNCF基金会、开源原子基金会、Linux基金会等

5.00%

 

 

2、社区代码活跃度:
1)社区代码star&fork数在 0k~1k之间,设为1
2)社区代码star&fork数在 1k~3k之间,设为2
3)社区代码star&fork数在 3k~6k之间,设为3
4)社区代码star&fork数在 6k~10k之间,设为4
5)社区代码star&fork数在 10k以上,设为5

代码在社区中的star数、fork数,代表者社区开发者关注度和参与度,通过对star&fork数进行分级,有利于评估开源项目在开发者中影响力

5.00%

 

 

3、开源项目托管仓库:
1)代码在Gitee平台托管,设为1
2)代码在GitHub平台托管,设为3
3)代码在GitCode平台托管,设为4
4)代码在GiteeGitCode)与GitHub中同步托管,设为5

引导开发者积极使用GitCode国内开源社区,以及不同社区的代码同步

5.00%

 

 

4、项目发展潜力:
1)云原生、大数据等,设为3
2AI大模型类、工业软件类、HPC,设为5

扶植优秀的新星项目与华为技术生态做适配

5.00%

 

 

开发复杂度

开发复杂度,用开发过程中涉及的代码量来体现: 
1)编程量:0k~1k之间,设为1
2)编程量:1k~2k之间,设为2
3)编程量:2k~3k之间,设为3
4)编程量:3k~5k之间,设为4
5)编程量:5k及以上,设为5

开发复杂度主要受开发语言复杂度、代码算法复杂度、项目技术资料完整度、部署方式等多种因素的综合影响,故经DTSE分析最终决定根据具体开源项目代码量进行评估

60.00%

 

 

商业化准备度

1、商用案例:
1)完成与华为云开源支配,未支持商用项目,设为1
2)完成与华为云开源适配,并支持商用项目POC,设为3
3)完成与华为云开源适配,并支持商用项目完整交付,设为5

支持商用项目POC甚至是完整交付过程中,需要持续提供技术支持直至落地

20.00%

 

 

最终定级结果

 

 

0

 



l 验收评分(总分100分)

验收细则

评分说明

是否为验收必选项

结果(通过/不通过)

开发者举证

功能开发:完成与华为三大根技术生态(鲲鹏云、昇腾云、鸿蒙)适配的功能开发

完成GaussDB数据库适配功能开发。

 

 

代码质量:适配华为三大根技术生态的代码质量经过工具检测达标

推送给开源社区的代码符合开源社区关于代码风格、功能、自动化测试等要求。

 

 

提供相关文档,比如部署文档、使用文档、配置文档等

根据社区要求,完善相关的开发指南和部署指导

 

 

合入到开源项目主仓:代码推送上游社区

代码合并到当前主干分支。

 

 

Deomo设计&开发:完成功能演示Demo的开发

提供DEMO仓库地址。

 

 

Demo部署&验证:完成功能演示DEMO基于华为云鲲鹏环境的部署和功能验证

提供DEMO部署验证结果的关键截图进行举证。提供DEMO运行环境和资源的截图举证。

 

 

发布博客:发布博客介绍适配心得。

提供博客的地址。

 

 

制作单机版无高危开源镜像。

上架云商店。

 

 

单机版镜像上架时支持模板部署。

 

 

 

制作集群版无高危开源镜像

上架云商店。

 

 

集群版镜像上架时支持模板部署

 

 



4 参考资料

  • 开源for Huawei介绍、环境搭建、示例项目、开发和部署指南:https://gitcode.com/HuaweiCloudDeveloper/OpenSourceForHuaweiWiki/overview
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。