建议使用以下浏览器,以获得最佳体验。 IE 9.0+以上版本 Chrome 31+ 谷歌浏览器 Firefox 30+ 火狐浏览器
请选择 进入手机版 | 继续访问电脑版
设置昵称

在此一键设置昵称,即可参与社区互动!

确定
我再想想
选择版块

jhtchina

发帖: 1粉丝: 2

级别 : 新手上路

Rank: 1

发消息 + 关注

发表于2019-3-13 15:43:10 7642 19 楼主 显示全部楼层
[专家内容专区] 【云享专家•微话题】Jack.jia邀你探讨数据标准建设,赢取好礼!

880_350.jpg


微话题名称“数据标准建设,以高校信息化建设为例”

希望大家能够畅所欲言。如果大家有其他任何与数据标准建设相关的问题,也可以在本帖回复直接咨询云享专家jack.jia

=======【云享专家·微话题】数据标准建设 =======


企业(高校)信息化系统与工程建设过程中数据标准建设已经成为了一个制约信息化发展的重要问题,为发现数据价值而开展数据治理成为各方的一个关注问题,本话题通过数据标准建设提出了一套打破数据壁垒,解决数据孤岛问题的解决办法,主要涉及数据标准,数据质量分析,数据交换平台,数据总线平台,数据展示平台,应用容器引擎等方面展开介绍高质量的数据标准建设完成以后,相信有一天,可以作为智慧校园建设的重要组成部分,起着一个关键性的作用。




信息化系统与工程建设过程中,对于数据整理,数据关系,数据质量,数据防线和数据可视化大家都有各自的理解和观点,,今天我们就“数据标准建设”为题一起来讨论,希望看到大家精彩的评论:

数据标准的数据抽取如何解决?

数据清洗问题如何解决?

数据标准建设过程中,元数据管理与评价如何进行?

数据总线在数据标准开发过程中的重要意义是什么,如何实现?

应用容器引擎(docket)如何支撑数据标准体系中的各个应用?

敏捷大数据在数据标准建设过程中如何应用



微话题活动:参与本次微话题讨论,有机会获得优质评论奖

活动时间2019314-327

参与方式:直接在本帖回复你关于以上6个问题中的3个问题的理解或评论

获奖方式:活动结束后,将由云享专家 jack.jia  选取出2名优质评论奖,各送出50元华为云代金券。




举报
分享

分享文章到朋友圈

分享文章到微博

aprioy

发帖: 231粉丝: 33

级别 : 版主

Rank: 7Rank: 7Rank: 7

发消息 + 关注

发表于2019-3-13 16:27:02 沙发 显示全部楼层

给力~!

点赞 引用 举报

jhtchina

发帖: 1粉丝: 2

级别 : 新手上路

Rank: 1

发消息 + 关注

发表于2019-3-13 16:53:27 板凳 显示全部楼层

image.png

最好在完全开源环境下搭建

主要涉及到以上产品和服务,欢迎大家指导

交换平台可以采用kettle ,Talend 

总线部分可以采用 open esb, JBoss ESB

数据展示平台 davinci

数据库采用mysql ,非结构化采用 mongodb

数据质量评价工具 需要单独开发

点赞 引用 举报

dongli

发帖: 0粉丝: 0

级别 : 新手上路

Rank: 1

发消息 + 关注

发表于2019-3-15 18:09:03 地板 显示全部楼层

赞一个,讲解很到位

点赞1 引用 举报

szjm

发帖: 0粉丝: 0

级别 : 新手上路

Rank: 1

发消息 + 关注

发表于2019-3-18 09:10:25 5# 显示全部楼层

GB∕T 36342-2018 智慧校园总体框架

JYT1001_教育管理基础代码

JYT1002_教育管理基础信息

JYT1003_教育行政管理信息

JYT1006_高等学校管理信息

JYT1007_教育统计信息

这个标准是建设的主题


点赞 引用 举报

andyleung

发帖: 23粉丝: 6

级别 : 版主

Rank: 7Rank: 7Rank: 7

发消息 + 关注

发表于2019-3-18 09:32:49 6# 显示全部楼层

数据标准的数据抽取如何解决?

 用对应的工具去整。

数据清洗问题如何解决?

  在源头上收集的时候就不收集具体信息。

数据标准建设过程中,元数据管理与评价如何进行?

  按照标准去进行,找到平衡点。

数据总线在数据标准开发过程中的重要意义是什么,如何实现?

  框架的意义吧,就是在开发过程中,要遵循它的标准和规范。

应用容器引擎(docket)如何支撑数据标准体系中的各个应用?

  作为一个核心引擎去整合。

敏捷大数据在数据标准建设过程中如何应用

  这就是一个概念,实现到这一步,得一个厉害的超级厉害的大数据大神架构师才能搞定的了,什么都敏捷。敏捷也不一定好,敏捷的管理成本也不低。


点赞1 引用 举报

jhtchina

发帖: 1粉丝: 2

级别 : 新手上路

Rank: 1

发消息 + 关注

发表于2019-3-18 09:49:50 7# 显示全部楼层

目前我的进度如下,

https://github.com/jhtchina/DataCenterplatform/blob/master/datastandard1.pdf

有兴趣的专家可以进一步讨论



点赞 引用 举报

1226741228

发帖: 0粉丝: 2

级别 : 新手上路

Rank: 1

发消息 + 关注

发表于2019-3-18 11:29:55 8# 显示全部楼层

1 数据标准的数据抽取如何解决?

数据抽取的表现形式:(1)字段分列:截取某一字段的部分信息。(2)字段合并:将某几个字段合并为一个新字段。(3)字段匹配:将原数据表没有,但其他数据表中有的字段,有效地匹配过来。

字段分列采用的方法:(1)菜单法(2)函数法。字段合并可采用,CONCATENATE(text1,text2,text3,...........)将几个文本字符串合并为一个文本字符串,text项可以为文本字符串,数字,或者对单元格的引用。字段匹配可采用,VLOOKUP函数:在表格的首列查找指定的数据,并返回指定的数据所在行中的指定列处的单元格内容。

VLOOKUP(lookup_value,table_array,col_index_num,range_lookup)\


2 数据清洗问题如何解决?

在数据挖掘过程中,数据清洗主要根据探索性分析后得到的一些结论入手,然后主要对四类异常数据进行处理,分别是缺失值、异常值、去重处理以及噪音数据的处理。

探索性分析:这个部分是对数据的初步认识以及对先验知识的探索分析过程,利用python相关的科学计算库进行探索,例如数据类型,缺失值,数据集规模,各特征下的数据分布情况等,并利用第三方绘**进行直观的观察,以获取数据的基本属性与分布情况,另外,通过单变量分析与多变量分析,可以初步探索数据集中各特征之间的关系,以验证在业务分析阶段所提出的假设。

缺失值:(1)在缺失率少且属性重要程度低的情况下,若属性为数值型数据则根据数据分布情况简单的填充即可,例如:若数据分布均匀,则使用均值对数据进行填充即可;若数据分布倾斜,使用中位数填充即可。若属性为类别属性,则可以用一个全局常量‘Unknow’填充,但是,这样做往往效果很差,因为算法可能会将其识别为一个全新的类别,因此很少使用。

(2)当缺失率高(>95%)且属性重要程度低时,直接删除该属性即可。然而在缺失值高且属性程度较高时,直接删除该属性对于算法的结果会造成很不好的影响。

(3)缺失值高,属性重要程度高:主要使用的方法有插补法与建模法。

异常值:(1)简单的统计分析。(2)3∂原则--基于正态分布的离群点检测。(3)基于模型检测。(4)基于距离。(5)基于密度。(6)基于聚类。

处理异常的方法:(1)删除异常值----明显看出是异常且数量较少可以直接删除。(2)不处理---如果算法对异常值不敏感则可以不处理,但如果算法对异常值敏感,则最好不要用这种方法,如基于距离计算的一些算法,包括kmeans,knn之类的。(3)平均值替代----损失信息小,简单高效。(4)视为缺失值----可以按照处理缺失值的方法来处理

去重处理:对于重复项的判断,基本思想是“排序与合并”,先将数据集中的记录按一定规则排序,然后通过比较邻近记录是否相似来检测记录是否重复。这里面其实包含了两个操作,一是排序,二是计算相似度。目前在做竞赛过程中主要是用duplicated方法进行判断,然后将重复的样本进行简单的删除处理。

噪音处理:对于噪音的处理主要采用分箱法于回归法进行处理。


3 数据标准建设过程中,元数据管理与评价如何进行?

各类元数据:数据库元数据、管理型元数据、业务元数据、数据字典元数据、脚本元数据。对各类元数据实行统一管理,包括增删改查预览等操作。

评价标准:准确性、完备性、及时性、重复性、一致性、合规性。可采用数据质量监控:质量点监控、数据剖析、数据指标、表空间监控、表监控、SQL脚本监控。


4 数据总线在数据标准开发过程中的重要意义是什么,如何实现?

数据总线相当于数据的总干道,所有的关键数据都会经过这条干道,实现数据的汇集,所以保证总线承载量以及畅通性至关重要。

如果是各类型的实时数据接入可采用flume、flink、kafka这样的大数据组件,存储在hdfs上。


5 应用容器引擎(docket)如何支撑数据标准体系中的各个应用?

主要体现在三个方面:(1)编译。Docker 允许您用微服务方式组织您的应用程序,而不用担心上线环境和测试环境不一致,并且不用关心运行平台和语言,Docker 镜像是跨平台的,真正实现一次编译,到处运行。

(2)装运。通过 Docker 可以设计应用程序开发,测试,发布的整个周期,并且用统一的用户接口去管理,Docker 提供了两个非常重要的概念,Docker 容器和 Docker 镜像,目前几乎成为企业标准。

(3)运行。Docker 可以部署可扩展的服务,Docker 容器具有很好的隔离性,程序运行在 Docker 容器中更加安全可靠,可以部署运行在各种 Linux X64 平台上。


6 敏捷大数据在数据标准建设过程中如何应用

敏捷大数据架构除了支持大规模数据增长之外,更重要的是能适应大数据分析业务的扩展和变化,通过容器和服务化技术,具备高容错性和稳定性,能支持大数据分析的失败处理和自动恢复等,能在海量数据条件下快速完成多种计算模型和分析处理,能基于数据融合单元和计算服务化技术,支持多模态计算和多模式计算任务处理,能在有限的成本条件下提高大数据分析效率。


评论
顶你: 5.0
andyleung 2019-3-19 12:06 评论

顶你: 5
真的大神出现了!绝对跪拜的!我跪了!!!!!!!五体投地!!!!!!

... 查看全部
点赞2 引用 举报

andyleung

发帖: 23粉丝: 6

级别 : 版主

Rank: 7Rank: 7Rank: 7

发消息 + 关注

发表于2019-3-19 12:11:13 9# 显示全部楼层

坦白说我觉得现在高校也好,国企政府也好,就是有的时候调研什么的,有点过分的多,其实我觉得可以一边实战一边学习经验,而不是理论标准搞了一大堆来框住自己的手脚,还是适当调研,然后做项目,从而获取更好的实践经验,然后再反过来思考之前的调研和适当的标准。

点赞1 引用 举报

jhtchina

发帖: 1粉丝: 2

级别 : 新手上路

Rank: 1

发消息 + 关注

发表于2019-3-19 13:21:47 10# 显示全部楼层

针对@1226741228提到的问题,

目前是第一阶段,第二阶段主要是在大数据上展开,主要包括存储引擎、资源管理、计算引擎、分析引擎、交互前端、数据管理、任务管理、用户管理等,非常感谢评论。

评论
顶你: 5.0
andyleung 2019-3-20 10:22 评论

顶你: 5

... 查看全部
点赞1 引用 举报

游客

富文本
Markdown
您需要登录后才可以回帖 登录 | 立即注册