数据科学三次PopQuiz
参考答案1
1.数据分析人才的稀缺,Internet与数据密切相关,数据能看清一切,用来预测流感,以及总统竞选和助女排夺冠
2.数据分析技术不应被滥用
3.定义:数据科学是将数据转化为决策和行动(tradecraft)的艺术,是人和计算机一起工作将数据转化为知识发现的工具、技术和流程的整合。数据学科通过收集数据、描述数据、发现知识,进而进行合理的有针对性的预测和建议。
数据特征:1.数据有型和值之分2.数据受数据类型和取值范围的约束3.数据有定性表示和定量表示之分4.数据应具有载体和多种表现形式
4.结构化数据、半结构化数据、非结构化数据
结构化数据: 即行数据, 存储在数据库里,可以用二维表结构来逻辑表达实现的数据 先有结构、再有数据
非结构化数据(包含半结构化):包括所有格式的办公文档、文本、图片等
半结构化数据:就是介于完全结构化数据(如关系型数据库、面向对象数据库中的数据)和完全无结构的数据(如声音、图像文件等)之间的数据。HTML文档就属于半结构化数据。它一般是自描述的,数据的结构和内容混在一起,没有明显的区分。 先有数据,再有结构
5.关系数据库已经无法满足大数据的需求
主要表现在以下几个方面:
无法满足海量数据的管理需求
无法满足数据高并发的需求
无法满足高可扩展性和高可用性的需求
6.Not only SQL
键值数据库、列族数据库、文档数据库和图形数据库
7.键值(Key-Value)数据库
查找快速,扩展性好,灵活性好,大量写操作时性能高
数据无结构,无法存储结构化信息,条件查询效率较低
涉及频繁读写、拥有简单数据模型的应用
内容缓存,比如会话、配置文件、参数、购物车等
存储配置和用户数据信息的移动应用
列族数据库(经典)
查找速度快,可扩展性强(重点优势),
容易进行分布式扩展,复杂性低
功能较少,大都不支持强事务一致性
分布式数据存储与管理
数据在地理上分布于多个数据中心的应用程序
可以容忍副本中存在短期不一致情况的应用程序
拥有动态字段的应用程序
拥有潜在大量数据的应用程序,大到几百TB的数据
文档(Document)数据库
数据是不规则的,每一条记录包含了所有的有关“SequoiaDB”的信息而没有任何外部的引用,这条记录就是“自包含”的。
这使得记录很容易完全移动到其他服务器,因为这条记录的所有信息都包含在里面了,不需要考虑还有信息在别的表没有一起迁移走(无牵挂,迁徙容易)
同时,因为在移动过程中,只有被移动的那一条记录(文档)需要操作,而不像关系型中每个有关联的表都需要锁住来保证一致性,这样一来ACID的保证就会变得更快速,读写的速度也会有很大的提升
图形(Graph)数据库
灵活性高,支持复杂的图形算法,可用于构建复杂的关系图谱
复杂性高,只能支持一定的数据规模
专门用于处理具有高度相互关联关系的数据,
比较适合于社交网络、推荐引擎、模式识别、依赖分析、推荐系统以及路径寻找等问题
参考答案2
1.数据预处理是指对数据进行正式处理(计算)之前,根据后续数据计算的需求对原始数据集进行审计、清洗、变换、集成、脱敏、规约和标注等一系列处理活动,提升数据质量,并使数据形态更加符合某一算法要求,进而达到提升数据计算的效果和降低其复杂度的目的
2.消息鉴别码/Hash函数/数字签名
3.重复过滤:在识别数据中的重复数据的基础上,从每个重复数据项中选择一项记录为代表保留。两个关键活动:识别重复数据
判断方法:根据来源数据的具体结构本身来确定。如,关系表中,考虑属性值的相似性来确定;图论中,根据计算记录之间的距离的方法确定。注意:判断重复记录,并不要求记录的属性值是完全相同的。
过滤重复数据, 两种方法
直接过滤:直接过滤,选择代表性的数据留下。
间接过滤:对重复数据进行一定校验、整合、合并操作之后,形成一条新纪录. (因为重复记录并一定是指相同的记录)
条件过滤:指根据某种条件进行过滤,如过滤掉年龄小于15岁的学生记录。
严格来讲,重复过滤也是条件过滤的一种特殊表现形式。
4.指测量变量中的随机错误或偏差
分箱(Binning):把数据集放入多个箱内,用箱子的均值替换该箱内部的每个数据成员,从而达到降噪目的。
聚类(Clustering):通过聚类检测离群点,将类似的值组织成群或簇。直观地,落在簇集合之外的值视为离群点。
回归(Regression):用一个函数(如回归函数)拟合数据来光滑数据。
5.数据脱敏操作不能停留在简单的将敏感信息屏蔽掉或匿名处理。
数据脱敏的原则:
单向性:从原始数据可以容易得到脱敏数据,但无法从脱敏数据推导出原始数据。
无残留: 保证用户无法通过其他途径还原敏感信息。
易于实现:数据脱敏涉及的数据量大,需要简单的计算方法。如不能采用加密算法来进行脱敏,则计算太复杂。
6.数据预处理工作往往有一定代价的
导致数据损失,甚至可能对数据产生曲解。
因此,应尽可能减少预处理对数据原始内容的改变。
要减少数据预处理工作,必须提升计算方法(平台)的鲁棒性!
[鲁棒是Robust的音译,也就是健壮和强壮的意思。 它也是在异常和危险情况下系统生存的能力。
比如说,计算机软件在输入错误、磁盘故障、网络过载或有意攻击情况下,能否不死机、不崩溃,就是该软件的鲁棒性。
所谓"鲁棒性",也是指控制系统在一定(结构,大小)的参数摄动下,维持其它某些性能的特性。]
从本质上看,数据预处理的必要性的讨论可以归结为两个问题:
一是我们是否接受“数据的复杂性”;(接受复杂性,则意味着对计算平台对数据更有鲁棒性)
二是我们的计算能力是否足以解决数据中的复杂性问题 (计算能力强,则可以省略一些简单的预处理工作)(这就是为什么 大数据和云计算是一对的原因)
随着大数据时代的到来,上层数据处理应用系统的主要需求发生了新的变化。例如,
简单查询操作的响应时间的高度重视
强调应用系统对不断变化的环境的自适应能力等。
同时,上述新趋势也对数据预处理活动提出了新的挑战。
参考答案3
1.“样本”推断“总体”,利用“样本的统计量”来估计“总体的参数”
举例:已有样本的均值去估计总体的均值
点估计&区间估计
2.假设检验(hypothesis test),就是根据已掌握的资料对一个总体参数是否等于某一个数值,某一随机变量是否服从某种概率分布的假设,然后根据所取得的样本资料,利用一定的统计方法计算出有关检验的统计量,依据一定的概率原则,以较小的风险来判断估计数值与总体数值(或估计分布与实际分布)是否存在显著差异,是否应当接受原假设的一种检验方法 。
以小概率原理为基础。
3.最小二乘法
此处,最小二乘法就是使因变量的观察值与估计值之间的离差平方和达到最小来求得 和 的方法,即
[高斯证明了最小二乘方法的一个最优性质: 在所有无偏的线性估计类中,最小二乘方法是其中方差最小的!]
4.定律1:如果一个集合是频繁项集,则它的所有子集都是频繁项集
定律2:如果一个集合不是频繁项集,则它的所有超集都不是频繁项集
5.BCE
6.缺点:对数据库的扫描次数过多;每次计算项集的支持度时,都对数据库D中的全部记录进行了一遍扫描比较,如果是一个大型的数据库的话,这种扫描比较会大大增加计算机系统的I/O开销。而这种代价是随着数据库的记录的增加呈现出几何级数的增加。
Apriori算法会产生大量的中间项集;
算法的适应面窄
改进:优化思路:
划分方法:挖掘频繁项集只需要两次数据扫描 ,
D中的任何频繁项集必须作为局部频繁项集至少出现在一个部分中。
第一次扫描:将数据划分为多个部分并找到局部频繁项集。
第二次扫描:评估每个候选项集的实际支持度,以确定全局频繁项集。 (这样就可以采用MAP-REDUCE方法)
采用(在给定数据的一个子集挖掘) 方法:
基本思想:选择原始数据的一个样本,在这个样本上用Apriori算法挖掘频繁模式
通过牺牲精确度来减少算法开销,为了提高效率,样本大小应该以可以放在内存中为宜,可以适当降低最小支持度来减少遗漏的频繁模式
可以通过一次全局扫描来验证从样本中发现的模式
可以通过第二此全局扫描来找到遗漏的模式
- 点赞
- 收藏
- 关注作者
评论(0)