数据安全技术集锦教程

举报
tea_year 发表于 2025/11/29 21:52:49 2025/11/29
【摘要】 一、关于数据安全的总体做法1、物理安全--机房安全保护大数据平台的物理安全是保障大数据平台安全的第一步。一方面,需要将大数据服务器放置在安全可靠的机房或数据中心,并对机房进行严格的安全管理和监控。另一方面,需要对终端节点进行保护,确保终端节点不被非法人员侵入。2、网络安全-- 授权谁能访问我大数据平台通常由多个节点组成,节点之间相互连接,因此网络安全也是大数据平台安全的重要方面。首先,需要建...

一、关于数据安全的总体做法

1、物理安全--机房安全

保护大数据平台的物理安全是保障大数据平台安全的第一步。一方面,需要将大数据服务器放置在安全可靠的机房或数据中心,并对机房进行严格的安全管理和监控。另一方面,需要对终端节点进行保护,确保终端节点不被非法人员侵入。

2、网络安全-- 授权谁能访问我

大数据平台通常由多个节点组成,节点之间相互连接,因此网络安全也是大数据平台安全的重要方面。首先,需要建立安全的网络环境,包括网络拓扑和网络设备的选择。其次,需要对网络进行加密和安全认证,防止非法人员进入。最后,需要对网络进行安全检测和监控,及时发现和防范网络攻击。

3、数据安全 -- 数据的备份以及授权(数据库)

大数据平台中存储着大量的敏感数据,因此数据安全是保障大数据平台安全的核心。首先,需要对数据进行加密和安全认证,防止非法人员获取敏感数据。其次,需要对数据进行备份和恢复,确保数据不会因为硬件故障等原因遗失。最后,需要对数据进行访问权限控制,确保敏感数据只能被授权的人员访问。

4、应用安全(java、php)

大数据平台的应用程序也是安全保障的重要方面。首先,需要对应用程序进行安全测试和漏洞扫描,确保应用程序没有安全漏洞。其次,需要对应用程序进行监控和追踪,及时发现和防范应用程序攻击。最后,需要对应用程序进行接口认证和加密,保证应用程序数据传输的安全性。

二、数据传输过程中的常见加密算法

在数字化时代,数据传输的安全性至关重要,数据传输用什么加密算法呢?本文将为您详细解答这一问题,并深入探讨数据传输加密的多个方面,帮助您更好地了解数据传输加密的奥秘。

问:数据传输用什么加密算法?

答:数据传输过程中,常用的加密算法包括对称加密算法(如AES、DES等)、非对称加密算法(如RSA、ECC等)以及哈希算法(如SHA-256、MD5等),这些算法各有特点,适用于不同的场景和需求。

对称加密算法在数据传输中的应用

对称加密算法是指加密和解密使用相同密钥的算法,在数据传输中,对称加密算法因其高效性和快速性而得到广泛应用,AES(高级加密标准)算法就是一种广泛使用的对称加密算法,它提供了多种密钥长度选择,能够满足不同安全级别的需求,在数据传输过程中,发送方使用AES算法和密钥对数据进行加密,接收方使用相同的密钥进行解密,从而确保数据在传输过程中的安全性。

非对称加密算法在数据传输中的作用

非对称加密算法则使用一对密钥进行加密和解密操作,其中公钥用于加密数据,私钥用于解密数据,这种算法在数据传输中主要用于实现数据的机密性和完整性保护,RSA算法是一种典型的非对称加密算法,它广泛应用于数字签名、身份验证等领域,在数据传输过程中,发送方可以使用接收方的公钥对数据进行加密,确保只有拥有对应私钥的接收方才能解密数据,发送方还可以使用自己的私钥对数据进行签名,以验证数据的完整性和真实性。

哈希算法在数据传输中的辅助作用

哈希算法则是一种将任意长度的数据映射为固定长度哈希值的算法,在数据传输中,哈希算法主要用于验证数据的完整性和防止篡改,SHA-256算法就是一种常用的哈希算法,它能够将任意长度的数据转换为256位的哈希值,在数据传输过程中,发送方可以计算数据的哈希值并发送给接收方,接收方在收到数据后也计算哈希值并与发送方提供的哈希值进行比对,如果两者一致,则说明数据在传输过程中未被篡改;否则,说明数据可能已被篡改或损坏。

数据传输加密的综合应用策略

在实际应用中,为了进一步提高数据传输的安全性,通常会采用多种加密算法的综合应用策略,可以使用对称加密算法对数据进行加密以提高传输效率,同时使用非对称加密算法对密钥进行加密以确保密钥的安全性;还可以使用哈希算法对数据进行完整性验证以防止数据被篡改,还可以结合其他安全技术如***、SSL/TLS等来实现更全面的数据传输安全保障。

数据传输过程中使用的加密算法多种多样,每种算法都有其独特的优势和适用场景,在实际应用中,应根据具体需求和场景选择合适的加密算法和技术手段来确保数据传输的安全性。

三、大数据中各种软件在设计时考虑的数据防丢失的做法(跟咱们今天讨论的不是一个事儿)

- a. 操作日志:将内存变化操作日志追加记录在一个文件中,下一次读取文件对内存重新操作

- NAMENODE:元数据的操作日志记录在edits

- MySQL:日志记录binlog ()

- b. 副本机制:将数据构建多份冗余副本

- HDFS:构建每个数据块的3个副本

- c. 依赖关系:每份数据保留与其他数据之间的一个转换关系

- RDD:保留RDD与其他RDD之间的依赖关系


四、保护大数据安全的 10 大要点

一项对2021年数据泄露的分析显示,总共有50亿份数据被泄露,这对所有参与大数据管道工作的人来说,从开发人员到DevOps工程师,安全性与基础业务需求同等重要。

什么是大数据安全?

大数据安全是指在存储、处理和分析过于庞大和复杂的数据集时,采用任何措施来保护数据免受恶意活动的侵害,传统数据库应用程序无法处理这些数据集。大数据可以混合结构化格式(组织成包含数字、日期等的行和列)或非结构化格式(社交媒体数据、PDF 文件、电子邮件、图像等)。不过,估计显示高达90%的大数据是非结构化的。

大数据的魅力在于,它通常包含一些隐藏的洞察力,可以改善业务流程,推动创新,或揭示未知的市场趋势。由于分析这些信息的工作负载通常会将敏感的客户数据或专有数据与第三方数据源结合起来,因此数据安全性至关重要。声誉受损和巨额经济损失是大数据泄露和数据被破坏的两大主要后果。

在确保大数据安全时,需要考虑三个关键阶段:

当数据从源位置移动到存储或实时摄取(通常在云中)时,确保数据的传输

保护大数据管道的存储层中的数据(例如Hadoop分布式文件系统)

确保输出数据的机密性,例如报告和仪表板,这些数据包含通过Apache Spark等分析引擎运行数据收集的情报

这些环境中的安全威胁类型包括不适当的访问控制、分布式拒绝服务(DDoS)攻击、产生虚假或恶意数据的端点,或在大数据工作期间使用的库、框架和应用程序的漏洞。

保护大数据的挑战

由于所涉及的架构和环境复杂性,大数据安全面临着许多挑战。在大数据环境中,不同的硬件和技术在分布式计算环境中相互作用。比如:

像Hadoop这样的开源框架在设计之初并没有考虑到安全性

依赖分布式计算来处理这些大型数据集意味着有更多的系统可能出错

确保从端点收集的日志或事件数据的有效性和真实性

控制内部人员对数据挖掘工具的访问,监控可疑行为

运行标准安全审计的困难

保护非关系NoSQL数据库

这些挑战是对保护任何类型数据的常见挑战的补充。

10个大数据安全实践

1.加密

静态数据和传输中数据的可扩展加密对于跨大数据管道实施至关重要。可扩展性是这里的关键点,因为除了NoSQL等存储格式之外,需要跨分析工具集及其输出加密数据。加密的作用在于,即使威胁者设法拦截数据包或访问敏感文件,实施良好的加密过程也会使数据不可读。

2.用户访问控制

比如可以使用 apache ranger 等工具、大数据权限认证 Kerberos

获得访问控制权可针对一系列大数据安全问题提供强大的保护,例如内部威胁和特权过剩。基于角色的访问可以帮助控制对大数据管道多层的访问。例如,数据分析师可以访问分析工具,但他们可能不应该访问大数据开发人员使用的工具,如ETL软件。最小权限原则是访问控制的一个很好的参考点,它限制了对执行用户任务所必需的工具和数据的访问。


3.云安全监控

大数据工作负载所需要的固有的大存储容量和处理能力使得大多数企业可以为大数据使用云计算基础设施和服务。但是,尽管云计算很有吸引力,暴露的API密钥、令牌和错误配置都是云中值得认真对待的风险。如果有人让S3中的AWS数据湖完全开放,并且对互联网上的任何人都可以访问,那会怎么样?有了自动扫描工具,可以快速扫描公共云资产以寻找安全盲点,从而更容易降低这些风险。

4.集中式密钥管理

在复杂的大数据生态系统中,加密的安全性需要一种集中的密钥管理方法,以确保对加密密钥进行有效的策略驱动处理。集中式密钥管理还可以控制从创建到密钥轮换的密钥治理。对于在云中运行大数据工作负载的企业,自带密钥 (BYOK) 可能是允许集中密钥管理而不将加密密钥创建和管理的控制权交给第三方云提供商的最佳选择。

5.网络流量分析

在大数据管道中,由于数据来自许多不同的来源,包括来自社交媒体平台的流数据和来自用户终端的数据,因此会有持续的流量。网络流量分析提供了对网络流量和任何潜在异常的可见性,例如来自物联网设备的恶意数据或正在使用的未加密通信协议。

6.内部威胁检测

2021年的一份报告发现,98%的组织感到容易受到内部攻击。在大数据的背景下,内部威胁对敏感公司信息的机密性构成严重风险。有权访问分析报告和仪表板的恶意内部人员可能会向竞争对手透露见解,甚至提供他们的登录凭据进行销售。从内部威胁检测开始的一个好地方是检查常见业务应用程序的日志,例如 RDP、VPN、Active Directory 和端点。这些日志可以揭示值得调查的异常情况,例如意外的数据下载或异常的登录时间。

7.威胁追踪

威胁搜寻主动搜索潜伏在您的网络中未被发现的威胁。这个过程需要经验丰富的网络安全分析师的技能组合,利用来自现实世界的攻击、威胁活动的情报或来自不同安全工具的相关发现来制定关于潜在威胁的假设。具有讽刺意味的是,大数据实际上可以通过发现大量安全数据中隐藏的洞察力来帮助改进威胁追踪工作。但作为提高大数据安全性的一种方式,威胁搜寻会监控数据集和基础设施,以寻找表明大数据环境受到威胁的工件。

8. 事件调查

出于安全目的监视大数据日志和工具会产生大量信息,这些信息通常最终形成安全信息和事件管理(SIEM)解决方案。

9.用户行为分析

用户行为分析比内部威胁检测更进一步,它提供了专门的工具集来监控用户在与其交互的系统上的行为。通常情况下,行为分析使用一个评分系统来创建正常用户、应用程序和设备行为的基线,然后在这些基线出现偏差时进行提醒。通过用户行为分析,可以更好地检测威胁大数据环境中资产的保密性、完整性或可用性的内部威胁和受损的用户帐户。

10.数据泄露检测

未经授权的数据传输的前景让安全领导者彻夜难眠,特别是如果数据泄露发生在可以复制大量潜在敏感资产的大数据管道中。检测数据泄露需要对出站流量、IP地址和流量进行深入监控。防止数据泄露首先来自于在代码和错误配置中发现有害安全错误的工具,以及数据丢失预防和下一代防火墙。另一个重要方面是在企业内进行教育和提高认识。


【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。