计算机信息化系统中的数据分为结构化数据和非结构化数据。非结构化数据其格式非常多样,标准也是多样性的,而且在技术上非结构化信息比结构化信息更难标准化和理解。
非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据,包括所有格式的办公文档、文本、图片, HTML、各类报表、图像和音频/视频信息等等。
非结构化数据包括所有文件和数据格式,这些文件和数据格式不具有数据模型中必不可少的预定义属性,这种缺乏可识别属性的做法导致了识别和组织非结构化数据的挑战。
非结构化数据与结构化数据区别
在考虑保护这两种类型的信息的途径时,非结构化数据和结构化数据之间的区别非常重要。其中一些是:
结构化数据 | 非结构化数据 |
---|---|
遵循由可识别属性定义的规定数据模型 | 没有可用于组织它的可识别属性 |
可以存储在关系 DBMS 中,以便于排序和访问 | 不能存储在关系 DBMS 中,因为它不符合任何数据模型 |
由于系统存储以及通过查询处理处理和管理数据的能力,因此更容易保持数据完整性。这可用于维护没有重复实例的更新数据版本 | 无法确保数据完整性。由于缺少属性,很难保持数据的一致性,这可能会导致同一数据的多次迭代 |
可以轻松有效地进行分析,以获得丰富的见解 | 由于其巨大的体积和杂乱无章的存储,难以分析 |
非结构化数据类型
非结构化数据可以通过两种方式进行分类:基于源和基于内容。
基于生成来源的非结构化数据
- 人工生成的数据:这包括人们创建、保存并上传到网站或存储在应用程序中的文件、备忘录和其他数据。示例包括上传到社交媒体网站的个人资料照片、姓名和其他敏感个人数据。
- 机器生成的数据:此数据是为特定目的而创建的,例如用于报告、审计或其他流程。示例包括天气和大气数据、监控录像和卫星图像。
基于内容的非结构化数据
- 文本格式:这些数据集包含网页、电子邮件或个人消息线程等文本。
- MNon-textual 格式:这些数据集包含文本以外的格式,包括视频、GIF 和图像等视听组件。
保护非结构化数据
识别非结构化数据确实具有挑战性,但是,自定义工具可用于识别和保护数据存储中的非结构化数据。可以部署以下概念来保护非结构化数据:
- 数据发现
- 数据分类
- 数据丢失防护
- 如何保护数据
数据发现
设置数据发现以识别基于文本的数据和非文本数据。可以使用以下命令对文件存储库进行完整汇总文件分析软件检测非结构化数据。通过使用PII 扫描程序.
数据分类
对已识别的数据进行排序,为其分配正确的优先级。您可以使用数据分类工具。这有助于组织数据存储,并根据数据的重要性应用适当级别的安全控制。
数据丢失防护
跟进数据丢失防护,以保护已识别和分类的数据。通过多因素身份验证和用户授权保护端点。对数据和存储设备进行加密,防止数据被篡改。设置一个健全的跟踪和响应系统,以阻止潜在的数据泄露尝试。
如何保护数据
DataSecurity Plus 为数据可见性和安全性提供了一个全面的平台,可以有效地使用以下功能:
- 数据发现和分类工具:查明敏感数据发生的位置,以帮助遵守 GDPR 和 HIPAA 等数据法规。
- 文件完整性监控工具:审核文件共享以查找关键文件移动,以立即检测未经授权的文件传输和所有权更改。
- 勒索软件检测工具:实时发现勒索软件的潜在指标,并阻止使用恶意软件入侵文件系统的企图。
- 内部威胁监控工具:捕获端点之间或通过电子邮件 (Outlook)、可移动媒体设备等进行的未经授权的文件传输。
- USB保护工具:管理用户在 USB 驱动器上执行的操作,并仅允许访问授权的 USB 设备。
- 安全权限分析器:跟踪文件和文件夹的有效权限,并识别权限不一致之处,以便及时修复。
- 文件分析工具:识别冗余、重复、陈旧或非活动文件,以便清除存储库中的垃圾数据。