NaN

NaN

在线咨询二维码
联系电话

交流群二维码
回到顶部

回到顶部

什么是数据完整性?数据溯源对于数据完整性的重要性

数据集成数据采集

作者: 数环通发布时间: 2024-08-29 15:15:30

您是否曾与客户服务代表交谈以更正个人详细信息——例如姓名拼写错误(例如:Michelle而不是Michael)、转置街道号码(例如:1/34单元,而不是34/1单元)或其他缺失或不正确的细节?这些是数据完整性失败的情况。


与数据完整性失败相关的其他现实后果包括:

  • 由于帐号错误,难以从金融交易中收回资金。

  • 由于嵌入笑脸表情符号,移动支付失败。

  • 由于地址错误,从未收到过包裹,例如,在不同州为同一郊区名称使用了错误的邮政编码。


事实上,旨在保护正确数据的业务政策使修复数据错误变得痛苦。虽然保护个人身份信息(PII)的政府法规使注册后更改PII数据对客户来说变得困难和劳动密集型。为了避免像这些例子中那样影响客户体验,我们需要强大的数据完整性。


数据完整性是一个必要的业务绩效流程,对于应对数据在注册、复制和以其他方式从现实世界的事实和事件中转录时所经历的错误至关重要。


随着组织越来越多地使用的数字流程变得数据驱动,特别是通过使用机器学习,有效做出数据驱动的业务决策的能力越来越受到组织运营和分析数据的完整性的影响。


什么是数据完整性?数据溯源对于数据完整性的重要性


以下将探讨数据完整性在您组织中的作用。


什么是数据完整性?


完整性意味着数据是可信和依赖的。在会计学中,财务业绩的报告标准意味着财务报表中报告的数字必须准确、完整和一致。


数据完整性也适用同样的标准。这些因素可以应用于数据来测试其完整性:

  • 它是完整的,没有缺失的数据元素

  • 它是准确的,没有来自源的数据错误

  • 它在不同背景下是一致的

  • 它是及时和最新的


当这四个条件不满足时,数据可能会通过完整性措施。其中许多并不明显,这些问题有时只能通过业务流程失败或全面的数据分析工作来发现。


数据不完整


由于信息系统的历史限制,由于字段不足,可能无法捕获所有数据。由于数据模式的可扩展性,这在今天不太常见,然而,它可能会导致数据在错误的字段中捕获(错误分类)或在需要更多时浓缩到一个字段中。这引入了噪音,降低了可用性。


虽然许多系统都有必填字段,但过多的必填字段将减慢客户注册流程。这种商业选择也可能导致数据不完整。


数据不准确


许多类型的数据,如SSN和驾驶执照号码,由一长串容易发生人为错误的数字组成。此外,拼写错误或使用在下游数据处理工作中需要清除的奇数字符会影响数据的可用性。


其他错误,如虚荣的出生年份(故意让自己看起来更年轻或更老)更难被发现。存在业务逻辑错误的派生或推断字段也会影响准确性。仅支持男性/女性性别的旧系统也有问题。


数据不准确(和不完整)偶尔可以通过与权威来源进行回顾性数据匹配来修复。有了大型数据集,这种方法可能无效或受到监管限制的禁止。


数据不一致


另一类数据完整性问题是自然事实与数据之间的不一致性。


业务流程将真实事实记录在企业数据仓库和内部及跨组织的注册表中。或者,记录系统和具有数据副本的辅助系统之间存在不一致,这本身成为事实来源,导致两个权威来源不一致。


这发生在一个主要银行,一个新的“VP”CRM系统与单独的零售客户CRM一起建立起来,新的VIP CRM中捕获的更丰富的数据从未反馈给零售CRM,即使它们共享相同的客户记录。


数据不及时


即使数据完整、准确且一致,也可能存在完整性问题。


这可能是因为数据过时(由于批量/ETL处理);有效载荷的时间戳计算错误(系统时间而非事件时间);或用于计算有效日期的标准与实际日期不同。或者仅仅是因为数据陈旧,需要刷新。


这可能发生在使用发票发出日期而非采购订单日期(即合同日期)时。这也是客户联系流程需要不断重新确认客户关键主数据的原因。


数据不真实


虽然这不一定与会计数据相关,但对于PII(个人可识别信息)数据,我们尤其需要警惕客户的身份是否真实,尤其是在注册时。随着网络钓鱼和欺骗手段的日益猖獗,公司必须竭尽全力确保客户的身份数据首次输入时就是准确和完整的。


生产系统中存在的一种不真实数据是测试数据。虽然最佳实践表明生产系统中不应包含测试数据,但这种情况很少见,因为操作员不得不在生产系统中进行测试以进行业务常规(BAU)更改。


数据溯源对于数据完整性的重要性


执行或降低数据溯源的业务流程与促进收入增长或降低成本的业务流程同样重要。


数据溯源对于确保数据的来源(事实)以及数据在复制和其他变化过程中发生的情况(谱系)未被破坏或损坏至关重要。同时,不仅数据本身,数据的定义(元数据)也必须尽可能保持一致。


许多组织都有严格的事实登记制度。在银行中,这被称为KYC(了解你的客户)。在医疗领域,FHIR和HL7对病人和药品数据进行了高度标准化。在其他监管较少的行业中,这一流程则存在于他们的客户360系统中。


监管较少的行业可能会选择优先提高登记速度,而不是捕获详尽的客户详细信息(这会影响完整性)。缺失或不一致的数据对下游流程的影响是,限制了最大限度地发挥这种关系价值的能力,例如通过高度个性化的营销活动,并且由于数据缺失导致客户粘性不足,转化率仍然很低。


为了在任何业务数据中实现业务流程之间价值交换的最大效益,关键数据必须完整、准确,并与真实(或自然)的事实和事件以及组织业务边界内相关数据存储中的情况保持一致。同时,出于监管和合规目的,向外部世界提供这些事实和事件的数据完整性也至关重要。


相关连接器
数环通
相关文章推荐
企业数据集成:构建高效信息管理的重要基石
数据集成系统在教育行业的应用
数据集成时表模型同步方法解析
数据集成:打造企业级数据共享与分发解决方案的强力引擎
数据集成最常见的两种方法:ETL与API集成
免费试用,体验数环通为业务带来的新变化