數據質量的重要性及管理
一、數據質量的重要性
如今,數據在社會中扮演著越來越重要和有用的角色。許多活動和流程對數據的依賴正在增加。因此,數據的質量越來越重要,應加以管理。
質量差的數據會使組織面臨風險。它可能導致錯誤的決策、不滿意的客戶、不滿意的數據使用者、由于不遵從性而導致的罰款、隱藏成本(返工)、壞名聲、不滿意的員工和缺乏互操作性。
二、概念及定義
1.什么是數據質量
質量是指物體的固有特性滿足需求的程度。
我們從這個定義中得出以下數據質量的定義:數據質量是數據維度滿足需求的程度。
注1:ISO9000定義中的術語“特征”被“維度”取代,因為這個術語在數據管理中更常見。
注2:形容詞固有的被省略了,因為外部維度也與數據管理有關,例如可用性。
注2:數據有多種形式:數據概念。數據質量的每個維度都是根據這樣的數據概念定義的。
2.什么是數據概念
數據概念定義為:
數據概念是信息系統中結構化和組織數據的一種形式。
數據概念的一些例子包括數據集、數據文件、記錄、屬性和數據值。
3.什么是維度
維度是數據概念的可測量特性。
該定義來源于ISO9000的定義。該標準將維度定義為對象的特征。
維度這個術語用于在測量物體(如長、寬、高)時與特征聯系起來。維度的例子包括精確性、完整性和及時性。
不應將本上下文中的術語維度與它在商業智能上下文中的使用混淆,在商業智能上下文中,它指的是匯總或查看數據的類別。
4.維度和數據概念的組合
維度和數據概念應該是一個邏輯組合。
數據質量維度的定義由維度和數據概念的組合組成。在日常語言中,我們一般于只提到維度而不提到相關的數據概念。
5.數據質量要求
要求是一種需要或期望,通常是隱含的或強制性的(ISO9000)。
在數據質量上下文中,可以通過與數據質量維度相關聯的指標的目標值來確定需求。
應該注意的是,數據質量維度的需求依賴于上下文,應該由其相關使用人員確定。也不能籠統地說在所有情況下質量都應該盡可能高,因為可能會產生不必要的成本。
三、如何選擇正確的數據質量維度
選擇數據質量的維度是控制或改善數據質量過程的第一步。這些步驟是:
?確定數據質量的哪些維度對所考慮的數據是重要的。
?確定一個維度是否對更高的目標有足夠的貢獻。
?對選擇的維度進行優先排序
?為選定的維度建立指標和相關的測量方法
下面詳細說明這些步驟。
1.確定數據質量的哪個維度對所考慮的數據是重要的
確定數據的類別。數據類別包括主數據、引用數據、事務數據、基本存儲和統計輸出。
確定哪些維度對數據類別是重要的。如何選擇正確的數據質量維度(二)指出了哪些維度是特定數據類別的候選維度。
2.確定一個維度是否對考慮中的更高維度有足夠的貢獻
確定一個維度是否足以實現更高的目標,即某些業務目標。貢獻必須足夠大,使它值得選擇維度。
3.對各個方面進行優先排序
將維度按優先級排序。把最優的成本效益比放在首位,從而控制成本。
4.為選定的維度建立指標和相關的測量方法
為選定的維度建立指標。建立每個指標的測量方法。
這些維度可以在與數據管理相關的各種來源中找到。
在編制數據質量各方面的定義時應用了下列原則:
?屬性盡可能完整。
?盡可能多地使用已經存在的定義。
?定義符合ISO704的要求。這個標準是關于對術語進行一般定義的。例如,定義不應該太長,也不應該包含示例。
?定義總是以“……的程度”開頭。
?維度是事物的一部分。我們稱之為數據概念(例如屬性、記錄或數據文件)。
?數據概念一起形成一個數據概念系統。這些數據概念也被定義和可視化。
?數據質量維度可根據數據概念進行分類。