每個(gè)部分本身都很有用,但我想演示如何在日常工作中應(yīng)用它們。你將看到圖表是一種可以驗(yàn)證數(shù)據(jù)沿襲完整性的工具。一旦你理解了輸入,就可以應(yīng)用該技術(shù),例如影響分析或根本原因分析。

有很多關(guān)于數(shù)據(jù)沿襲的需求。你對(duì)數(shù)據(jù)沿襲是否感興趣并不重要,因?yàn)樗鼤?huì)以某種方式影響您。當(dāng)團(tuán)隊(duì)中有人喊道:“我找不到這個(gè)...數(shù)據(jù)!”或者“工具壞了?”,一切都回到了數(shù)據(jù)沿襲。GDPR要求能夠識(shí)別系統(tǒng)內(nèi)的所有個(gè)人數(shù)據(jù)點(diǎn),從而擴(kuò)大了這種需求。

理想情況下,數(shù)據(jù)沿襲應(yīng)該是自動(dòng)化的,因?yàn)樗且豁?xiàng)巨大的工作,容易出錯(cuò),并且不斷地變化。有許多優(yōu)秀的工具可以幫助組織以編程方式映射和更新數(shù)據(jù)。

安裝這樣一個(gè)工具的整個(gè)過(guò)程可能需要幾年時(shí)間,因此你可能需要自己承擔(dān)部分映射,或者為工具無(wú)法訪(fǎng)問(wèn)的過(guò)程創(chuàng)建手動(dòng)映射。

有時(shí)你需要為另一個(gè)團(tuán)隊(duì)手動(dòng)創(chuàng)建一些項(xiàng)目級(jí)數(shù)據(jù)沿襲。也許這個(gè)團(tuán)隊(duì)正在將工程遷移到一個(gè)新的平臺(tái)。

讓我們看一個(gè)數(shù)據(jù)科學(xué)項(xiàng)目創(chuàng)建數(shù)據(jù)沿襲圖的示例。

客戶(hù)要求創(chuàng)建一個(gè)數(shù)據(jù)分析儀表盤(pán),整個(gè)過(guò)程是完全自動(dòng)化的。

Python腳本每天運(yùn)行并更新生成final .csv文件。它運(yùn)行平穩(wěn),每個(gè)人都很高興?,F(xiàn)在公司要求將所有工程移動(dòng)到云端。你能否向團(tuán)隊(duì)提供一份需要移動(dòng)到云中的所有數(shù)據(jù)元素的列表,以確保項(xiàng)目按預(yù)期工作?這樣的要求聽(tīng)起來(lái)耳熟嗎?

在第一次計(jì)劃會(huì)議中,你可能會(huì)提供如下所示的可視化效果。但是這是高級(jí)抽象的數(shù)據(jù)移動(dòng)。

作為回應(yīng),數(shù)據(jù)工程師要求提供工程中使用的所有數(shù)據(jù)的列表。所有的“拷貝”數(shù)據(jù)都需要轉(zhuǎn)移到AWS,python腳本也一樣??紤]到這一點(diǎn),你會(huì)發(fā)現(xiàn)工程中使用的大多數(shù)數(shù)據(jù)實(shí)際上并不存在于數(shù)據(jù)庫(kù)。大多數(shù)都是在數(shù)據(jù)庫(kù)和工程之間創(chuàng)建和格式化的。這中間沒(méi)有1:1映射,不會(huì)像僅僅提供數(shù)據(jù)列表那么簡(jiǎn)單。

在一個(gè)理想環(huán)境中,你的公司應(yīng)該用所有數(shù)據(jù)沿襲信息更新企業(yè)工具。所以你只需要一個(gè)簡(jiǎn)單的查詢(xún),你就會(huì)得到結(jié)果。但是,一般你必須從頭開(kāi)始建造這個(gè)東西。

我創(chuàng)建了一個(gè)示例場(chǎng)景。

我的建議是從工程的末尾開(kāi)始。實(shí)際上,你可能需要一次只關(guān)注最終工程中的一個(gè)指標(biāo)。

這是我們的示例工程-客戶(hù)熱點(diǎn)。在Tableau中查找會(huì)暴露構(gòu)成viz的數(shù)據(jù)。

如果在viz上單擊鼠標(biāo)右鍵并拾取視圖數(shù)據(jù),則會(huì)顯示各個(gè)數(shù)據(jù)點(diǎn)。這很有幫助。

我們看到城市和州被添加到工程中,直接來(lái)自客戶(hù)賬戶(hù)文件。Tableau創(chuàng)建了相應(yīng)的緯度和經(jīng)度。Lifetime_Spent和Num_Pages_Hit在州/市級(jí)別聚合。圖中在Tableau完成了求和與分組。data選項(xiàng)卡將向我們顯示使用了兩個(gè).csv文件作為輸入。