Analiza duplikat贸w
Last updated
Last updated
Analiza duplikat贸w wskazuj臋, 偶e elementami odpowiedzialnymi za unikalno艣膰 danych rekord贸w s膮 pola o nazwie :
Unikalno艣膰 danych operacji grupowania b臋dzie wykonywania na podstawie parametru :
Szare pole o numerze 109, to potencjalny duplikat.
Potencjalnie niebezpiecznym zdarzenie np 52003. W tym przypadku mamy Zmienn膮 warto艣膰 pola : event_data2, trzeba za艂o偶y膰, 偶e pole event_data1 oraz event_data3 mog膮 te偶 potencjalnie by膰 zmiennie.
Czy pole event_data? jest polem stanowym ? Co stanowi potencjalna warto艣膰 tego pola i czy jest wykorzystywana w dalszym procesie ?
Przyk艂ad z niepewnym zdarzeniem dla warto艣ci event_data1
Sortujac dane wydarzenia po czasie dochodzi do sytuacji :
Czyli widzimy, 偶e zdarzenie 5304 nast膮pi艂o 2h po pierwszy zdarzeniu o tym kodzie. Czy mo偶na uzna膰 dane zdarzenie za zdarzenie zduplikowane ?
Czemu zdarzenie o event_time x zostaje stworzone dopiero 6h, kiedy inne zdarzania ( potencjalnie tego samego typu ) niemal natychmiast s膮 tworzone.
Z czego wynika r贸偶nica w czasie pomi臋dzy event_time , a create_time ?
Co robi tutaj zdarzenie 4003 , wynika z tego, 偶e ten stan na nic nie wp艂ywa ?
Stanowo艣膰 powinna prowadzi膰 do utworzenia po sobie kolejnego stanu.
Dla wydarze艅 przyk艂adowo 52003 event_time i create_time jest znacz膮co r贸zny.
Sytuacja dla braku duplikatu :
W tej sytuacji mamy do czynienia ze zmian膮 depot_id, gdzie nie mo偶emy uzna膰, 偶e zdarzenia s膮 takie same.
Niezrozumia艂a warto艣膰 dla event_data
event_code_id
depot_id
source_system
creator_user_id
parcel_id