Analiza duplikatów
Analiza duplikatów wskazuję, że elementami odpowiedzialnymi za unikalność danych rekordów są pola o nazwie :
event_code_id
depot_id
source_system
creator_user_id
Unikalność danych operacji grupowania będzie wykonywania na podstawie parametru :
parcel_id
Analiza próbek I


Szare pole o numerze 109, to potencjalny duplikat.

Potencjalnie niebezpiecznym zdarzenie np 52003. W tym przypadku mamy Zmienną wartość pola : event_data2, trzeba założyć, że pole event_data1 oraz event_data3 mogą też potencjalnie być zmiennie.
Czy pole event_data? jest polem stanowym ? Co stanowi potencjalna wartość tego pola i czy jest wykorzystywana w dalszym procesie ?

Przykład z niepewnym zdarzeniem dla wartości event_data1
Sortujac dane wydarzenia po czasie dochodzi do sytuacji :

Czyli widzimy, że zdarzenie 5304 nastąpiło 2h po pierwszy zdarzeniu o tym kodzie. Czy można uznać dane zdarzenie za zdarzenie zduplikowane ?

Czemu zdarzenie o event_time x zostaje stworzone dopiero 6h, kiedy inne zdarzania ( potencjalnie tego samego typu ) niemal natychmiast są tworzone.

Analiza próbek I I

Co robi tutaj zdarzenie 4003 , wynika z tego, że ten stan na nic nie wpływa ?
Stanowość powinna prowadzić do utworzenia po sobie kolejnego stanu.
Dla wydarzeń przykładowo 52003 event_time i create_time jest znacząco rózny.
Sytuacja dla braku duplikatu :

W tej sytuacji mamy do czynienia ze zmianą depot_id, gdzie nie możemy uznać, że zdarzenia są takie same.

Niezrozumiała wartość dla event_data


Last updated