Analiza duplikatów

Analiza duplikatów wskazuję, że elementami odpowiedzialnymi za unikalność danych rekordów są pola o nazwie :

event_code_id

depot_id

source_system

creator_user_id

Unikalność danych operacji grupowania będzie wykonywania na podstawie parametru :

parcel_id

Analiza próbek I

Szare pole o numerze 109, to potencjalny duplikat.

Potencjalnie niebezpiecznym zdarzenie np 52003. W tym przypadku mamy Zmienną wartość pola : event_data2, trzeba założyć, że pole event_data1 oraz event_data3 mogą też potencjalnie być zmiennie.

Przykład z niepewnym zdarzeniem dla wartości event_data1

Sortujac dane wydarzenia po czasie dochodzi do sytuacji :

Czyli widzimy, że zdarzenie 5304 nastąpiło 2h po pierwszy zdarzeniu o tym kodzie. Czy można uznać dane zdarzenie za zdarzenie zduplikowane ?

Czemu zdarzenie o event_time x zostaje stworzone dopiero 6h, kiedy inne zdarzania ( potencjalnie tego samego typu ) niemal natychmiast są tworzone.

Z czego wynika różnica w czasie pomiędzy event_time , a create_time ?

Przykład odnośnie czasu event_time oraz create_time

Analiza próbek I I

Co robi tutaj zdarzenie 4003 , wynika z tego, że ten stan na nic nie wpływa ?

Stanowość powinna prowadzić do utworzenia po sobie kolejnego stanu.

Sytuacja dla braku duplikatu :

W tej sytuacji mamy do czynienia ze zmianą depot_id, gdzie nie możemy uznać, że zdarzenia są takie same.

Niezrozumiała wartość dla event_data

Duplikat pomarańczowe pole
Duplikat żółte pole

Last updated