Zdjęcie Konferencja "Privacy in Statistical Databases 2024"

Kategoria: Konferencja

Rok: 2024

Tytuł wystąpienia: Applications of Statistical Disclosure Control methods to protect the confidentiality in agricultural census microdata

Organizator: Universitat Rovira i Virgili, EURECOM

Termin: 25-27 września 2024

Link do Bazy Wiedzy: Baza Wiedzy

Tomasz Józefowski

Dane gromadzone w statystycznych bazach danych, a następnie udostępniane zewnętrznym użytkownikom mogą zawierać cały szereg informacji dotyczących indywidualnych cech jednostek. Bazy takie winny być pozbawione bezpośrednich identyfikatorów jak również tak przygotowane, aby była niemożliwa także pośrednia identyfikacja znajdujących się tam jednostek (np. osób, przedsiębiorstw) lub odtworzenie wartości wrażliwych cech tychże jednostek. Informacje te podlegają ochronie prawnej i objęte są bezwzględną tajemnicą statystyczną. Dlatego też przed udostępnieniem tego typu zasobów zgromadzone dane należy poddać weryfikacji celem zminimalizowania ryzyka ujawnienia bądź odtworzenia przez użytkowników informacji wrażliwych, identyfikujących jednostkę przy jednoczesnym zachowaniu w największym możliwym stopniu użyteczności przekazywanych finalnemu użytkownikowi danych. Postępowanie takie nazywa się kontrolą ujawniania danych (ang. Statistical Disclosure Control, SDC). Pierwszą i najprostszą czynnością wykonywaną w ramach SDC jest usunięcie kluczowych identyfikatorów jednostek (takich jak np. imię, nazwisko, nr PESEL, adres zamieszkania, itp.). Jednak w dzisiejszych realiach to o wiele za mało, a utrwalone w wieloletniej praktyce proste reguły ukrywania okazują się dalece niewystarczające. Dzieje się tak z uwagi na znaczną ilość zmiennych opisujących dane jednostki, co pociąga za sobą bardzo dużą liczbę możliwych kombinacji wariantów zmiennych. Istnieje zatem spore ryzyko, że wystąpią wśród nich kombinacje unikatowe, w skrajnych sytuacjach obecne jedynie w pojedynczych rekordach, co w konsekwencji pozwoli na identyfikację odpowiadających im jednostek. Dodatkowo obecnie istnieje szerszy dostęp do alternatywnych komercyjnych i administracyjnych baz danych oraz portali społecznościowych, a połączenie występujących w tych źródłach danych z udostępnianą bazą statystyczną znacznie zwiększa ryzyko takiej identyfikacji. Stosowane są też coraz nowocześniejsze techniki i narzędzia analityczne, w tym oparte na sztucznej inteligencji (takie jak np. uczenie maszynowe), które w nieuczciwym ręku mogą posłużyć do odtworzenia chronionych informacji. Z drugiej strony istnieje oczekiwanie ze strony użytkowników danych statystycznych na szerokie udostępnianie danych jednostkowych z badań statystycznych na możliwie najniższym poziomie agregacji przestrzennej. W literaturze przedmiotu opisanych jest wiele metod, których implementacja stara się sprostać temu wyzwaniu tj. zapewnieniu poufności danych przy jednoczesnym możliwym najszerszym zakresie udostępnianych zasobów. Wystąpienie na przedmiotowej konferencji dotyczyło przedstawienia propozycji kompleksowego algorytmu zaburzania mikrodanych, który planuje się wykorzystać w Portalu Geostatystycznym GUS dla bezpiecznego udostępniania wszechstronnych danych użytkownikom. Wykorzystano do tego celu mikroagregację opartą na odległości Gowera dla zmiennych kategorialnych oraz nakładanie szumu skorelowanego dla zmiennych ciągłych. Do oceny jakości i efektywności zaburzania zastosowano znane i nowe miary dostępne w pakiecie sdcMicro środowiska R. Użyteczność algorytmu ukazano na przykładzie mikrodanych pochodzących z Powszechnego Spisu Rolnego 2020 obejmujących wybrane zmienne różnego typu. Podejście to – ze względu na swoje własności – wydaje się szczególnie użyteczne właśnie w tego typu zastosowaniach. Warto podkreślić, że bez użycia tego rodzaju metod rzeczone dane pozostaną całkowicie niedostępne lub będą udostępniane w postaci mocno zagregowanej, co w dużej mierze znacznie zmniejszy ich użyteczność w kontekście prowadzenia pogłębionych analiz.