Analiza anonimowej próbki danych NFZ o wystąpieniu udaru niedokrwiennego

February 5, 2021

Dane zostały pobrane ze strony dane.gov.pl

Narodowy Fundusz Zdrowia dysponuje danymi sprawozdawczymi przekazanymi przez podmioty lecznicze. Zbiór danych dotyczy usług refundowanych i leków dla pacjentów, z których część przeszła udar niedokrwienny. Zbiór został przygotowany w taki sposób, aby dane o świadczeniach i lekach pochodziły z okresu dwóch lat (t, t + 1), natomiast informacja o wystąpieniu udaru dotyczy okresu najbliższych dwóch lat (t + 2, t + 3). Dostarczony zestaw danych składa się z 6 tabel zawierających aktualne, zanonimizowane dane Narodowego Funduszu Zdrowia. Tabela ‘patients’ (500 000 ID) zawiera dane określające, czy pacjent miał udar niedokrwienny w okresie dwóch lat podlegającego przeglądowi. W celu zapewnienia anonimizacji danych nie podano z jakiego okresu pochodzą. Pozostałe tabele zawierają informacje o historii świadczeń i realizacji recept dla pacjentów w tabeli ‘patients’ z ostatnich dwóch lat.

Opis poszczególnych tabel:

patients - informacje o wystąpieniu pierwszego udaru niedokrwiennego mózgu w analizowanym okresie (2 lata). Z analizy wykluczono chorych, u których wystąpił udar niedokrwienny przed analizowanym przedziałem czasowym. Składa się z następujących kolumn:

a) PATIENT_ID - unikalny identyfikator pacjenta.

b) WAS_THERE_A_STROKE? - binarna informacja o tym, czy analizowana jednostka chorobowa występuje w przypadku osoby o danym identyfikatorze.
health_benefits - informacje na temat udzielonych świadczeń. Składa się z następujących kolumn:

a) PATIENT_ID - unikalny identyfikator pacjenta.

b) EPISODE_ID - identyfikator epizodu pozwalający na łączenie świadczeń z procedurami.

c) CONTACT_ID - identyfikator umożliwiający połączenie świadczeń z diagnozami.

d) RANGE_CODE - zanonimizowany kod zakresu usługi.

e) TYPE_OF_SERVICES - zmienna tekstowa określająca rodzaj miejsca świadczenia usługi (leczenie szpitalne, podstawowa opieka zdrowotna, ratownictwo medyczne itp.).

f) SETTLED_AMOUNT - kwota, jaką fundusz przekazał podmiotowi za wykonaną usługę. W przypadku świadczeń rozliczanych w oparciu o stopę kapitalizacji lub w formie ryczałtu kwota ta wynosi 0.
procedures - tabela zawierającą informacje o przeprowadzonych zabiegach medycznych. Składa się z następujących kolumn:

a) EPISODE_ID - identyfikator epizodu pozwalający na łączenie świadczeń z procedurami.

b) CODE_PROCEDURES - zanonimizowany kod procedury zgodnie z klasyfikacją ICD-9.
prescriptions - tabela zawiera informacje o zrealizowanych receptach na leki refundowane:

a) PATIENT_ID - unikalny identyfikator pacjenta.

b) PRESCRIPTION_ID - identyfikator recepty.

c) NUMBER_OF_PACKAGES - ilość zakupiponych opakowań leku o podanym kodzie ATC (3 znaki kodu według klasyfikacji anatomiczno-terapeutyczno-chemicznej).
diagnosis - tabela zawiera informacje o zgłoszonych diagnozach według klasyfikacji ICD-10:

a) CONTACT_ID - identyfikator umożliwiający połączenie świadczeń z diagnozami.

b) DIAGNOSIS_CODE - zaszyfrowany kod rozpoznawczy zgodnie z Międzynarodową Klasyfikacją Chorób i Problemów Zdrowotnych ICD10. Oryginalny kod może składać się z 3 lub 5 znaków, dzięki czemu diagnoza jest bardziej szczegółowa.

c) IS_THIS_THE_MAIN_DIAGNOSIS? - zmienna binarna o poziomach ‘N’ - rozpoznanie współistniejące i ‘T’ - rozpoznanie główne.
patient_parameters - tabela zawiera informacje o parametrach pacjenta:

a) PATIENT_ID - unikalny identyfikator pacjenta.

b) AGE_GROUP - wiek pacjenta przedstawiony w pięcioletnich przedziałach wiekowych.

c) GENDER - płeć pacjenta.

d) DISTRICT_TERRITORY - kod terytorialny miejsca zamieszkania pacjenta, przedstawiony na szczeblu powiatowym.

Analiza została przeprowadzona w celu odpowiedzi na następujące pytania:

Ilu unikalnych pacjentów i za jaką całkowitą kwotę skorzystano z usług stomatologicznych?
Ilu pacjentów otrzymało leczenie stomatologiczne?
Jaka była kwota rozliczona dla wszystkich pacjentów, którzy otrzymali leczenie stomatologiczne?
Jakie unikalne diagnozy zdiagnozowano u pacjentów rozliczanych kodem zakresu 3103275?
Ile unikalnych epizodów mają w historii pacjenci, u których nie zdiagnozowano udaru?
Ile łącznie wydano opakowań leków?
Jaki procent stanowią pacjenci, u których zdiagnozowano udar?
Ilu pacjentów w każdej grupie wiekowej miało udar?
Ilu pacjentów w każdej grupie wiekowej nie miało udaru?
Jaki był podział płci u pacjentów, u których zdiagnozowano udar?
Jaki był podział płci u pacjentów, u których nie zdiagnozowano udaru?
U ilu pacjentów zdiagnozowano udar zgodnie z kodem terytorialnym?
Z jakich usług zdrowotnych korzystali pacjenci, u których zdiagnozowano udar?
Ilu pacjentów, u których zdiagnozowano udar, skorzystało z każdej usługi medycznej?
Czy rozpoznanie było pierwotne czy towarzyszące?

Linki:

Repozytorium GitHub

W tym repozytorium znajdują się dwa pliki: