Analiza anonimowej próbki danych NFZ o wystąpieniu udaru niedokrwiennego
February 5, 2021
Dane zostały pobrane ze strony dane.gov.pl
Narodowy Fundusz Zdrowia dysponuje danymi sprawozdawczymi przekazanymi przez podmioty lecznicze. Zbiór danych dotyczy usług refundowanych i leków dla pacjentów, z których część przeszła udar niedokrwienny. Zbiór został przygotowany w taki sposób, aby dane o świadczeniach i lekach pochodziły z okresu dwóch lat (t, t + 1), natomiast informacja o wystąpieniu udaru dotyczy okresu najbliższych dwóch lat (t + 2, t + 3). Dostarczony zestaw danych składa się z 6 tabel zawierających aktualne, zanonimizowane dane Narodowego Funduszu Zdrowia. Tabela ‘patients’ (500 000 ID) zawiera dane określające, czy pacjent miał udar niedokrwienny w okresie dwóch lat podlegającego przeglądowi. W celu zapewnienia anonimizacji danych nie podano z jakiego okresu pochodzą. Pozostałe tabele zawierają informacje o historii świadczeń i realizacji recept dla pacjentów w tabeli ‘patients’ z ostatnich dwóch lat.
Opis poszczególnych tabel:
-
patients - informacje o wystąpieniu pierwszego udaru niedokrwiennego mózgu w analizowanym okresie (2 lata). Z analizy wykluczono chorych, u których wystąpił udar niedokrwienny przed analizowanym przedziałem czasowym. Składa się z następujących kolumn:
a) PATIENT_ID - unikalny identyfikator pacjenta.
b) WAS_THERE_A_STROKE? - binarna informacja o tym, czy analizowana jednostka chorobowa występuje w przypadku osoby o danym identyfikatorze.
-
health_benefits - informacje na temat udzielonych świadczeń. Składa się z następujących kolumn:
a) PATIENT_ID - unikalny identyfikator pacjenta.
b) EPISODE_ID - identyfikator epizodu pozwalający na łączenie świadczeń z procedurami.
c) CONTACT_ID - identyfikator umożliwiający połączenie świadczeń z diagnozami.
d) RANGE_CODE - zanonimizowany kod zakresu usługi.
e) TYPE_OF_SERVICES - zmienna tekstowa określająca rodzaj miejsca świadczenia usługi (leczenie szpitalne, podstawowa opieka zdrowotna, ratownictwo medyczne itp.).
f) SETTLED_AMOUNT - kwota, jaką fundusz przekazał podmiotowi za wykonaną usługę. W przypadku świadczeń rozliczanych w oparciu o stopę kapitalizacji lub w formie ryczałtu kwota ta wynosi 0.
-
procedures - tabela zawierającą informacje o przeprowadzonych zabiegach medycznych. Składa się z następujących kolumn:
a) EPISODE_ID - identyfikator epizodu pozwalający na łączenie świadczeń z procedurami.
b) CODE_PROCEDURES - zanonimizowany kod procedury zgodnie z klasyfikacją ICD-9.
-
prescriptions - tabela zawiera informacje o zrealizowanych receptach na leki refundowane:
a) PATIENT_ID - unikalny identyfikator pacjenta.
b) PRESCRIPTION_ID - identyfikator recepty.
c) NUMBER_OF_PACKAGES - ilość zakupiponych opakowań leku o podanym kodzie ATC (3 znaki kodu według klasyfikacji anatomiczno-terapeutyczno-chemicznej).
-
diagnosis - tabela zawiera informacje o zgłoszonych diagnozach według klasyfikacji ICD-10:
a) CONTACT_ID - identyfikator umożliwiający połączenie świadczeń z diagnozami.
b) DIAGNOSIS_CODE - zaszyfrowany kod rozpoznawczy zgodnie z Międzynarodową Klasyfikacją Chorób i Problemów Zdrowotnych ICD10. Oryginalny kod może składać się z 3 lub 5 znaków, dzięki czemu diagnoza jest bardziej szczegółowa.
c) IS_THIS_THE_MAIN_DIAGNOSIS? - zmienna binarna o poziomach ‘N’ - rozpoznanie współistniejące i ‘T’ - rozpoznanie główne.
-
patient_parameters - tabela zawiera informacje o parametrach pacjenta:
a) PATIENT_ID - unikalny identyfikator pacjenta.
b) AGE_GROUP - wiek pacjenta przedstawiony w pięcioletnich przedziałach wiekowych.
c) GENDER - płeć pacjenta.
d) DISTRICT_TERRITORY - kod terytorialny miejsca zamieszkania pacjenta, przedstawiony na szczeblu powiatowym.
Analiza została przeprowadzona w celu odpowiedzi na następujące pytania:
- Ilu unikalnych pacjentów i za jaką całkowitą kwotę skorzystano z usług stomatologicznych?
- Ilu pacjentów otrzymało leczenie stomatologiczne?
- Jaka była kwota rozliczona dla wszystkich pacjentów, którzy otrzymali leczenie stomatologiczne?
- Jakie unikalne diagnozy zdiagnozowano u pacjentów rozliczanych kodem zakresu 3103275?
- Ile unikalnych epizodów mają w historii pacjenci, u których nie zdiagnozowano udaru?
- Ile łącznie wydano opakowań leków?
- Jaki procent stanowią pacjenci, u których zdiagnozowano udar?
- Ilu pacjentów w każdej grupie wiekowej miało udar?
- Ilu pacjentów w każdej grupie wiekowej nie miało udaru?
- Jaki był podział płci u pacjentów, u których zdiagnozowano udar?
- Jaki był podział płci u pacjentów, u których nie zdiagnozowano udaru?
- U ilu pacjentów zdiagnozowano udar zgodnie z kodem terytorialnym?
- Z jakich usług zdrowotnych korzystali pacjenci, u których zdiagnozowano udar?
- Ilu pacjentów, u których zdiagnozowano udar, skorzystało z każdej usługi medycznej?
- Czy rozpoznanie było pierwotne czy towarzyszące?
Linki:
W tym repozytorium znajdują się dwa pliki:
-
Analysis_of_stroke_occurrences(plotly_visualizations).ipynb - Link do Google Colab
-
Analysis_of_stroke_occurrences(matplotlib_visualizations).ipynb - Link do Google Colab