Analiza anonimowej próbki danych NFZ o wystąpieniu udaru niedokrwiennego

February 5, 2021


Dane zostały pobrane ze strony dane.gov.pl

Narodowy Fundusz Zdrowia dysponuje danymi sprawozdawczymi przekazanymi przez podmioty lecznicze. Zbiór danych dotyczy usług refundowanych i leków dla pacjentów, z których część przeszła udar niedokrwienny. Zbiór został przygotowany w taki sposób, aby dane o świadczeniach i lekach pochodziły z okresu dwóch lat (t, t + 1), natomiast informacja o wystąpieniu udaru dotyczy okresu najbliższych dwóch lat (t + 2, t + 3). Dostarczony zestaw danych składa się z 6 tabel zawierających aktualne, zanonimizowane dane Narodowego Funduszu Zdrowia. Tabela ‘patients’ (500 000 ID) zawiera dane określające, czy pacjent miał udar niedokrwienny w okresie dwóch lat podlegającego przeglądowi. W celu zapewnienia anonimizacji danych nie podano z jakiego okresu pochodzą. Pozostałe tabele zawierają informacje o historii świadczeń i realizacji recept dla pacjentów w tabeli ‘patients’ z ostatnich dwóch lat.

Opis poszczególnych tabel:

  1. patients - informacje o wystąpieniu pierwszego udaru niedokrwiennego mózgu w analizowanym okresie (2 lata). Z analizy wykluczono chorych, u których wystąpił udar niedokrwienny przed analizowanym przedziałem czasowym. Składa się z następujących kolumn:

    a) PATIENT_ID - unikalny identyfikator pacjenta.

    b) WAS_THERE_A_STROKE? - binarna informacja o tym, czy analizowana jednostka chorobowa występuje w przypadku osoby o danym identyfikatorze.

  2. health_benefits - informacje na temat udzielonych świadczeń. Składa się z następujących kolumn:

    a) PATIENT_ID - unikalny identyfikator pacjenta.

    b) EPISODE_ID - identyfikator epizodu pozwalający na łączenie świadczeń z procedurami.

    c) CONTACT_ID - identyfikator umożliwiający połączenie świadczeń z diagnozami.

    d) RANGE_CODE - zanonimizowany kod zakresu usługi.

    e) TYPE_OF_SERVICES - zmienna tekstowa określająca rodzaj miejsca świadczenia usługi (leczenie szpitalne, podstawowa opieka zdrowotna, ratownictwo medyczne itp.).

    f) SETTLED_AMOUNT - kwota, jaką fundusz przekazał podmiotowi za wykonaną usługę. W przypadku świadczeń rozliczanych w oparciu o stopę kapitalizacji lub w formie ryczałtu kwota ta wynosi 0.

  3. procedures - tabela zawierającą informacje o przeprowadzonych zabiegach medycznych. Składa się z następujących kolumn:

    a) EPISODE_ID - identyfikator epizodu pozwalający na łączenie świadczeń z procedurami.

    b) CODE_PROCEDURES - zanonimizowany kod procedury zgodnie z klasyfikacją ICD-9.

  4. prescriptions - tabela zawiera informacje o zrealizowanych receptach na leki refundowane:

    a) PATIENT_ID - unikalny identyfikator pacjenta.

    b) PRESCRIPTION_ID - identyfikator recepty.

    c) NUMBER_OF_PACKAGES - ilość zakupiponych opakowań leku o podanym kodzie ATC (3 znaki kodu według klasyfikacji anatomiczno-terapeutyczno-chemicznej).

  5. diagnosis - tabela zawiera informacje o zgłoszonych diagnozach według klasyfikacji ICD-10:

    a) CONTACT_ID - identyfikator umożliwiający połączenie świadczeń z diagnozami.

    b) DIAGNOSIS_CODE - zaszyfrowany kod rozpoznawczy zgodnie z Międzynarodową Klasyfikacją Chorób i Problemów Zdrowotnych ICD10. Oryginalny kod może składać się z 3 lub 5 znaków, dzięki czemu diagnoza jest bardziej szczegółowa.

    c) IS_THIS_THE_MAIN_DIAGNOSIS? - zmienna binarna o poziomach ‘N’ - rozpoznanie współistniejące i ‘T’ - rozpoznanie główne.

  6. patient_parameters - tabela zawiera informacje o parametrach pacjenta:

    a) PATIENT_ID - unikalny identyfikator pacjenta.

    b) AGE_GROUP - wiek pacjenta przedstawiony w pięcioletnich przedziałach wiekowych.

    c) GENDER - płeć pacjenta.

    d) DISTRICT_TERRITORY - kod terytorialny miejsca zamieszkania pacjenta, przedstawiony na szczeblu powiatowym.

Analiza została przeprowadzona w celu odpowiedzi na następujące pytania:

  • Ilu unikalnych pacjentów i za jaką całkowitą kwotę skorzystano z usług stomatologicznych?
  • Ilu pacjentów otrzymało leczenie stomatologiczne?
  • Jaka była kwota rozliczona dla wszystkich pacjentów, którzy otrzymali leczenie stomatologiczne?
  • Jakie unikalne diagnozy zdiagnozowano u pacjentów rozliczanych kodem zakresu 3103275?
  • Ile unikalnych epizodów mają w historii pacjenci, u których nie zdiagnozowano udaru?
  • Ile łącznie wydano opakowań leków?
  • Jaki procent stanowią pacjenci, u których zdiagnozowano udar?
  • Ilu pacjentów w każdej grupie wiekowej miało udar?
  • Ilu pacjentów w każdej grupie wiekowej nie miało udaru?
  • Jaki był podział płci u pacjentów, u których zdiagnozowano udar?
  • Jaki był podział płci u pacjentów, u których nie zdiagnozowano udaru?
  • U ilu pacjentów zdiagnozowano udar zgodnie z kodem terytorialnym?
  • Z jakich usług zdrowotnych korzystali pacjenci, u których zdiagnozowano udar?
  • Ilu pacjentów, u których zdiagnozowano udar, skorzystało z każdej usługi medycznej?
  • Czy rozpoznanie było pierwotne czy towarzyszące?

Linki:

Repozytorium GitHub

W tym repozytorium znajdują się dwa pliki: