Adatvizsgálat és előkészítés

A projekt során három különálló adathalmazt elemeztem: A, B és C. Mindegyikhez külön Jupyter munkafüzet készült, így az elemzések jól elkülöníthetők és önállóan is áttekinthetők.

Az egyes munkafüzetek az alábbi linkeken érhetők el:

Az eredeti CSV fájlok a projekt README fájljában megadott linken érhetők el.

Az egyes adathalmazokra az alábbi alapvető vizsgálati lépéseket végeztem el:

  • Az adatok betöltése és szerkezetének áttekintése (oszlopok, adattípusok, hiányzó értékek).

  • Alapvető statisztikai leíró mutatók vizsgálata.

  • A főbb attribútumok vizualizációja (eloszlások, korrelációk, trendek – ahol releváns).

  • Adatminőségi problémák, kiugró értékek és mintázatok azonosítása.

Minden adathalmaz elemzése külön munkafüzetben történt, így az egyes adatforrások sajátosságai jól követhetők és összehasonlíthatók.