Adatvizsgálat és előkészítés
A projekt során három különálló adathalmazt elemeztem: A, B és C. Mindegyikhez külön Jupyter munkafüzet készült, így az elemzések jól elkülöníthetők és önállóan is áttekinthetők.
Az egyes munkafüzetek az alábbi linkeken érhetők el:
Az eredeti CSV fájlok a projekt README fájljában megadott linken érhetők el.
Az egyes adathalmazokra az alábbi alapvető vizsgálati lépéseket végeztem el:
Az adatok betöltése és szerkezetének áttekintése (oszlopok, adattípusok, hiányzó értékek).
Alapvető statisztikai leíró mutatók vizsgálata.
A főbb attribútumok vizualizációja (eloszlások, korrelációk, trendek – ahol releváns).
Adatminőségi problémák, kiugró értékek és mintázatok azonosítása.
Minden adathalmaz elemzése külön munkafüzetben történt, így az egyes adatforrások sajátosságai jól követhetők és összehasonlíthatók.