Bevezetés

A dokumentáció célja, hogy bemutassa az adatelemzési és adat-előkészítési folyamat fő lépéseit, valamint az ezekhez tartozó munkafolyamatokat és eredményeket. A következő fő részek kerülnek bemutatásra:

Az adathalmazok (A, B, C) külön-külön történő vizsgálata

Mindegyik datasetet önálló Jupyter munkafüzetben elemeztem, ahol áttekintettem az adatok szerkezetét, statisztikáit, minőségét és alapvető mintázatait.
Normalizálási folyamat, relációs sémák és adatdictionary-k elkészítése

Az A, B és C adathalmazok esetében először elkészítettem a normalizálási folyamat részletes leírását, majd ezek alapján felrajzoltam a teljes relációs sémákat, és összeállítottam az adathalmazokhoz tartozó adatdictionary-ket. Ezek a dokumentumok bemutatják a táblák szerkezetét, a mezők szerepét, adattípusait és az adatok közötti kapcsolatokat.

Ezt követően elkészítettem a D adathalmaz normalizálási folyamatát is, amely az A, B és C összevont, egységesített adathalmazából jött létre. A D datasethez szintén felrajzoltam a teljes relációs sémát, összeállítottam az adatdictionary-t, majd létrehoztam a normalizált adatbázist, és összeírtam több alapvető SQL-lekérdezést, amelyek a struktúra ellenőrzését és a későbbi feldolgozási lépéseket támogatják.
Adathalmazok összefésülése (merging)

Rögzítettem a merge-folyamatot egy ábrával és kódrészletekkel. Néhány komplikáltabb implementációs részlet külön is ismertetésre kerül.
Elemzések a merged tábláról

A létrehozott egyesített adatállományon további elemzéseket készítettem, többek között hisztogramokat, Venn-diagramot, forrás-eloszlási összegzést és integritásvizsgálatot.
A merged tábla felosztása

A teljes összevont adathalmazt végül kisebb, tematikus részekre bontottam további feldolgozás és felhasználás céljából.

A fenti fejezetek részletesen ismertetik a munkafolyamatot az alapadatok megismerésétől kezdve egészen a végső, feldarabolt és továbbhasznosítható adatszerkezetig.