Bevezetés ========= A dokumentáció célja, hogy bemutassa az adatelemzési és adat-előkészítési folyamat fő lépéseit, valamint az ezekhez tartozó munkafolyamatokat és eredményeket. A következő fő részek kerülnek bemutatásra: * :doc:`Az adathalmazok (A, B, C) külön-külön történő vizsgálata ` Mindegyik datasetet önálló Jupyter munkafüzetben elemeztem, ahol áttekintettem az adatok szerkezetét, statisztikáit, minőségét és alapvető mintázatait. * :doc:`Normalizálási folyamat, relációs sémák és adatdictionary-k elkészítése ` Az **A, B és C** adathalmazok esetében először elkészítettem a normalizálási folyamat részletes leírását, majd ezek alapján felrajzoltam a teljes relációs sémákat, és összeállítottam az adathalmazokhoz tartozó adatdictionary-ket. Ezek a dokumentumok bemutatják a táblák szerkezetét, a mezők szerepét, adattípusait és az adatok közötti kapcsolatokat. Ezt követően elkészítettem a **D adathalmaz** normalizálási folyamatát is, amely az **A, B és C összevont, egységesített adathalmazából** jött létre. A D datasethez szintén felrajzoltam a teljes relációs sémát, összeállítottam az adatdictionary-t, majd létrehoztam a normalizált adatbázist, és összeírtam több alapvető SQL-lekérdezést, amelyek a struktúra ellenőrzését és a későbbi feldolgozási lépéseket támogatják. * :doc:`Adathalmazok összefésülése (merging) ` Rögzítettem a merge-folyamatot egy ábrával és kódrészletekkel. Néhány komplikáltabb implementációs részlet külön is ismertetésre kerül. * :doc:`Elemzések a merged tábláról ` A létrehozott egyesített adatállományon további elemzéseket készítettem, többek között hisztogramokat, Venn-diagramot, forrás-eloszlási összegzést és integritásvizsgálatot. * :doc:`A merged tábla felosztása ` A teljes összevont adathalmazt végül kisebb, tematikus részekre bontottam további feldolgozás és felhasználás céljából. A fenti fejezetek részletesen ismertetik a munkafolyamatot az alapadatok megismerésétől kezdve egészen a végső, feldarabolt és továbbhasznosítható adatszerkezetig.