K praktickému vyzkoušení postupů a technik předvedených na cvičení byla letos sestavena následující úloha. Účelem je prokázat porozumění načítání dat, trasformaci, modelování, ukládání a dotazování.
Definice datasetu a analytického cíle:
Například jako analytickou otázku můžete zvolit: Jaké jsou nejvytíženější časové období na FAV parkovišti?. K tomu pak můžete zvolit vhodný dataset, který obsahuje informace o příjezdech a odjezdech vozidel.
Toto se týká převážně manipulace s DataFrame v Pythonu. Není účelné ke zpracování používat SQL.
Stejně jako výše jde opět především o modelování v Pythonu, ne v SQL. V tento moment může být potřeba k datasetu dodat nějaká další data. Například pro problém parkoviště by se mohl hodit kalendář s výukovými dny, zkouškovým obdobím, prázdninami, ..., případně informace o počasí.
Některé dimenzní tabulky mohou být naplněny daty z primárního datasetu, pokud je k tomu je příležitost.
Účel dokumentace je věcně popsat, co jste dělali. Zároveň je to prostor i pro vás udělat si nějaký souhrn a zamyšlení nad tím, co jste se naučili, nebo co byste udělali jinak.
Kromě obecných pokynů jsem naformuloval několik bodů, které by mohly být zajímavé pro vaši práci. Každé zadání/dataset bude vhodné pro jiné účely, takže spíše berte, co přirozeně vyhovuje tématu.
Není nutné použít všechny zmíněné techniky, berte spíše jako inspiraci, co by mohlo být zajímavé. Např. harmonizace kódů krajů (viz předchozí cvičení) na NUTS číselník by vyhovovalo zadání. Nebo například odvození per-capita hodnot na základě dat o obyvatelstvu.
Důležité v tomto bodě je nejenom vytvořit grafy, ale i je vhodně interpretovat. Můžete se zaměřit na časové trendy, porovnání skupin, distribuce, ... Snažte se vytvořit "prezentovatelný" výstup, nikoliv narychlo vygenerovaný obrázek bez rozmyslu.
Toto je vhodné spíše pro studenty, kteří už mají nějaké zkušenosti s SQL a databázemi. Bylo by vhodné mít buď velká data nebo divoký dotaz, aby bylo možné něco pozorovat.
Může být řešeno i v rámci primárního datového zdroje.
Toto je vhodné pro studenty, kteří již mají zkušenosti s ML nebo statistikou v nějaké formě. Můžete se zaměřit na predikci, klasifikaci nebo i obyčejné statistické testy k ověření hypotéz.
Časová náročnost: 40 hodin
Velikost týmu: 1 student
Nahlášení tématu: během cvičení, nebo mailem
Prezentace/odevzdání:
| Skupina | 1. termín | 2. termín | na vyžádání |
|---|---|---|---|
| čtvrtek (11:10) | 24. 4. | 13. 5. | 15.5. |
Téma je možné zvolit dle vlastního zájmu. Jako definici tématu pro příklad řešený na cvičení bych považoval Analýza incidence případů v obcích na základě udaného PSČ. Z toho vyplývá jednak, co použiji za primární data, jednak analytický směr, jakým se práce bude ubírat.
Lze použít skutečná i umělá data. V případě, že potřebujete data vygenerovat, ChatGPT a jiné moderní pomůcky mohou dobře posloužit (nezapomeňte v dokumentaci zmínit, jak dobře se s tím pracovalo).
Je vhodné nechat si prostor pro transformaci dat, tzn. nemít primární data přímo ve formátu, který chcete použít v modelu.
Odevzdaný projekt (.zip) bude obsahovat následující části:
Styl ani formát dokumentace není striktně daný. Doporučuji následující formáty (sestupně dle preference):
V dokumentaci by mělo zaznít:
Popis výchozí datové sady a jejího kontextu: jaký význam mají jednotlivé záznamy (řádky) a atributy (sloupce)? Uvést zda se jedná o reálná nebo umělá data. U reálných dat uvést, kdo za datovou sadou stojí, jak často se aktualizuje, a podobné informace. U umělých prosím o uvedení, jakým způsobem byla data vytvořena/generována.
Přidejte do dokumentu ukázku vstupních dat.
Popis transformací: jak byla vstupní data zpracována? Na základě čeho byly vytvořeny dimenzní tabulky? Jaké atributy byly zahozeny, odvozeny, agregovány, atd? U operací uveďte i důvod, proč byly provedeny.
Popis modelu: jaké faktové a dimenzní tabulky jsou v databázi vytvořeny? Odkud pochází jednotlivé atributy? Jaké jsou vztahy mezi tabulkami? Došlo k denormalizaci schematu?
Popis analytického dotazu: jaký dotaz byl vytvořen a jaké informace z něj lze získat? Jaké jsou jeho výsledky?
Vyprávění o cestě: jaké nečekané problémy byly řešeny, jaké byly jejich příčiny a jaké byly jejich řešení? Co se nepovedlo vyřešit? Co byste zpětně změnili na výběru tématu či postupu?
Dokumentace by měla být věcná a stručná. Nejde o beletrii, ale o technický popis.
❓ Dvě varianty, které můžeme zvolit. Zeptám se na cvičení, co by bylo pro vás přijatelnější.
Po úspěšné prezentaci student nahraje archiv s projektem (data, skript, databáze, dokumentace) do příslušného portletu na STAG.