Praktijkgerichte Statistiek

Module 4: Multivariate methoden

Hier worden meer exploratieve statistische technieken uiteengezet. Veelal is men niet in staat een studie statistisch optimaal op te zetten en wordt men geconfronteerd met observationele studies. Men dient hierin een structuur te herkennen om tot een interpretatie en een besluit te komen. Een eerste techniek waarmee de dimensionaliteit van een dataset gereduceerd kan worden is de principale componentenanalyse. Er wordt gezocht naar de belangrijkste (combinatie van) variabelen. Een stap verder is de factoranalyse. Dit soort analysen komt zowel voor in industrie als in marktgerichte diensten. De canonische correlatieanalyse, die op dezelfde principes gebaseerd is, is een multivariate methode die gebruikt kan worden om verbanden op te sporen tussen twee multivariate subsets. Vervolgens wordt de clusteranalyse besproken. Deze heeft tot doel groepen te onderscheiden in een multivariate gegevensset en kan eventueel een tweede stap vormen in de analyse, na eerst een principale componentenanalyse of factoranalyse uitgevoerd te hebben om de dimensionaliteit te reduceren. Indien er reeds meer a-priori kennis is omtrent de groepen, kan een discriminantanalyse of een classificatieboom toegepast worden om een criterium te bepalen dat gebruikt kan worden om nieuwe observaties in één der groepen onder te verdelen. Geen van deze tools is rechtstreeks gebaseerd op de technieken uit de eerste module, maar een basiskennis ervan is aangeraden om een duidelijk onderscheid te kunnen maken tussen de doelstellingen van de methoden. Dit onderscheid zit voornamelijk in het verschil tussen analyse van experimentele of observationele studies. De eerste soort leent zich tot het toepassen van bevestigende statistische methoden: hypothese toetsen. Op de tweede soort daarentegen worden eerder exploratieve en hypothese genererende technieken toegepast.

Duur: 5 avonden: 50% theorie en 50% oefeningen + 1 extra avond: 100% oefeningen

Lesgevers: Olivier Thas en Ellen Deschepper

Data: 4, 11, 18 en 25 mei, 1 en 8 juni 2010

Doelpubliek: R&D, wetenschappelijke onderzoekers, marketing en productie: allen die geconfronteerd worden met grote multivariate datasets waarin een structuur dient gezocht te worden met het oog op het vormen van conclusies.

Referentieboek: "Multivariate Statistical Methods" van Bryan F.J. Manly (Chapman & Hall) (optioneel)