Flerdimensionell skalning
Den flerdimensionella skalningen (även flerdimensionell skalning eller likhetsstrukturanalys , förkortad: MDS ) är en samling metoder för multivariat statistik . Ditt formella mål är att rumsligt arrangera objekten på ett sådant sätt att luckorna ( avstånden ) mellan objekten i rummet motsvarar så exakt som möjligt de olikheter / likheter som tas upp . Ju längre isär objekten är, desto olikare är de, och ju närmare de är, desto mer liknar de. Information om objektpar samlas därför in för att bestämma metrisk information om objekten därifrån.
Lösningen av flerdimensionell skalning, den så kallade konfigurationen , uppskattas vanligtvis i två eller tre dimensioner, vilket gör det lättare att tolka. I princip kan konfigurationen bestämmas för objekt i upp till ett dimensionellt utrymme. Förutom den rumsliga konfigurationen av objekt, ger flerdimensionell skalning ett antal indikatorer (t.ex. Stress1, S-Stress, ALSCAL, bestämningskoefficient etc.) som bedömer konfigurationens kvalitet.
Den flerdimensionella skalningen går tillbaka till psykologen Warren S. Torgerson (publikationer 1952–1968). De viktigaste statistiska metoderna är metrisk och icke-metrisk flerdimensionell skalning enligt Kruskal.
Ett applikationsexempel för flerdimensionell skalning är egendomsanpassning i marknadsföring .
Olika procedurer för MDS
I de olika MDS-metoderna kan en allmän skillnad göras mellan de för fyrkantiga matriser och de för rektangulära matriser. I fallet med data som kallas matrisvillkorliga är de maximala värdena som kan jämföras med varandra inom en matris och motsvarande, i fallet med linjebetingad data, endast värdena inom en rad.
Tre modellkonstellationer kan urskiljas:
- enkel MDS: en matris och en konfiguration (antagande av ett perceptuellt utrymme som är inneboende i alla ämnen, vilket inte kontrolleras av modellen.)
- upprepad MDS: mer än en matris men också bara en konfiguration (samma hypotes som med den enkla MDS, men här kontrolleras detta av modellen)
- INDSCAL: mer än en matris och mer än en konfiguration, mer exakt tilldelas varje enskild matris kompressions- och / eller töjningsfaktorer för varje dimension och tillämpas på en allmän konfiguration. Ett perceptuellt utrymme inneboende i alla ämnen antas, vars dimensioner bedöms emellertid individuellt som av olika betydelse, vilket kontrolleras av proceduren.
Procedurerna för linjebetingade data inkluderar:
- Ankarpunktmetod: ett objekt fungerar som referenspunkt för alla andra objekt. Matrisen är då fyrkantig, men asymmetrisk och därför linjebetingad.
- Multidimensionell utveckling (MDU): inte ett objekt, men varje ämne tolkas som en förankringspunkt.
Metrisk flerdimensionell skalning
Målet med metrisk flerdimensionell skalning är att ordna objekt med avstånd i högdimensionellt utrymme i ett mindre -dimensionellt utrymme på ett sådant sätt att de euklidiska avstånden i detta utrymme är så exakt som möjligt samma som avstånden . Denna konfiguration kan enkelt tolkas med hjälp av det euklidiska måttet , eftersom avstånden mellan objekt motsvarar deras avstånd när kråken flyger.
Utöver euklidiska avståndsmått, de mätvärden som används i faktoranalyser är också vanliga. Manhattan-mätvärdet används bland annat i diskreta modeller .
Om likhetsmått mellan objekt ges som startvärden istället för avstånd , kan dessa bestämmas av transformationen
översätt till avstånd.
algoritm
Förfarandet för flerdimensionell skalning kan beskrivas i fyra steg:
- Definiera matris med
- Definiera matris med var betecknar radenes medelvärde , kolumnens medelvärde och genomsnittet för alla element i .
- Bestäm egenvärden och tillhörande egenvektorer i matrisen med fastigheten: .
- Koordinaterna för punkterna i data som skall skalas dimensionell rymd erhålls sedan från de egenvektorer som motsvarar de största egenvärdena: .
exempel
Avstånden mellan de snabbaste bilförbindelserna mellan olika städer ges och koordinaterna för städerna eftersträvas.
Berlin | Frankfurt | Hamburg | Köln | München | |
---|---|---|---|---|---|
Berlin | 0 | 548 | 289 | 576 | 586 |
Frankfurt | 548 | 0 | 493 | 195 | 392 |
Hamburg | 289 | 493 | 0 | 427 | 776 |
Köln | 576 | 195 | 427 | 0 | 577 |
München | 586 | 392 | 776 | 577 | 0 |
Den metriska flerdimensionella skalningen för en konfiguration i två dimensioner med statistiska programvaruresultat
stad | X | Y | Grafisk konfiguration |
---|---|---|---|
Berlin | 0,8585 | −1.1679 | |
Frankfurt | −0.6363 | 0,6660 | |
Hamburg | 1,5036 | 0,0800 | |
Köln | −0.0438 | 1,1760 | |
München | −1.6821 | −0,7542 |
Den hittade konfigurationen är unik, förutom rotation och skalning:
- Varje roterad lösning levererar naturligtvis samma (euklidiska) avstånd mellan städerna och därmed är dessa lösningar ekvivalenta.
- På grund av standardiseringen i algoritmen ger en enhetlig multiplicering av avståndet för alla städer från nollpunkten samma koordinater för städerna.
Icke-metrisk flerdimensionell skalning
Den icke-metriska flerdimensionella skalningen syftar till att utvidga den metriska flerdimensionella skalningen i två aspekter:
- Ingen specifikation av en uttrycklig funktion för att konvertera (i) likheter till avstånd och
- användningen av icke-euklidiska geometrier för att hitta konfigurationer.
Om skillnaderna är relaterade till avstånden ovan måste denna funktion vara svagt monoton : om den är så måste den gälla .
Därför rankas paren av olikheter
så resulterar monotonistillståndet
- .
Shepard-Kruskal-algoritm
Shepard-Kruskal-algoritmen bestämmer konfigurationen iterativt :
- Initiering : Välj önskad dimensionalitet och ordna objekt slumpmässigt i målområdet. (För resultaten kan ofta presenteras tydligt.) Beräkna avstånden mellan alla objekt och .
- Steg : Uppskatta objektens skillnader och använda deras avstånd . Algoritmen Pool-Adjacent Violators (se nedan) kan användas för detta.
- Uppsägningsvillkor: Så snart ett av de valda avslutningskriterierna (se följande avsnitt) har uppnåtts för den iterativa processen avslutas den iterativa processen med den konfiguration som hittats, vilken är optimal (eventuellt endast lokalt). Fortsätt annars med punkt 4.
- Justering av positionerna till skillnaderna: Beräkna de nya koordinatvärdena för alla objektpar och (se nedan), t.ex. B. liknar en gradientmetod . Bestäm avstånden för de nya positionerna och fortsätt med punkt 2.
Algoritm för poolangränsande överträdare
- Om monotonin villkoret inte kränks mellan två intilliggande punkter, använder vi respektive sträcka som skillnader, det vill säga .
- Om monotonicitetstillståndet mellan två ( ) eller flera ( ) intilliggande punkter skadas, så använder vi genomsnittet av motsvarande avstånd än skillnader så .
Vilka transformationer som är tillåtna vid beräkning av skillnaderna beror på skalningsnivån för rådata. Avstånden i det perceptuella utrymmet kan dock anta en annan skalningsnivå. I vilken utsträckning en ökning av skalningsnivån är tillåten bedöms med hjälp av kompressionsförhållandet Q (antal likheter / (antal dimensioner * antal objekt)). Med den "enkla" MDS är rådata redan tillgängliga i aggregerad form, så de representerar oftast medelvärdena för respondenternas svar.
Beräkning av de nya positionerna
Den nya positionen beräknas som
- .
Det är objektets position vid den tidpunkten och en viktningsfaktor (välj inte för stor, eftersom stressvärdet också kan försämras - vanligtvis 0,2).
Om två objekt är för långt ifrån varandra i förhållande till deras likhet ( är större än 1, vilket gör uttrycket i parenteserna negativt), skjuts de mot varandra (riktningen bestäms av skillnaden i den andra parentesen). Två ganska olika objekt som ligger för nära varandra flyttas bort från varandra. Detta sänker vanligtvis stressvärdet och iterationen fortsätter med steg 2, vilket vanligtvis sänker stressvärdet igen.
exempel
Baserat på exemplet ovan kan vi rangordna avstånden och ställa in monotonistillståndet:
Distans: | < | < | < | < | < | < | < | < | < | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Monotoni tillstånd: | < | < | < | < | < | < | < | < | < |
I början valdes en slumpmässig konfiguration:
placera | Avstånd till | ||||||
---|---|---|---|---|---|---|---|
plats | X | Y | Berlin | Frankfurt | Hamburg | Köln | München |
Berlin | 0,9961 | −1,5759 | 0 | ||||
Frankfurt | −1.1453 | 0,7840 | 3.1866 | 0 | |||
Hamburg | −0,7835 | 0,9408 | 3.0824 | 0,3942 | 0 | ||
Köln | −0.1025 | −0.0208 | 1.9041 | 1.3172 | 1.1783 | 0 | |
München | 1.0352 | −0.1281 | 1.4483 | 2,3635 | 2.1096 | 1.1428 | 0 |
detta resulterar i:
Monotont: | |||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
PAV | |||||||||||||||||||
De beräknade euklidiska avstånden visar att monotonistillståndet kränks på två områden:
- och
- .
Skillnaderna beräknas därför som medelvärden (1,7546 och 1,9447) för motsvarande områden. Med skillnaderna kan nu punktpositionerna flyttas. Denna procedur upprepas och leder till den lösning som visas här.
Uppsägning eller kvalitetskriterier
Syftet med processen är en optimal anpassning av MDS-lösningen till rådata och därmed lägsta möjliga STRESS eller energivärde eller största möjliga säkerhet. Dessa värden ska förstås som skillnaden mellan skillnad och avstånd. Om värdena inte längre ändras eller bara ändras något avslutas iterationsprocessen.
STRESS mått
STRESS-värdet (STRESS för standardiserad återstående summa av kvadrater , tyska: standardiserad restsumma av kvadrater ) beräknas (enligt Kruskal ) som roten till summan av kvadratavvikelserna för skillnaderna från avstånden dividerat med summan kvadratiska avstånd. STRESS är därför ett standardiserat mått på varians:
Passform | STRESS 1 | STRESS 2 |
---|---|---|
låg | 0,2 | 0,4 |
tillräcklig | 0,1 | 0,2 |
Bra | 0,05 | 0,1 |
excellent | 0,025 | 0,05 |
Perfekt | 0 | 0 |
En alternativ STRESS-åtgärd är
med medelvärdet för alla avstånd.
I princip finns det inga exakta specifikationer för vilket STRESS-värde som fortfarande är acceptabelt och vilka som kan beskrivas som "bra". "För att ha en norm alls undersökte man" noll av alla nollhypoteser "och skalade tusentals slumpmässiga data via MDS och registrerade vilka stressvärden som resulterade" (jfr BORG / STAUFENBIEL 1989). Kruskal har skapat referensvärden för STRESS-värdet som du kan använda som en guide.
Determinationskoefficient
Förutom de enkla kostnadskriterierna STRESS används ett alternativt mått som ett kvalitetskriterium för att anpassa konfigurationen till rådata. Den koefficient för bestämning är den kvadrerade korrelations av avstånden med de skillnader och kan ses som nivån av den linjära anpassningen av skillnaderna till avstånden. I praktiken anses värden som är större än 0,9 vara acceptabla för bestämningskoefficienten.
energi
Viktningen av summorna i formeln leder till energimått
programvara
MDS kan utföras automatiskt i statistiska program som SPSS . I R , de cmdscale funktions utför en MDS. Det är samma sak med Matlab , som MDS tillhandahåller med mdscale- funktionen.
litteratur
- Thomas A. Runkler: Data mining metoder och algoritmer för intelligent dataanalys . Vieweg + Teubner, 2010, s. 41–47.
- WS Torgerson: Theory & Methods of Scaling . Wiley, New York 1958.
- I. Borg, Th. Staufenbiel: Teorier och metoder för skalning . Huber, Bern 2007.
- Backhaus, Erichson, Plinke, Weiber: Multivariata analysmetoder . Springer Verlag, Berlin 2000
- R. Mathar: Flerdimensionell skalning . Teubner, Stuttgart 1997
- I. Borg, P. Groenen: Modern flerdimensionell skalning: teori och tillämpningar . Springer, New York 2005.
Individuella bevis
- ↑ a b J. B. Kruskal. Flerdimensionell skalning genom att optimera passformen till en icke-metrisk hypotes. I: Psychometrika , 29 (1), 1964, s. 1–27, doi : 10.1007 / BF02289565
- ↑ Kappelhoff: Flerdimensionell skalning - Exempel för dataanalys. (PDF) Ordförande för empirisk ekonomisk och social forskning, 2001
- ↑ Wojciech Basalaj: Närhetsvisualisering av abstrakta data . (PDF; 7,7 MB) 2001; Hämtad 19 juni 2013