Flerdimensionell skalning

Den flerdimensionella skalningen (även flerdimensionell skalning eller likhetsstrukturanalys , förkortad: MDS ) är en samling metoder för multivariat statistik . Ditt formella mål är att rumsligt arrangera objekten på ett sådant sätt att luckorna ( avstånden ) mellan objekten i rummet motsvarar så exakt som möjligt de olikheter / likheter som tas upp . Ju längre isär objekten är, desto olikare är de, och ju närmare de är, desto mer liknar de. Information om objektpar samlas därför in för att bestämma metrisk information om objekten därifrån.

Lösningen av flerdimensionell skalning, den så kallade konfigurationen , uppskattas vanligtvis i två eller tre dimensioner, vilket gör det lättare att tolka. I princip kan konfigurationen bestämmas för objekt i upp till ett dimensionellt utrymme. Förutom den rumsliga konfigurationen av objekt, ger flerdimensionell skalning ett antal indikatorer (t.ex. Stress1, S-Stress, ALSCAL, bestämningskoefficient etc.) som bedömer konfigurationens kvalitet. ${\ displaystyle n}$ ${\ displaystyle (n-1)}$

Den flerdimensionella skalningen går tillbaka till psykologen Warren S. Torgerson (publikationer 1952–1968). De viktigaste statistiska metoderna är metrisk och icke-metrisk flerdimensionell skalning enligt Kruskal.

Ett applikationsexempel för flerdimensionell skalning är egendomsanpassning i marknadsföring .

Olika procedurer för MDS

I de olika MDS-metoderna kan en allmän skillnad göras mellan de för fyrkantiga matriser och de för rektangulära matriser. I fallet med data som kallas matrisvillkorliga är de maximala värdena som kan jämföras med varandra inom en matris och motsvarande, i fallet med linjebetingad data, endast värdena inom en rad.

Tre modellkonstellationer kan urskiljas:

enkel MDS: en matris och en konfiguration (antagande av ett perceptuellt utrymme som är inneboende i alla ämnen, vilket inte kontrolleras av modellen.)
upprepad MDS: mer än en matris men också bara en konfiguration (samma hypotes som med den enkla MDS, men här kontrolleras detta av modellen)
INDSCAL: mer än en matris och mer än en konfiguration, mer exakt tilldelas varje enskild matris kompressions- och / eller töjningsfaktorer för varje dimension och tillämpas på en allmän konfiguration. Ett perceptuellt utrymme inneboende i alla ämnen antas, vars dimensioner bedöms emellertid individuellt som av olika betydelse, vilket kontrolleras av proceduren.

Procedurerna för linjebetingade data inkluderar:

Ankarpunktmetod: ett objekt fungerar som referenspunkt för alla andra objekt. Matrisen är då fyrkantig, men asymmetrisk och därför linjebetingad.
Multidimensionell utveckling (MDU): inte ett objekt, men varje ämne tolkas som en förankringspunkt.

Metrisk flerdimensionell skalning

Målet med metrisk flerdimensionell skalning är att ordna objekt med avstånd i högdimensionellt utrymme i ett mindre -dimensionellt utrymme på ett sådant sätt att de euklidiska avstånden i detta utrymme är så exakt som möjligt samma som avstånden . Denna konfiguration kan enkelt tolkas med hjälp av det euklidiska måttet , eftersom avstånden mellan objekt motsvarar deras avstånd när kråken flyger. ${\ displaystyle d_ {ij}}$ ${\ displaystyle m}$ ${\ displaystyle d_ {ij}}$ ${\ displaystyle d_ {ij}}$

Utöver euklidiska avståndsmått, de mätvärden som används i faktoranalyser är också vanliga. Manhattan-mätvärdet används bland annat i diskreta modeller .

Om likhetsmått mellan objekt ges som startvärden istället för avstånd , kan dessa bestämmas av transformationen ${\ displaystyle c_ {ij}}$

{\ displaystyle d_ {ij} = {\ sqrt {c_ {ii} + c_ {jj} -2c_ {ij}}}}

översätt till avstånd.

algoritm

Förfarandet för flerdimensionell skalning kan beskrivas i fyra steg:

Definiera matris med ${\ displaystyle A = (a_ {ij})}$ ${\ displaystyle a_ {ij} = - {\ frac {1} {2}} d_ {ij} ^ {2}}$
Definiera matris med var betecknar radenes medelvärde , kolumnens medelvärde och genomsnittet för alla element i . ${\ displaystyle B = (b_ {ij})}$ ${\ displaystyle b_ {ij} = a_ {ij} -a_ {i \ bullet} -a _ {\ bullet j} + a _ {\ bullet \ bullet}}$ ${\ displaystyle a_ {i \ bullet} = {\ frac {1} {n}} \ sum _ {j = 1} ^ {n} a_ {ij}}$ ${\ displaystyle i}$ ${\ displaystyle a _ {\ bullet j} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} a_ {ij}}$ ${\ displaystyle j}$ ${\ displaystyle a _ {\ bullet \ bullet} = {\ frac {1} {n ^ {2}}} \ sum _ {i = 1} ^ {n} \ sum _ {j = 1} ^ {n} a_ {ij}}$ ${\ displaystyle A}$
Bestäm egenvärden och tillhörande egenvektorer i matrisen med fastigheten: . ${\ displaystyle \ lambda _ {i}}$ ${\ displaystyle \ gamma _ {i} = (\ gamma _ {ij})}$ ${\ displaystyle B = (b_ {ij})}$ ${\ displaystyle \ sum _ {j = 1} ^ {n} \ gamma _ {ij} ^ {2} = \ lambda _ {i}}$
Koordinaterna för punkterna i data som skall skalas dimensionell rymd erhålls sedan från de egenvektorer som motsvarar de största egenvärdena: . ${\ displaystyle m}$ ${\ displaystyle m}$ ${\ displaystyle x_ {i} = \ gamma _ {i}}$

exempel

Avstånden mellan de snabbaste bilförbindelserna mellan olika städer ges och koordinaterna för städerna eftersträvas.

	Berlin	Frankfurt	Hamburg	Köln	München
Berlin	0	548	289	576	586
Frankfurt	548	0	493	195	392
Hamburg	289	493	0	427	776
Köln	576	195	427	0	577
München	586	392	776	577	0

Den metriska flerdimensionella skalningen för en konfiguration i två dimensioner med statistiska programvaruresultat

stad	X	Y
Berlin	0,8585	−1.1679
Frankfurt	−0.6363	0,6660
Hamburg	1,5036	0,0800
Köln	−0.0438	1,1760
München	−1.6821	−0,7542

Den hittade konfigurationen är unik, förutom rotation och skalning:

Varje roterad lösning levererar naturligtvis samma (euklidiska) avstånd mellan städerna och därmed är dessa lösningar ekvivalenta.
På grund av standardiseringen i algoritmen ger en enhetlig multiplicering av avståndet för alla städer från nollpunkten samma koordinater för städerna. ${\ displaystyle \ left (\ textstyle \ sum _ {j = 1} ^ {n} \ gamma _ {ij} ^ {2} = \ lambda _ {i} \ right)}$

Icke-metrisk flerdimensionell skalning

Den icke-metriska flerdimensionella skalningen syftar till att utvidga den metriska flerdimensionella skalningen i två aspekter:

Ingen specifikation av en uttrycklig funktion för att konvertera (i) likheter till avstånd och
användningen av icke-euklidiska geometrier för att hitta konfigurationer.

Om skillnaderna är relaterade till avstånden ovan måste denna funktion vara svagt monoton : om den är så måste den gälla . ${\ displaystyle \ delta _ {ij}}$ ${\ displaystyle d_ {ij}}$ ${\ displaystyle d_ {ij} = f (\ delta _ {ij})}$ ${\ displaystyle f}$ ${\ displaystyle \ delta _ {ij} <\ delta _ {kl}}$ ${\ displaystyle d_ {ij} = f (\ delta _ {ij}) <f (\ delta _ {kl}) = d_ {kl}}$

Därför rankas paren av olikheter

{\ displaystyle \ delta _ {i_ {1} j_ {1}} <\ dots <\ delta _ {i_ {k} j_ {k}}}

så resulterar monotonistillståndet

{\ displaystyle f (\ delta _ {i_ {1} j_ {1}}) <\ dots <f (\ delta _ {i_ {k} j_ {k}})}

.

Shepard-Kruskal-algoritm

Shepard-Kruskal-algoritmen bestämmer konfigurationen iterativt :

Initiering : Välj önskad dimensionalitet och ordna objekt slumpmässigt i målområdet. (För resultaten kan ofta presenteras tydligt.) Beräkna avstånden mellan alla objekt och . ${\ displaystyle (t = 0)}$ ${\ displaystyle m}$ ${\ displaystyle m = 2 {,} 3}$ ${\ displaystyle d_ {ij} ^ {(0)}}$ ${\ displaystyle i}$ ${\ displaystyle j}$
Steg : Uppskatta objektens skillnader och använda deras avstånd . Algoritmen Pool-Adjacent Violators (se nedan) kan användas för detta. ${\ displaystyle t}$ ${\ displaystyle {\ hat {d}} _ {ij} ^ {(t)}}$ ${\ displaystyle i}$ ${\ displaystyle j}$ ${\ displaystyle d_ {ij} ^ {(t)}}$
Uppsägningsvillkor: Så snart ett av de valda avslutningskriterierna (se följande avsnitt) har uppnåtts för den iterativa processen avslutas den iterativa processen med den konfiguration som hittats, vilken är optimal (eventuellt endast lokalt). Fortsätt annars med punkt 4.
Justering av positionerna till skillnaderna: Beräkna de nya koordinatvärdena för alla objektpar och (se nedan), t.ex. B. liknar en gradientmetod . Bestäm avstånden för de nya positionerna och fortsätt med punkt 2. ${\ displaystyle x_ {i}}$ ${\ displaystyle x_ {i} ^ {(t + 1)}}$ ${\ displaystyle i}$ ${\ displaystyle j \ neq i}$ ${\ displaystyle d_ {ij} ^ {(t + 1)}}$ ${\ displaystyle x_ {i} ^ {(t + 1)}}$

Algoritm för poolangränsande överträdare

Om monotonin villkoret inte kränks mellan två intilliggande punkter, använder vi respektive sträcka som skillnader, det vill säga . ${\ displaystyle {\ hat {d}} _ {ij} ^ {(t)} = d_ {ij} ^ {(t)}}$
Om monotonicitetstillståndet mellan två ( ) eller flera ( ) intilliggande punkter skadas, så använder vi genomsnittet av motsvarande avstånd än skillnader så . ${\ displaystyle p = 2}$ ${\ displaystyle p> 2}$ ${\ displaystyle {\ hat {d}} _ {i_ {l} j_ {l}} ^ {(t)} = 1 / p \ sum _ {q = 1} ^ {p} d_ {i_ {l + q } j_ {l + q}} ^ {(t)}}$

Vilka transformationer som är tillåtna vid beräkning av skillnaderna beror på skalningsnivån för rådata. Avstånden i det perceptuella utrymmet kan dock anta en annan skalningsnivå. I vilken utsträckning en ökning av skalningsnivån är tillåten bedöms med hjälp av kompressionsförhållandet Q (antal likheter / (antal dimensioner * antal objekt)). Med den "enkla" MDS är rådata redan tillgängliga i aggregerad form, så de representerar oftast medelvärdena för respondenternas svar.

Beräkning av de nya positionerna

Den nya positionen beräknas som ${\ displaystyle x_ {i} ^ {(t + 1)}}$

{\ displaystyle x_ {i} ^ {(t + 1)} = x_ {i} ^ {(t)} + \ alpha \ sum _ {j \ neq i} \ left (1 - {\ frac {{\ hat {d}} _ {ij} ^ {(t)}} {d_ {ij} ^ {(t)}}} \ höger) (x_ {i} ^ {(t)} - ​​x_ {j} ^ {(t)})}

.

Det är objektets position vid den tidpunkten och en viktningsfaktor (välj inte för stor, eftersom stressvärdet också kan försämras - vanligtvis 0,2). ${\ displaystyle x_ {i} ^ {(t)}}$ ${\ displaystyle i}$ ${\ displaystyle t}$ ${\ displaystyle \ alpha}$

Om två objekt är för långt ifrån varandra i förhållande till deras likhet ( är större än 1, vilket gör uttrycket i parenteserna negativt), skjuts de mot varandra (riktningen bestäms av skillnaden i den andra parentesen). Två ganska olika objekt som ligger för nära varandra flyttas bort från varandra. Detta sänker vanligtvis stressvärdet och iterationen fortsätter med steg 2, vilket vanligtvis sänker stressvärdet igen. ${\ displaystyle {\ hat {d}} _ {ij} ^ {(t)} / d_ {ij} ^ {(t)}}$

exempel

Baserat på exemplet ovan kan vi rangordna avstånden och ställa in monotonistillståndet:

Distans:	${\ displaystyle 195}$	<	${\ displaystyle 289}$	<	${\ displaystyle 392}$	<	${\ displaystyle 427}$	<	${\ displaystyle 493}$	<	${\ displaystyle 548}$	<	${\ displaystyle 576}$	<	${\ displaystyle 577}$	<	${\ displaystyle 586}$	<	${\ displaystyle 776}$
Monotoni tillstånd:	${\ displaystyle d_ {F, K}}$	<	${\ displaystyle d_ {B, HH}}$	<	${\ displaystyle d_ {F, M}}$	<	${\ displaystyle d_ {HH, K}}$	<	${\ displaystyle d_ {F, HH}}$	<	${\ displaystyle d_ {B, F}}$	<	${\ displaystyle d_ {B, K}}$	<	${\ displaystyle d_ {K, M}}$	<	${\ displaystyle d_ {B, M}}$	<	${\ displaystyle d_ {HH, M}}$

I början valdes en slumpmässig konfiguration:

placera			Avstånd till
plats	X	Y	Berlin	Frankfurt	Hamburg	Köln	München
Berlin	0,9961	−1,5759	0
Frankfurt	−1.1453	0,7840	3.1866	0
Hamburg	−0,7835	0,9408	3.0824	0,3942	0
Köln	−0.1025	−0.0208	1.9041	1.3172	1.1783	0
München	1.0352	−0.1281	1.4483	2,3635	2.1096	1.1428	0

detta resulterar i:

Monotont:	${\ displaystyle d_ {F, K}}$	${\ displaystyle \ leq}$	${\ displaystyle d_ {B, HH}}$	${\ displaystyle \ leq}$	${\ displaystyle d_ {F, M}}$	${\ displaystyle \ leq}$	${\ displaystyle d_ {HH, K}}$	${\ displaystyle \ leq}$	${\ displaystyle d_ {F, HH}}$	${\ displaystyle \ leq}$	${\ displaystyle d_ {B, F}}$	${\ displaystyle \ leq}$	${\ displaystyle d_ {B, K}}$	${\ displaystyle \ leq}$	${\ displaystyle d_ {K, M}}$	${\ displaystyle \ leq}$	${\ displaystyle d_ {B, M}}$	${\ displaystyle \ leq}$	${\ displaystyle d_ {HH, M}}$
${\ displaystyle d_ {ij} ^ {(0)}}$	${\ displaystyle 1.3172}$	${\ displaystyle \ leq}$	${\ displaystyle 3 {,} 0824}$	${\ displaystyle \ not \ leq}$	${\ displaystyle 2 {,} 3635}$	${\ displaystyle \ not \ leq}$	${\ displaystyle 1 {,} 1783}$	${\ displaystyle \ not \ leq}$	${\ displaystyle 0 {,} 3942}$	${\ displaystyle \ leq}$	${\ displaystyle 3 {,} 1866}$	${\ displaystyle \ not \ leq}$	${\ displaystyle 1 {,} 9041}$	${\ displaystyle \ not \ leq}$	${\ displaystyle 1 {,} 1428}$	${\ displaystyle \ not \ leq}$	${\ displaystyle 1 {,} 4483}$	${\ displaystyle \ not \ leq}$	${\ displaystyle 2 {,} 1096}$
PAV			${\ displaystyle (3 {,} 0824 + 2 {,} 3635 + 1 {,} 1783 + 0 {,} 3942) / 4}$								${\ displaystyle (3 {,} 1866 + 1 {,} 9041 + 1 {,} 1428 + 1 {,} 4483 + 2 {,} 1096) / 5}$
			${\ displaystyle = 1 {,} 7546}$								${\ displaystyle = 1 {,} 9447}$
${\ displaystyle {\ hat {d}} _ {ij} ^ {(0)}}$	${\ displaystyle 1 {,} 3172}$	${\ displaystyle \ leq}$	${\ displaystyle 1 {,} 7546}$	${\ displaystyle \ leq}$	${\ displaystyle 1 {,} 7546}$	${\ displaystyle \ leq}$	${\ displaystyle 1 {,} 7546}$	${\ displaystyle \ leq}$	${\ displaystyle 1 {,} 7546}$	${\ displaystyle \ leq}$	${\ displaystyle 1 {,} 9447}$	${\ displaystyle \ leq}$	${\ displaystyle 1 {,} 9447}$	${\ displaystyle \ leq}$	${\ displaystyle 1 {,} 9447}$	${\ displaystyle \ leq}$	${\ displaystyle 1 {,} 9447}$	${\ displaystyle \ leq}$	${\ displaystyle 1 {,} 9447}$

Lösning av icke-metrisk flerdimensionell skalning

De beräknade euklidiska avstånden visar att monotonistillståndet kränks på två områden:

${\ displaystyle d_ {B, HH} \ leq d_ {F, M} \ leq d_ {HH, K} \ leq d_ {F, HH}}$ och
${\ displaystyle d_ {B, F} \ leq d_ {B, K} \ leq d_ {K, M} \ leq d_ {B, M} \ leq d_ {HH, M}}$ .

Skillnaderna beräknas därför som medelvärden (1,7546 och 1,9447) för motsvarande områden. Med skillnaderna kan nu punktpositionerna flyttas. Denna procedur upprepas och leder till den lösning som visas här. ${\ displaystyle {\ hat {d}} _ {ij} ^ {(0)}}$

Uppsägning eller kvalitetskriterier

Syftet med processen är en optimal anpassning av MDS-lösningen till rådata och därmed lägsta möjliga STRESS eller energivärde eller största möjliga säkerhet. Dessa värden ska förstås som skillnaden mellan skillnad och avstånd. Om värdena inte längre ändras eller bara ändras något avslutas iterationsprocessen.

STRESS mått

STRESS-värdet (STRESS för standardiserad återstående summa av kvadrater , tyska: standardiserad restsumma av kvadrater ) beräknas (enligt Kruskal ) som roten till summan av kvadratavvikelserna för skillnaderna från avstånden dividerat med summan kvadratiska avstånd. STRESS är därför ett standardiserat mått på varians:

Passform	STRESS 1	STRESS 2
låg	0,2	0,4
tillräcklig	0,1	0,2
Bra	0,05	0,1
excellent	0,025	0,05
Perfekt	0	0

{\ displaystyle STRESS_ {1} = \ left ({\ frac {\ sum _ {i <j} (d_ {ij} - {\ hat {d}} _ {ij}) ^ {2}} {\ sum _ {i <j} d_ {ij} ^ {2}}} \ höger) ^ {\ frac {1} {2}}}

En alternativ STRESS-åtgärd är

{\ displaystyle STRESS_ {2} = \ left ({\ frac {\ sum _ {i <j} (d_ {ij} - {\ hat {d}} _ {ij}) ^ {2}} {\ sum _ {i <j} (d_ {ij} - {\ overline {d}}) ^ {2}}} \ höger) ^ {\ frac {1} {2}}}

med medelvärdet för alla avstånd. ${\ displaystyle {\ overline {d}}}$

I princip finns det inga exakta specifikationer för vilket STRESS-värde som fortfarande är acceptabelt och vilka som kan beskrivas som "bra". "För att ha en norm alls undersökte man" noll av alla nollhypoteser "och skalade tusentals slumpmässiga data via MDS och registrerade vilka stressvärden som resulterade" (jfr BORG / STAUFENBIEL 1989). Kruskal har skapat referensvärden för STRESS-värdet som du kan använda som en guide.

Determinationskoefficient

Förutom de enkla kostnadskriterierna STRESS används ett alternativt mått som ett kvalitetskriterium för att anpassa konfigurationen till rådata. Den koefficient för bestämning är den kvadrerade korrelations av avstånden med de skillnader och kan ses som nivån av den linjära anpassningen av skillnaderna till avstånden. I praktiken anses värden som är större än 0,9 vara acceptabla för bestämningskoefficienten.

energi

Viktningen av summorna i formeln leder till energimått ${\ displaystyle STRESS_ {1}}$

{\ displaystyle E = \ left ({\ frac {\ sum _ {i <j} w_ {ij} (d_ {ij} - {\ hat {d}} _ {ij}) ^ {2}} {\ sum _ {i <j} w_ {ij} d_ {ij} ^ {2}}} \ höger) ^ {\ frac {1} {2}}}

programvara

MDS kan utföras automatiskt i statistiska program som SPSS . I R , de cmdscale funktions utför en MDS. Det är samma sak med Matlab , som MDS tillhandahåller med mdscale- funktionen.

litteratur

Thomas A. Runkler: Data mining metoder och algoritmer för intelligent dataanalys . Vieweg + Teubner, 2010, s. 41–47.
WS Torgerson: Theory & Methods of Scaling . Wiley, New York 1958.
I. Borg, Th. Staufenbiel: Teorier och metoder för skalning . Huber, Bern 2007.
Backhaus, Erichson, Plinke, Weiber: Multivariata analysmetoder . Springer Verlag, Berlin 2000
R. Mathar: Flerdimensionell skalning . Teubner, Stuttgart 1997
I. Borg, P. Groenen: Modern flerdimensionell skalning: teori och tillämpningar . Springer, New York 2005.

Individuella bevis

↑ ^a^b J. B. Kruskal. Flerdimensionell skalning genom att optimera passformen till en icke-metrisk hypotes. I: Psychometrika , 29 (1), 1964, s. 1–27, doi : 10.1007 / BF02289565
↑ Kappelhoff: Flerdimensionell skalning - Exempel för dataanalys. (PDF) Ordförande för empirisk ekonomisk och social forskning, 2001
↑ Wojciech Basalaj: Närhetsvisualisering av abstrakta data . (PDF; 7,7 MB) 2001; Hämtad 19 juni 2013

[kruskal-1] J. B. Kruskal. Flerdimensionell skalning genom att optimera passformen till en icke-metrisk hypotes. I: Psychometrika , 29 (1), 1964, s. 1–27, doi : 10.1007 / BF02289565

[2] Kappelhoff: Flerdimensionell skalning - Exempel för dataanalys. (PDF) Ordförande för empirisk ekonomisk och social forskning, 2001

[3] Wojciech Basalaj: Närhetsvisualisering av abstrakta data . (PDF; 7,7 MB) 2001; Hämtad 19 juni 2013

Languages

Flerdimensionell skalning

Innehållsförteckning

Olika procedurer för MDS

Metrisk flerdimensionell skalning

algoritm

exempel

Icke-metrisk flerdimensionell skalning

Shepard-Kruskal-algoritm

Algoritm för poolangränsande överträdare

Beräkning av de nya positionerna

exempel

Uppsägning eller kvalitetskriterier

STRESS mått

Determinationskoefficient

energi

programvara

litteratur

Individuella bevis