Flerdimensionell skalning

Den flerdimensionella skalningen (även flerdimensionell skalning eller likhetsstrukturanalys , förkortad: MDS ) är en samling metoder för multivariat statistik . Ditt formella mål är att rumsligt arrangera objekten på ett sådant sätt att luckorna ( avstånden ) mellan objekten i rummet motsvarar så exakt som möjligt de olikheter / likheter som tas upp . Ju längre isär objekten är, desto olikare är de, och ju närmare de är, desto mer liknar de. Information om objektpar samlas därför in för att bestämma metrisk information om objekten därifrån.

Lösningen av flerdimensionell skalning, den så kallade konfigurationen , uppskattas vanligtvis i två eller tre dimensioner, vilket gör det lättare att tolka. I princip kan konfigurationen bestämmas för objekt i upp till ett dimensionellt utrymme. Förutom den rumsliga konfigurationen av objekt, ger flerdimensionell skalning ett antal indikatorer (t.ex. Stress1, S-Stress, ALSCAL, bestämningskoefficient etc.) som bedömer konfigurationens kvalitet.

Den flerdimensionella skalningen går tillbaka till psykologen Warren S. Torgerson (publikationer 1952–1968). De viktigaste statistiska metoderna är metrisk och icke-metrisk flerdimensionell skalning enligt Kruskal.

Ett applikationsexempel för flerdimensionell skalning är egendomsanpassning i marknadsföring .

Olika procedurer för MDS

I de olika MDS-metoderna kan en allmän skillnad göras mellan de för fyrkantiga matriser och de för rektangulära matriser. I fallet med data som kallas matrisvillkorliga är de maximala värdena som kan jämföras med varandra inom en matris och motsvarande, i fallet med linjebetingad data, endast värdena inom en rad.

Tre modellkonstellationer kan urskiljas:

  • enkel MDS: en matris och en konfiguration (antagande av ett perceptuellt utrymme som är inneboende i alla ämnen, vilket inte kontrolleras av modellen.)
  • upprepad MDS: mer än en matris men också bara en konfiguration (samma hypotes som med den enkla MDS, men här kontrolleras detta av modellen)
  • INDSCAL: mer än en matris och mer än en konfiguration, mer exakt tilldelas varje enskild matris kompressions- och / eller töjningsfaktorer för varje dimension och tillämpas på en allmän konfiguration. Ett perceptuellt utrymme inneboende i alla ämnen antas, vars dimensioner bedöms emellertid individuellt som av olika betydelse, vilket kontrolleras av proceduren.

Procedurerna för linjebetingade data inkluderar:

  • Ankarpunktmetod: ett objekt fungerar som referenspunkt för alla andra objekt. Matrisen är då fyrkantig, men asymmetrisk och därför linjebetingad.
  • Multidimensionell utveckling (MDU): inte ett objekt, men varje ämne tolkas som en förankringspunkt.

Metrisk flerdimensionell skalning

Målet med metrisk flerdimensionell skalning är att ordna objekt med avstånd i högdimensionellt utrymme i ett mindre -dimensionellt utrymme på ett sådant sätt att de euklidiska avstånden i detta utrymme är så exakt som möjligt samma som avstånden . Denna konfiguration kan enkelt tolkas med hjälp av det euklidiska måttet , eftersom avstånden mellan objekt motsvarar deras avstånd när kråken flyger.

Utöver euklidiska avståndsmått, de mätvärden som används i faktoranalyser är också vanliga. Manhattan-mätvärdet används bland annat i diskreta modeller .

Om likhetsmått mellan objekt ges som startvärden istället för avstånd , kan dessa bestämmas av transformationen

översätt till avstånd.

algoritm

Förfarandet för flerdimensionell skalning kan beskrivas i fyra steg:

  1. Definiera matris med
  2. Definiera matris med var betecknar radenes medelvärde , kolumnens medelvärde och genomsnittet för alla element i .
  3. Bestäm egenvärden och tillhörande egenvektorer i matrisen med fastigheten: .
  4. Koordinaterna för punkterna i data som skall skalas dimensionell rymd erhålls sedan från de egenvektorer som motsvarar de största egenvärdena: .

exempel

Avstånden mellan de snabbaste bilförbindelserna mellan olika städer ges och koordinaterna för städerna eftersträvas.

Berlin Frankfurt Hamburg Köln München
Berlin 0 548 289 576 586
Frankfurt 548 0 493 195 392
Hamburg 289 493 0 427 776
Köln 576 195 427 0 577
München 586 392 776 577 0

Den metriska flerdimensionella skalningen för en konfiguration i två dimensioner med statistiska programvaruresultat

stad X Y Grafisk konfiguration
Berlin 0,8585 −1.1679 Mds staedte.png
Frankfurt −0.6363 0,6660
Hamburg 1,5036 0,0800
Köln −0.0438 1,1760
München −1.6821 −0,7542

Den hittade konfigurationen är unik, förutom rotation och skalning:

  • Varje roterad lösning levererar naturligtvis samma (euklidiska) avstånd mellan städerna och därmed är dessa lösningar ekvivalenta.
  • På grund av standardiseringen i algoritmen ger en enhetlig multiplicering av avståndet för alla städer från nollpunkten samma koordinater för städerna.

Icke-metrisk flerdimensionell skalning

Den icke-metriska flerdimensionella skalningen syftar till att utvidga den metriska flerdimensionella skalningen i två aspekter:

  1. Ingen specifikation av en uttrycklig funktion för att konvertera (i) likheter till avstånd och
  2. användningen av icke-euklidiska geometrier för att hitta konfigurationer.

Om skillnaderna är relaterade till avstånden ovan måste denna funktion vara svagt monoton : om den är så måste den gälla .

Därför rankas paren av olikheter

så resulterar monotonistillståndet

.

Shepard-Kruskal-algoritm

Shepard-Kruskal-algoritmen bestämmer konfigurationen iterativt :

  1. Initiering : Välj önskad dimensionalitet och ordna objekt slumpmässigt i målområdet. (För resultaten kan ofta presenteras tydligt.) Beräkna avstånden mellan alla objekt och .
  2. Steg : Uppskatta objektens skillnader och använda deras avstånd . Algoritmen Pool-Adjacent Violators (se nedan) kan användas för detta.
  3. Uppsägningsvillkor: Så snart ett av de valda avslutningskriterierna (se följande avsnitt) har uppnåtts för den iterativa processen avslutas den iterativa processen med den konfiguration som hittats, vilken är optimal (eventuellt endast lokalt). Fortsätt annars med punkt 4.
  4. Justering av positionerna till skillnaderna: Beräkna de nya koordinatvärdena för alla objektpar och (se nedan), t.ex. B. liknar en gradientmetod . Bestäm avstånden för de nya positionerna och fortsätt med punkt 2.

Algoritm för poolangränsande överträdare

  • Om monotonin villkoret inte kränks mellan två intilliggande punkter, använder vi respektive sträcka som skillnader, det vill säga .
  • Om monotonicitetstillståndet mellan två ( ) eller flera ( ) intilliggande punkter skadas, så använder vi genomsnittet av motsvarande avstånd än skillnader så .

Vilka transformationer som är tillåtna vid beräkning av skillnaderna beror på skalningsnivån för rådata. Avstånden i det perceptuella utrymmet kan dock anta en annan skalningsnivå. I vilken utsträckning en ökning av skalningsnivån är tillåten bedöms med hjälp av kompressionsförhållandet Q (antal likheter / (antal dimensioner * antal objekt)). Med den "enkla" MDS är rådata redan tillgängliga i aggregerad form, så de representerar oftast medelvärdena för respondenternas svar.

Beräkning av de nya positionerna

Den nya positionen beräknas som

.

Det är objektets position vid den tidpunkten och en viktningsfaktor (välj inte för stor, eftersom stressvärdet också kan försämras - vanligtvis 0,2).

Om två objekt är för långt ifrån varandra i förhållande till deras likhet ( är större än 1, vilket gör uttrycket i parenteserna negativt), skjuts de mot varandra (riktningen bestäms av skillnaden i den andra parentesen). Två ganska olika objekt som ligger för nära varandra flyttas bort från varandra. Detta sänker vanligtvis stressvärdet och iterationen fortsätter med steg 2, vilket vanligtvis sänker stressvärdet igen.

exempel

Baserat på exemplet ovan kan vi rangordna avstånden och ställa in monotonistillståndet:

Distans: < < < < < < < < <
Monotoni tillstånd: < < < < < < < < <

I början valdes en slumpmässig konfiguration:

placera Avstånd till
plats X Y Berlin Frankfurt Hamburg Köln München
Berlin 0,9961 −1,5759 0
Frankfurt −1.1453 0,7840 3.1866 0
Hamburg −0,7835 0,9408 3.0824 0,3942 0
Köln −0.1025 −0.0208 1.9041 1.3172 1.1783 0
München 1.0352 −0.1281 1.4483 2,3635 2.1096 1.1428 0

detta resulterar i:

Monotont:
PAV
Lösning av icke-metrisk flerdimensionell skalning

De beräknade euklidiska avstånden visar att monotonistillståndet kränks på två områden:

  1. och
  2. .

Skillnaderna beräknas därför som medelvärden (1,7546 och 1,9447) för motsvarande områden. Med skillnaderna kan nu punktpositionerna flyttas. Denna procedur upprepas och leder till den lösning som visas här.

Uppsägning eller kvalitetskriterier

Syftet med processen är en optimal anpassning av MDS-lösningen till rådata och därmed lägsta möjliga STRESS eller energivärde eller största möjliga säkerhet. Dessa värden ska förstås som skillnaden mellan skillnad och avstånd. Om värdena inte längre ändras eller bara ändras något avslutas iterationsprocessen.

STRESS mått

STRESS-värdet (STRESS för standardiserad återstående summa av kvadrater , tyska: standardiserad restsumma av kvadrater ) beräknas (enligt Kruskal ) som roten till summan av kvadratavvikelserna för skillnaderna från avstånden dividerat med summan kvadratiska avstånd. STRESS är därför ett standardiserat mått på varians:

Passform STRESS 1 STRESS 2
låg 0,2 0,4
tillräcklig 0,1 0,2
Bra 0,05 0,1
excellent 0,025 0,05
Perfekt 0 0

En alternativ STRESS-åtgärd är

med medelvärdet för alla avstånd.

I princip finns det inga exakta specifikationer för vilket STRESS-värde som fortfarande är acceptabelt och vilka som kan beskrivas som "bra". "För att ha en norm alls undersökte man" noll av alla nollhypoteser "och skalade tusentals slumpmässiga data via MDS och registrerade vilka stressvärden som resulterade" (jfr BORG / STAUFENBIEL 1989). Kruskal har skapat referensvärden för STRESS-värdet som du kan använda som en guide.

Determinationskoefficient

Förutom de enkla kostnadskriterierna STRESS används ett alternativt mått som ett kvalitetskriterium för att anpassa konfigurationen till rådata. Den koefficient för bestämning är den kvadrerade korrelations av avstånden med de skillnader och kan ses som nivån av den linjära anpassningen av skillnaderna till avstånden. I praktiken anses värden som är större än 0,9 vara acceptabla för bestämningskoefficienten.

energi

Viktningen av summorna i formeln leder till energimått

programvara

MDS kan utföras automatiskt i statistiska program som SPSS . I R , de cmdscale funktions utför en MDS. Det är samma sak med Matlab , som MDS tillhandahåller med mdscale- funktionen.

litteratur

  • Thomas A. Runkler: Data mining metoder och algoritmer för intelligent dataanalys . Vieweg + Teubner, 2010, s. 41–47.
  • WS Torgerson: Theory & Methods of Scaling . Wiley, New York 1958.
  • I. Borg, Th. Staufenbiel: Teorier och metoder för skalning . Huber, Bern 2007.
  • Backhaus, Erichson, Plinke, Weiber: Multivariata analysmetoder . Springer Verlag, Berlin 2000
  • R. Mathar: Flerdimensionell skalning . Teubner, Stuttgart 1997
  • I. Borg, P. Groenen: Modern flerdimensionell skalning: teori och tillämpningar . Springer, New York 2005.

Individuella bevis

  1. a b J. B. Kruskal. Flerdimensionell skalning genom att optimera passformen till en icke-metrisk hypotes. I: Psychometrika , 29 (1), 1964, s. 1–27, doi : 10.1007 / BF02289565
  2. Kappelhoff: Flerdimensionell skalning - Exempel för dataanalys. (PDF) Ordförande för empirisk ekonomisk och social forskning, 2001
  3. Wojciech Basalaj: Närhetsvisualisering av abstrakta data . (PDF; 7,7 MB) 2001; Hämtad 19 juni 2013