Docsity
Docsity

Prepare for your exams
Prepare for your exams

Study with the several resources on Docsity


Earn points to download
Earn points to download

Earn points by helping other students or get them with a premium plan


Guidelines and tips
Guidelines and tips

Análisis multivariable: métodos descriptivos más utilizados comúnmente, Summaries of Business Statistics

Análisis multivariable: métodos descriptivos más utilizados comúnmente

Typology: Summaries

2020/2021

Uploaded on 06/23/2025

joaquin-morales-luque
joaquin-morales-luque 🇬🇧

1 document

1 / 13

Toggle sidebar

This page cannot be seen from the preview

Don't miss anything!

bg1
FUOC • P01/71039/00748 63 Investigación descriptiva: análisis de información
4. Análisis multivariable: métodos descriptivos más
utilizados comúnmente
Los métodos de análisis multivariable se utilizan para estudiar las relaciones
que hay entre más de dos variables.
4.1. Análisis factorial
4.1.1. Cuándo tenemos que utilizar el análisis factorial
Se utiliza cuando queremos resumir la información que contiene una matriz
de datos individuos/variables, tal como se muestra en el ejemplo, reemplazan-
do las variables iniciales por un número menor de variables compuestas o fac-
tores, y perdiendo el mínimo posible de la totalidad de la información que
contienen las variables iniciales.
Ejemplo de matriz de datos individuos por variables
En una encuesta realizada a una muestra de 1.000 estudiantes, se les pidió que valoraran
en una escala de 1 a 6, en la cual 1 significaba “nada deseable” y 6 “totalmente deseable”,
lo deseable que les parecía una serie de veinte características referentes al comportamien-
to de sus profesores. Las características son las siguientes:
V1 Tratan a todos los estudiantes aproximadamente igual.
V2 Incitan a los estudiantes a preguntar.
V3 Próximos, cercanos a los estudiantes.
V4 Muestran interés por los problemas de los estudiantes.
V5 Poseen un carácter agradable.
V6 Dan explicaciones que provocan un gran interés.
V7 Utilizan métodos propios para facilitar la instrucción.
V8 Visten con gusto, van limpios y aseados.
V9 Son puntuales.
V10 Son tranquilos, tienen control de sí mismos.
V11 Parecen seguros de sí mismos.
V12 Son ordenados en sus explicaciones.
V13 Encaran el lado bueno de las cosas.
V14 Desarrollan la asignatura con un sentido crítico.
V15 Tienen respuestas ingeniosas y completas.
V16 Dan explicaciones adaptadas a la realidad.
V17 Son tolerantes con el error de los estudiantes.
V18 Saben apreciar los esfuerzos del estudiante.
V19 Tienen buena dicción, son plenamente audibles.
V20 Saben controlar una situación de nerviosismo.
El análisis factorial forma parte del conjunto de métodos de análisis
multivariable cuyo objetivo consiste en estudiar las relaciones de in-
terdependencia que se producen entre un conjunto de variables o in-
dividuos.
Las matrices de datos de individuos
por variables se explican en el
subapartado 2.1 de este módulo
didáctico.
pf3
pf4
pf5
pf8
pf9
pfa
pfd

Partial preview of the text

Download Análisis multivariable: métodos descriptivos más utilizados comúnmente and more Summaries Business Statistics in PDF only on Docsity!

4. Análisis multivariable: métodos descriptivos más

utilizados comúnmente

Los métodos de análisis multivariable se utilizan para estudiar las relaciones

que hay entre más de dos variables.

4.1. Análisis factorial

4.1.1. Cuándo tenemos que utilizar el análisis factorial

Se utiliza cuando queremos resumir la información que contiene una matriz

de datos individuos/variables, tal como se muestra en el ejemplo, reemplazan-

do las variables iniciales por un número menor de variables compuestas o fac-

tores, y perdiendo el mínimo posible de la totalidad de la información que

contienen las variables iniciales.

Ejemplo de matriz de datos individuos por variables

En una encuesta realizada a una muestra de 1.000 estudiantes, se les pidió que valoraran en una escala de 1 a 6, en la cual 1 significaba “nada deseable” y 6 “totalmente deseable”, lo deseable que les parecía una serie de veinte características referentes al comportamien- to de sus profesores. Las características son las siguientes:

V1 Tratan a todos los estudiantes aproximadamente igual. V2 Incitan a los estudiantes a preguntar. V3 Próximos, cercanos a los estudiantes. V4 Muestran interés por los problemas de los estudiantes. V5 Poseen un carácter agradable. V6 Dan explicaciones que provocan un gran interés. V7 Utilizan métodos propios para facilitar la instrucción. V8 Visten con gusto, van limpios y aseados. V9 Son puntuales. V10 Son tranquilos, tienen control de sí mismos. V11 Parecen seguros de sí mismos. V12 Son ordenados en sus explicaciones. V13 Encaran el lado bueno de las cosas. V14 Desarrollan la asignatura con un sentido crítico. V15 Tienen respuestas ingeniosas y completas. V16 Dan explicaciones adaptadas a la realidad. V17 Son tolerantes con el error de los estudiantes. V18 Saben apreciar los esfuerzos del estudiante. V19 Tienen buena dicción, son plenamente audibles. V20 Saben controlar una situación de nerviosismo.

El análisis factorial forma parte del conjunto de métodos de análisis

multivariable cuyo objetivo consiste en estudiar las relaciones de in-

terdependencia que se producen entre un conjunto de variables o in-

dividuos.

Las matrices de datos de individuos por variables se explican en el subapartado 2.1 de este módulo didáctico.

La matriz de resultados obtenidos fue la siguiente:

En el ejemplo anterior, ¿es necesario guardar los 20.000 valores que hemos ob-

tenido o bien podemos sintetizar (resumir) toda esta información en una, dos

o tres variables compuestas? ¿No hay una relación determinada entre las va-

riables iniciales y, por lo tanto, no podemos eliminar algunas que tan sólo

aportan una información marginal y poco interesante? Si hay una relación de

interdependencia sistemática en el conjunto de las variables, ¿no puede ser de-

bida originalmente a algunos factores más fundamentales (latentes)? ¿No pode-

mos considerar las variables originales como simples índices de estos factores

fundamentales?

Es a este tipo de preguntas al que pretende responder el análisis factorial; como

es lógico, no hay una respuesta única a preguntas de este tipo y, por lo tanto,

se ha propuesto una gran cantidad de definiciones. Eso nos lleva a considerar

el análisis factorial no como un método único, sino como una familia de mé-

todos.

Si el objetivo de la investigación consiste en sintetizar las variables, el análisis

recibe el nombre de análisis factorial tipo R. En cambio, si el objetivo consis-

te en buscar los factores en el espacio de los individuos, lo cual permite agru-

par a los individuos que tienen comportamientos análogos en relación con las

variables sobre las cuales se lleva a cabo el análisis, el análisis recibe el nombre

de análisis factorial tipo Q.

A continuación, nos centraremos en el análisis factorial tipo R, por el hecho

de que se trata del más utilizado en investigación comercial.

El objetivo principal del análisis factorial consiste en identificar la es-

tructura de las relaciones entre variables o entre individuos.

3) Por último, las variables introducidas deben medirse en escalas cuantitati-

vas, es decir, métricas o de intervalo, las cuales no son precisamente las más

abundantes en investigación de mercados.

Etapa 2: obtención de la matriz de correlaciones

A partir de la matriz de datos inicial, obtenemos la matriz de correlaciones en-

tre variables.

Ejemplo

En nuestro ejemplo, a partir de la matriz de datos inicial expuesta más arriba, donde cada una de las filas de la matriz indica la valoración de cada estudiante sobre cada una de las veinte características propuestas, obtenemos la matriz de correlaciones entre variables siguiente:

Matriz de correlaciones entre variables.

Etapa 3: extracción de los factores

El paso siguiente consiste en obtener, a partir de la matriz de correlaciones, los

factores que identifiquen la estructura subyacente de las relaciones entre las va-

riables iniciales. Con esta finalidad, el método más utilizado en investigación

comercial es el análisis factorial de componentes principales.

Esta técnica puede resumirse como un método en el que se transforman las va-

riables originales en unas nuevas variables que son una combinación lineal de

las variables iniciales y que, además, no están correlacionadas. Estas nuevas

variables se llaman factores o componentes principales.

El método busca restituir la máxima cantidad de información posible conte-

nida en las variables iniciales en un número mínimo de factores. La medida

de la cantidad de información restituida por cada componente principal es la

varianza. Por este motivo, los factores se obtienen según la varianza restituida

por cada uno. Así, el componente principal que se obtiene en primer lugar es

el que restituye la mayor proporción de la varianza contenida en la matriz de

correlaciones; el segundo factor es el que, de la varianza restante, restituye el

mayor porcentaje, y así sucesivamente hasta llegar al último factor, que resti-

tuye la menor cantidad de varianza inicial.

V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12 V13 V14 V15 V16 V17 V18 V V1 1. V2 .37 1. V3 .77 .73 1. V4 .86 .64 .96 1. V5 .83 .40 .86 .86 1. V6 .14 .74 .49 .46 .24 1. V7 .15 .81 .52 .49 .19 .96 1. V8 .42 .49 .53 .42 .51 .42 .42 1. V9 .59 .38 .50 .48 .30 -.02 .05 .23 1. V10 .36 .46 .63 .57 .70 .59 .49 .59 -.15 1. V11 -.09 .61 .25 .17 .07 .84 .77 .29 -.20 .63 1. V12 .14 .19 .16 .10 .24 .34 .18 .14 .09 .51 .63 1. V13 .58 .66 .86 .79 .84 .61 .54 .57 .20 .89 .56 .51 1. V14 -.13 .63 .22 .15 .06 .83 .76 .21 -.24 .56 .97 .60 .52 1. V15 -.04 .66 .30 .24 .10 .91 .85 .30 -.15 .60 .97 .59 .56 .97 1. V16 .12 .61 .40 .39 .17 .81 .80 .16 -.01 .55 .82 .54 .53 .83 .88 1. V17 .96 .44 .87 .91 .90 .15 .16 .40 .57 .43 -.08 .13 .68 -.08 -.02 .15 1. V18 .90 .54 .90 .90 .88 .13 .17 .42 .64 .43 -.05 .10 .70 -.06 -.02 .12 .96 1. V19 .08 .62 .37 .30 .27 .80 .70 .34 -.13 .73 .96 .75 .69 .94 .94 .83 .11 .11 1. V20 -.21 .67 .26 .15 .07 .78 .73 .22 -.24 .59 .94 .51 .54 .96 .93 .77 -.11 -.04.

Si tenemos:

  • P variables iniciales p = 1, ..., P ,
  • I individuos i = 1, ..., I ,

podemos extraer K factores; siendo K = min ( P , I ) – 1.

Los factores extraídos tienen que cumplir las tres condiciones siguientes:

1) Linealidad : cada factor es una combinación lineal de las variables iniciales.

donde:

Fk = el k -ésimo factor;

akp = el coeficiente de la variable Xp en el factor Fk ;

Xp = los valores de la variable p tomados por los I individuos.

2) Independencia : los factores no están correlacionados entre sí.

3) Varianza restituida por cada factor: el primer factor restituye la proporción

más alta de varianza contenida en la matriz de correlaciones; el segundo factor,

la segunda; el tercero, la tercera; el cuarto, la cuarta, y así sucesivamente.

Ejemplo En la tabla que viene a continuación se presentan los estadísticos iniciales obtenidos en nuestro ejemplo. El valor propio λ k indica la cantidad de varianza restituida por el factor k. Cuanto más valor tiene λ k , más es alto el nivel explicativo del factor asociado.

Estadísticos iniciales.

Variable Comunalidad * Factor

Valor propio Varianza explicada

Varianza acumulada V1 1.00000 * 1 10.31684 51.6 51. V2 1.00000 * 2 5.74034 28.7 80. V3 1.00000 * 3 1.39340 7.0 87. V4 1.00000 * 4 1.02887 5.1 92. V5 1.00000 * 5 .72643 3.6 96. V6 1.00000 * 6 .41184 2.1 98. V7 1.00000 * 7 .16824 .8 98. V8 1.00000 * 8 .14197 .7 99. V9 1.00000 * 9 .05583 .3 99. V10 1.00000 * 10 .01623 .1 100. V11 1.00000 * 11 .00000 .0 100. V12 1.00000 * 12 .00000 .0 100. V13 1.00000 * 13 .00000 .0 100. V14 1.00000 * 14 .00000 .0 100. V15 1.00000 * 15 .00000 .0 100. V16 1.00000 * 16 .00000 .0 100. V17 1.00000 * 17 .00000 .0 100. V18 1.00000 * 18 .00000 .0 100. V19 1.00000 * 19 .00000 .0 100. V20 1.00000 * 20 .00000 .0 100.

Fk = aK 1 X 1 + ak 2 X 2 + ... + akpXp

Corr ( F k ; F k ′) = 0 ∀ k ≠ k ′

Var F 1 ≥ Var F 2 ≥ ... ≥Var Fk

λ k

Por ejemplo, supongamos que el nivel fijado sea, en porcentaje, el 90%; es

preciso conservar, pues, para el análisis el número de factores que haga

que:

2) Reglas basadas en la información restituida por cada factor

Las tres reglas que se exponen a continuación, basadas en la cantidad de in-

formación restituida por cada factor, son reglas empíricas obtenidas después

de numerosos análisis; no tienen, como es lógico, ninguna demostración teó-

rica, pero se basan en el sentido común.

a) Primera regla empírica. Únicamente es preciso conservar para el análisis

aquellos factores que restituyan una proporción de la varianza superior a dos

veces la cantidad 100/ P ; P es el número de variables iniciales introducidas en

el análisis.

Esta regla proviene del hecho de que si la nube de puntos no tiene ninguna

dirección privilegiada (esfera, por ejemplo), los valores difieren muy poco y la

varianza restituida por el primer factor sería, más o menos:

o bien el porcentaje 100/ P , donde P es el número de variables iniciales; des-

pués, todos los valores propios serían aproximadamente iguales.

Ejemplo

En nuestro ejemplo seleccionaríamos los dos primeros factores:

b) Segunda regla empírica. Se trata de construir una curva en la cual los pun-

tos sean los siguientes:

  • en abscisas, los números de los factores;
  • en ordenadas, el porcentaje de varianza que restituye cada uno de los fac-

tores o el valor propio asociado a cada factor.

Hay que determinar el primer punto de inflexión de la curva y conservar aque-

llos factores cuyo número de orden esté situado antes del punto de inflexión,

tal como se expone en el gráfico que viene a continuación. En nuestro ejem-

V ( F 1 , F 2 ,..., Fk )

λ 1 + λ 2 + ... +λ k

λ k

k = 1

K

En nuestro ejemplo,...

... seleccionaríamos los cuatro primeros factores.

V F ( 1 )

λ k

k = 1

K

P ′

plo, el cambio de concavidad se produce a partir del tercer factor. Conserva-

ríamos, por tanto, los dos primeros factores.

c) Tercera regla empírica. También se denomina regla de interpretación , y es la

regla más utilizada en investigación de mercados, ya que tiene en cuenta la fa-

cilidad de interpretación y la operatividad de los factores extraídos. Selecciona

el número de factores necesarios para cumplir los dos criterios siguientes:

  • La solución debe ser fácilmente interpretable, es decir, tiene que comuni-

car de forma tan fiel como sea posible la configuración inicial de variables.

  • Los factores tienen que ser operativos, es decir, de fácil utilización como va-

riables relevo en estudios o análisis posteriores.

Ejemplo

En nuestro ejemplo, decidimos inicialmente conservar los dos primeros factores, con lo que conservamos el 80,3% de la información inicial, tal como se expone en la tabla si- guiente:

Variable Comunalidad * Factor

Valor propio Varianza explicada

Varianza acumulada

V1 .88066 * 1 10.31684 51.6 51. V2 .69564 * 2 5.74034 28.7 80. V3 .94876 * 3 V4 .92548 * 4 V5 .85292 * 5 V6 .83597 * 6 V7 .73753 * 7 V8 .37139 * 8 V9 .42255 * 9 V10 .67027 * 10 V11 .97686 * 11

λ k

duce a comprender las dimensiones fundamentales del fenómeno que es ob-

jeto de estudio.

Para interpretar de forma correctamente estas dimensiones, necesitamos saber

cuáles son las variables que contribuyen más a la formación de cada factor. Con

esta finalidad, utilizaremos como indicador los coeficientes de correlación en-

tre las variables iniciales y los factores que en la fase anterior hayamos deci-

dido conservar para proseguir el análisis. Las variables con los coeficientes de

correlación más altos con un factor son las que contribuyen más a la formación

de este factor.

La matriz que contiene los coeficientes de correlación entre las variables ini-

ciales y los factores se suele denominar matriz factorial inicial o matriz factorial

no rotada.

Aunque esta matriz indica las relaciones entre los factores y las variables ini-

ciales, raramente estas últimas pueden interpretarse con facilidad, ya que suele

suceder que algunas variables iniciales están altamente correlacionadas con

varios factores.

Ejemplo

En nuestro ejemplo, las variables V4 y V14 tienen correlaciones bastante elevadas en am- bos factores.

Para solucionar este problema, suele efectuarse lo que se denomina una rota-

ción de los factores , que consiste en transformar la matriz factorial inicial en

una matriz factorial rotada de interpretación más fácil. Se trata de que cada

factor tenga coeficientes de correlación significativos con tan sólo algunas de

las variables iniciales, y que cada variable inicial tenga coeficientes de correla-

ción significativos con tan sólo algunos factores, si es posible sólo con uno.

Hay dos tipos de rotaciones:

1) Las rotaciones oblicuas, que son las que eliminan la propiedad de indepen-

dencia de los factores.

2) Las rotaciones ortogonales, que son las que la mantienen.

En investigación comercial, suelen aplicarse las rotaciones ortogonales, dada

la complejidad en la interpretación de resultados de las rotaciones oblicuas.

Dentro de las rotaciones ortogonales, uno de los algoritmos más utilizados

es el algoritmo VARIMAX. Este algoritmo intenta, para cada factor, maximi-

zar la correlación de algunas variables, las más próximas a −1 o +1, y mini-

mizar la correlación del resto de las variables.

Ejemplo

En nuestro ejemplo, si aplicamos una rotación VARIMAX a la matriz factorial no ro- tada, obtenemos el resultado expuesto a continuación. Efectivamente, observamos que las variables con coeficientes de correlación próximos a 1 en el factor 1 presentan

Factor 1 Factor 2 V13 .90241. V19 .86195 -. V6 .85212 -. V2 .83227. V15 .82224 -. V10 .81793. V7 .81424 -. V16 .79696 -. V11 .79174 -. V3 .77722. V14 .76988 -. V20 .75042 -. V4 .72068. V8 .55348. V12 .54456 -.

V17 .52147. V18 .53442. V1 .46372. V5 .62024. V9 .17677.

Ejemplo de matriz factorial no rotada.

coeficientes de correlación próximos a 0 en el factor 2, y las variables con coeficientes de correlación próximos a 1 en el factor 2 presentan coeficientes de correlación próxi- mos a 0 en el factor 1.

Ejemplo de matriz factorial rotada.

Al efectuar una rotación, hay que tener en cuenta que el total de la informa-

ción restituida (en nuestro ejemplo, el 80%) permanece constante, pero varía

la información restituida por cada uno de los factores; por eso, si hay que co-

nocerla, tiene que recalcularse. Si llamamos bpk al peso de la variable p en el

factor k rotado, el porcentaje de varianza explicada por este factor es:

donde P es el número de variables, y K , el número de factores que contiene la

matriz factorial.

Ejemplo

En nuestro ejemplo, la varianza explicada por cada uno de los factores, antes y después de efectuar la rotación, es:

Factor 1 Factor 2 V15 .99312 -. V11 .98688 -. V14 .98011 -. V19 .95817. V20 .95562 -. V6 .89307. V16 .87049. V7 .82017. V2 .66279. V10 .66132. V12 .58984.

V18 -.00960. V17 -.02386. V1 -.06570. V4 .24717. V3 .32201. V5 .13749. V13 .60267. V9 -.19923. V8 .31961.

Antes de rotar Después de rotar Factor 1 Factor 2 Factor 1 + 2

V F ( k )

bpk^2

p = 1

P

bpk^2

k = 1

K

p = 1

P

3) Detección de conglomerados. Si efectuamos un análisis factorial de tipo

Q, que recordamos que consiste en buscar los factores en el espacio de los in-

dividuos, podemos agrupar a los individuos en función de comportamientos

análogos en relación con las variables sobre las cuales se lleva a término el aná-

lisis, utilizando por ejemplo un algoritmo de clasificación no jerárquico.

4.2. Análisis de correspondencias

4.2.1. Cuándo tenemos que utilizar el análisis de correspondencias

Hay varias maneras de presentar el análisis de correspondencias (ACOR). Quizá

la más correcta y comprensible sea decir que este tipo de análisis es un caso par-

ticular del análisis factorial de componentes principales (ACP), y se diferencia

básicamente en el aspecto siguiente: mientras que un ACP trata de resumir el

número de variables que intervienen en un análisis por medio de la construc-

ción de nuevas variables compuestas (o factores) más sintéticas, en un ACOR se

trata de analizar las formas que adoptan las relaciones entre las categorías de las

variables.

Ejemplo de análisis factorial de correspondencias

Supongamos que la información de la que disponemos es la que se expone a continua- ción:

En un estudio sobre el mercado de material eléctrico se entrevistó a una muestra de 1. clientes de nueve empresas de distribución, con el fin de determinar el posicionamiento de estas empresas respecto de siete atributos que habían sido definidos previamente como de una gran importancia dentro de su sector de actividad. Cada cliente tuvo que asociar a cada empresa uno de los siete atributos siguientes:

  • Ofrece los mejores precios o descuentos.
  • Tiene más variedad de marcas.
  • Ofrece más rapidez de entrega.
  • Proporciona una mejor información técnica o consejos.
  • Ofrece un mejor trato del personal.
  • Ofrece unas mejores condiciones de pago.
  • Es más fácil de acceder a ésta.

Los resultados del estudio se presentan en forma de una tabla de contingencia o corres- pondencias:

(*) 16 clientes han asociado el atributo “mejores precios o descuentos” a la empresa 1.

Podéis consultar el subapartado 4. de este módulo para el estudio del análisis tipológico no jerárquico.

Emp. 1 Emp. 2 Emp. 3 Emp. 4 Emp. 5 Emp. 6 Emp. 7 Emp. 8 Emp. 9 Totalesfila

Precios o descuentos Variedad de marcas Rapidez de entrega Información técnica Trato del personal Condiciones de pago Facilidad de acceso

Totales columna