6. Análisis Multivariante

Construye un modelo multivariante con todas las variables independientes que consideres, justifica la construcción del modelo e interpreta los resultados.

Hipótesis

Para construir un modelo de regresión logística multivariante que prediga la variable dependiente relacionada con el cuidado de personas mayores (Y133), teniendo en cuenta las variables independientes como sexo (SEXOa), edad (EDADa), país de nacimiento (E1_1), falta de atención médica por problemas económicos (R108_1) y situación laboral (A11_i), se debe seguir una serie de pasos y justificaciones. A continuación, se presenta un esquema del proceso y cómo interpretar los resultados:

Construcción del Modelo

Preparación de Datos: Asegurarse de que todas las variables estén en el formato correcto. Las variables categóricas deben ser factores y las variables numéricas deben estar en un formato numérico adecuado.
Creación del Modelo: Utilizar la función glm en R para ajustar un modelo de regresión logística. La fórmula será algo así como Y133 ~ SEXOa + EDADa + E1_1 + R108_1 + A11_i.
Ajuste del Modelo: Incluir interacciones si son teóricamente justificables. Sin embargo, se debe tener cuidado con la sobreparametrización del modelo.
Verificación de Supuestos: Asegurarse de que no haya multicolinealidad y que se cumplan otros supuestos de la regresión logística.

Justificación del Modelo

Relevancia de las Variables: Cada variable seleccionada debe tener una justificación teórica o empírica para su inclusión. Por ejemplo, el sexo y la edad pueden influir en la probabilidad de cuidar a personas mayores, mientras que la situación laboral podría afectar la disponibilidad para proporcionar dicho cuidado.
Importancia de la Multivariabilidad: El modelo multivariante permite controlar el efecto de múltiples variables al mismo tiempo, proporcionando una comprensión más completa de los factores que influyen en el cuidado de personas mayores.

Interpretación de Resultados

Coeficientes: Indican la dirección y magnitud del efecto de cada variable independiente sobre la variable dependiente, manteniendo constantes las demás variables.
Significancia Estadística: Los p-valores asociados con cada coeficiente indican si las variables son estadísticamente significativas. Un p-valor bajo (p. ej., menor que 0.05) sugiere que la variable tiene un efecto significativo.
Odds Ratio: Expresa cuánto más probable es el resultado en presencia de la variable independiente. Se calcula como exp(coeficiente) para cada variable. Valores mayores que 1 indican un aumento en la probabilidad, y valores menores que 1, una disminución.
Ajuste del Modelo: Indicadores como el pseudo-R-cuadrado y las pruebas de bondad de ajuste pueden ayudar a evaluar qué tan bien el modelo se ajusta a los datos.
Interpretación Práctica: Más allá de la significancia estadística, es importante considerar la relevancia práctica de los resultados. Por ejemplo, ¿qué implica un determinado coeficiente en el contexto del cuidado de personas mayores?

Script en R

				
					# Carga de librerías
install.packages("glm2")
library(glm2)

# Asegurarse de que las variables son del tipo correcto
# Convertir variables categóricas a factores
ense$SEXOa <- as.factor(ense$SEXOa)
ense$E1_1 <- as.factor(ense$E1_1)
ense$R108_1 <- as.factor(ense$R108_1)
ense$A11_i <- as.factor(ense$A11_i)
ense$Y133 <- as.factor(ense$Y133)

# Convertir EDADa a numérica si es necesario
# ense$EDADa <- as.numeric(as.character(ense$EDADa))

# Crear el modelo
modelo <- glm(Y133 ~ SEXOa + EDADa + E1_1 + R108_1 + A11_i, family=binomial, data=ense)

# Resumen del modelo
summary(modelo)

Resumen explicativo del script

Este script comienza con un modelo que incluye todas las variables y luego usa stepAIC de la librería MASS para realizar una selección de variables hacia atrás. El modelo resultante (modelo_seleccionado) debería contener solo las variables que son estadísticamente significativas para la predicción de GHQ12_rec, con un énfasis particular en examinar la relevancia de Y133.

Recuerda que es importante verificar los supuestos del modelo de regresión logística, como la ausencia de multicolinealidad y la adecuación del modelo a los datos, antes de sacar conclusiones definitivas. Además, la significancia estadística de las variables no siempre implica relevancia clínica o práctica, lo cual debe considerarse al interpretar los resultados.

Sí, la función stepAIC del paquete MASS en R puede ser utilizada para un análisis multivariante de regresión logística. Esta función se emplea para la selección de modelos, y es especialmente útil para encontrar un modelo óptimo al agregar o eliminar variables predictoras basándose en el criterio de información de Akaike (AIC).

En el contexto de una regresión logística multivariante, donde el objetivo es modelar la relación entre una variable dependiente binaria (por ejemplo, éxito o fracaso) y múltiples variables independientes, stepAIC puede ayudar a identificar cuáles de estas variables independientes contribuyen de manera significativa al modelo.

El proceso funciona de la siguiente manera:

Inicio: Comienzas con un modelo completo (con todas las variables independientes) o un modelo simple (con pocas o ninguna variable independiente).
Selección hacia adelante, hacia atrás o ambas: La función stepAIC evalúa los modelos candidatos agregando o eliminando variables (o ambas), buscando aquel que tenga el AIC más bajo.
1. Selección hacia adelante: Comienza con un modelo simple y agrega variables una a una.
2. Selección hacia atrás: Comienza con un modelo completo y elimina variables una a una.
3. Ambas direcciones: Combina ambos enfoques, agregando y eliminando variables.
Evaluación: En cada paso, se evalúa el AIC del modelo modificado.
Terminación: El proceso se detiene cuando no se pueden hacer mejoras significativas (es decir, reducciones) en el AIC.

Es importante tener en cuenta que mientras stepAIC es una herramienta poderosa para la selección de modelos, su uso debe ser considerado cuidadosamente. La selección de modelos basada exclusivamente en criterios estadísticos puede no tener en cuenta consideraciones importantes del contexto o la teoría detrás de los datos. Además, el uso excesivo de la selección de modelos puede conducir a un sobreajuste, donde el modelo se ajusta muy bien a los datos de muestra pero no generaliza bien a nuevos datos. Por lo tanto, siempre es recomendable complementar este tipo de análisis con conocimiento del dominio y validación cruzada.

Plots

Consola del Script en R

				
					
> # Asegúrate de que todas las variables son del tipo correcto
> ense$GHQ12_rec <- as.factor(ense$GHQ12_rec)
> ense$SEXOa <- as.factor(ense$SEXOa)
> ense$A11_i <- as.factor(ense$A11_i)
> ense$E1_1 <- as.factor(ense$E1_1)
> ense$R108_1 <- as.factor(ense$R108_1)
> ense$Y133 <- as.factor(ense$Y133)
> # Convertir EDADa a numérica si es necesario
> # ense$EDADa <- as.numeric(as.character(ense$EDADa))
> 
> # Modelo inicial con todas las variables
> modelo_inicial <- glm(GHQ12_rec ~ SEXOa + EDADa + A11_i + E1_1 + R108_1 + Y133, family = binomial, data = ense)
> 
> # Selección hacia atrás basada en el valor p
> modelo_seleccionado <- stepAIC(modelo_inicial, direction = "backward")
Start:  AIC=21083.4
GHQ12_rec ~ SEXOa + EDADa + A11_i + E1_1 + R108_1 + Y133

         Df Deviance   AIC
- E1_1    1    21050 21082
<none>         21049 21083
- Y133    3    21057 21085
- EDADa   1    21142 21174
- SEXOa   1    21237 21269
- R108_1  4    21366 21392
- A11_i   6    21605 21627

Step:  AIC=21082.25
GHQ12_rec ~ SEXOa + EDADa + A11_i + R108_1 + Y133

         Df Deviance   AIC
<none>         21050 21082
- Y133    3    21058 21084
- EDADa   1    21147 21177
- SEXOa   1    21238 21268
- R108_1  4    21367 21391
- A11_i   6    21606 21626
> 
> # Resumen del modelo seleccionado
> summary(modelo_seleccionado)

Call:
glm(formula = GHQ12_rec ~ SEXOa + EDADa + A11_i + R108_1 + Y133, 
    family = binomial, data = ense)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.0821  -0.6643  -0.5526  -0.4186   2.4515  

Coefficients:
                                   Estimate Std. Error z value Pr(>|z|)    
(Intercept)                        -1.18945    0.13012  -9.141  < 2e-16 ***
SEXOamujer                          0.50868    0.03747  13.576  < 2e-16 ***
EDADa                               0.01599    0.00164   9.746  < 2e-16 ***
A11_iEn desempleo                   0.91533    0.05561  16.460  < 2e-16 ***
A11_iJubilado/a, prejubilado/a      0.22444    0.06458   3.475 0.000510 ***
A11_iEstudiando                     0.46029    0.09885   4.656 3.22e-06 ***
A11_iIncapacitado/a para trabajar   1.81550    0.09126  19.893  < 2e-16 ***
A11_iLas labores del hogar          0.23842    0.06882   3.464 0.000532 ***
A11_iOtros                         -0.03940    0.55174  -0.071 0.943068    
R108_1No                           -1.64578    0.09393 -17.522  < 2e-16 ***
R108_1No lo he necesitado          -2.03351    0.15246 -13.338  < 2e-16 ***
R108_1No sabe                      -1.55068    1.13559  -1.366 0.172088    
R108_1No contesta                 -10.07632   84.43061  -0.119 0.905002    
Y133No                             -0.14692    0.05333  -2.755 0.005872 ** 
Y133No sabe                         0.39686    1.20391   0.330 0.741672    
Y133No contesta                    -0.32494    0.80171  -0.405 0.685254    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 22494  on 23088  degrees of freedom
Residual deviance: 21050  on 23073  degrees of freedom
AIC: 21082

Number of Fisher Scoring iterations: 9

Explicación de resultados del script

Los resultados del modelo de regresión logística seleccionado son interesantes y proporcionan información valiosa sobre los factores asociados con la variable dependiente GHQ12_rec. Este modelo incluye las variables SEXOa, EDADa, A11_i (situación laboral), R108_1 (falta de atención médica por problemas económicos), y Y133 (cuidado de personas mayores). La selección de estas variables se realizó utilizando el método stepwise basado en el criterio AIC, eliminando la variable E1_1 (país de nacimiento) por ser la menos significativa.

Aquí hay un resumen de la interpretación de los coeficientes del modelo:

Intercepto (-1.18945): Este valor es el log-odds de la morbilidad psíquica cuando todas las variables independientes son cero (o en su categoría de referencia). En este caso, es un punto de referencia teórico ya que algunas variables no tienen valor cero práctico.
SEXOa (mujer: 0.50868): Ser mujer está positivamente asociado con la morbilidad psíquica. El aumento en el log-odds es de 0.50868, indicando que las mujeres tienen mayores probabilidades de morbilidad psíquica en comparación con los hombres.
EDADa (0.01599): Por cada año adicional de edad, las probabilidades logarítmicas de morbilidad psíquica aumentan en 0.01599. Esto sugiere un aumento gradual del riesgo con la edad.
Situación Laboral (A11_i): Las distintas categorías de situación laboral tienen diferentes efectos. Por ejemplo, estar desempleado (En desempleo: 0.91533) o incapacitado para trabajar (Incapacitado/a para trabajar: 1.81550) incrementa significativamente las probabilidades logarítmicas de morbilidad psíquica en comparación con la categoría de referencia (posiblemente «Trabajando»).
Falta de Atención Médica por Problemas Económicos (R108_1): Aquellos que indicaron no haber recibido atención médica por problemas económicos (No: -1.64578, No lo he necesitado: -2.03351) tienen una disminución significativa en las probabilidades logarítmicas de morbilidad psíquica en comparación con la categoría de referencia.

Cuidado de Personas Mayores (Y133): La categoría No: -0.14692 indica una disminución en las probabilidades logarítmicas de morbilidad psíquica para aquellos que no cuidan personas mayores, lo que sugiere que cuidar a personas mayores puede estar asociado con un mayor riesgo de morbilidad psíquica.

Conclusiones y Consideraciones Adicionales:

El modelo muestra que factores como el género, la edad, la situación laboral, la falta de atención médica por problemas económicos y el cuidado de personas mayores tienen una asociación significativa con la morbilidad psíquica.
Algunas categorías de las variables, como No sabe y No contesta en varias variables, no son estadísticamente significativas. Esto podría deberse a un tamaño de muestra pequeño en estas categorías o a una falta de variación.
El modelo tiene un AIC de 21082 y una devianza residual de 21050, lo que indica un ajuste razonable al conjunto de datos. Sin embargo, siempre es importante realizar un análisis de diagnóstico del modelo para asegurarse de que se cumplen los supuestos de la regresión logística.
Como en todo modelo estadístico, la interpretación de los coeficientes debe hacerse con cuidado, considerando el contexto del estudio y la posibilidad de factores confundentes no incluidos en el modelo.

El cuidado de personas mayores parece estar asociado con un aumento en el riesgo de morbilidad psíquica, lo que subraya la importancia de brindar apoyo adecuado a los cuidadores.

6. Análisis Multivariante

Tabla de Contenidos

Hipótesis

Construcción del Modelo

Justificación del Modelo

Interpretación de Resultados

Script en R

Resumen explicativo del script

Plots

Consola del Script en R

Explicación de resultados del script

Conclusiones y Consideraciones Adicionales:

Manuel Medina Pérez

Supervisor de Urgencias en Hospital de Antequera - Enfermero

Siguientes Títulos

4. Variables dependiente y selección de variables independientes

7. Sesgos del estudio y validez externa de los resultados

5. Relación entre la morbilidad psiquica y los factores de riesgo. Test de contraste de hipótesis

3. Representación gráfica de variables categóricas y numéricas

2. Frecuencia de Morbilidad psiquica global desagregada por sexo

1. Tipo de diseño y limitaciones del estudio