PRUEBAS DE SIGNIFICANCIA ESTADISTICA A EMPLEAR EN ESTUDIOS DE INVESTIGACION

Sixto Sánchez C.,  Wilfredo Mormontoy L.  

BOLETIN DEL AREA DE INVESTIGACION Y DE LA UNIDAD DE EPIDEMIOLOGIA DEL HOSPITAL NACIONAL DOS DE MAYO LIMA PERU  

Uno de los pasos más importantes dentro de la investigación es la comprobación o rechazo de la hipótesis propuesta a través del análisis de los resultados obtenidos.   El  proceso incluye consideraciones acerca de si la asociación observada entre el riesgo (variable independiente) y la enfermedad (variable resultado o dependiente) es debida a otras explicaciones tales  como:

1.- El producto del azar,

2.- Los sesgos del estudio o

3.- El efecto de variables confusoras.   

El estudio del rol del azar incluye dos componentes separados pero relacionados entre si: 

1.- El probar o no la hipótesis usando una prueba de significación estadística, y

2.-  El calcular el intervalo de confianza para indicar, con un grado dado de seguridad, el rango dentro del cual el verdadero valor estimado de efecto se encuentre.

En este artículo, discutiremos las principales pruebas de significación estadística a usar de acuerdo al número y tipo de variables y muestras analizadas.

I.-  CUANDO SE ESTUDIA UNA SOLA VARIABLE  

1.- CUANDO TENEMOS UNA SOLA MUESTRA:  Cuando se desea comparar la muestra estudiada con la población con respecto a una variable

A.- Cuando se desea hacer inferencia acerca de la media de una variable continua con respecto a la media de la población cuando la  distribución de la variable es normal (o se asume el teorema de límite central) y la  varianza (cuadrado de  la desviación estándar) de la población es conocida.

            PRUEBA z  NORMAL PARA UNA MUESTRA.

Ej: queremos saber si el promedio de glucosa en sangre de una muestra de 1000 pacientes usuarias de anticonceptivos orales es diferente o no del promedio de los niveles de glucosa en la población general.  Sabemos que los valores de glicemia siguen una distribución normal y conocemos la desviación estándar (por lo tanto la varianza) de los valores normales de glicemia en la población.  

B.- Cuando se desea hacer inferencia acerca de la media de una variable continua con respecto a la media de la población cuando la distribución de la variable es normal (o se asume el teorema de límite central) y la varianza (cuadrado de la desviación standard) no es conocida:

            PRUEBA  t  PARA UNA MUESTRA.

Ej. El caso anterior si es que no conociéramos la desviación estándar (por lo tanto la varianza) de los valores de glicemia en la población.

C.- Cuando se desea hacer inferencia acerca de la varianza (cuadrado de la desviación estándar) de una variable continua con respecto a la varianza de la población cuando la distribución de la variable es normal (o se asume el teorema de límite central)

PRUEBA Chi CUADRADO PARA VARIANZAS PARA UNA MUESTRA.

Ej:  Cuando queremos saber si la varianza (cuadrado de la desviación estándar, que es una medida de dispersión de los datos) de la distribución de los valores de glicemia en la muestra de usuarias de anticoncepción oral es diferente de la varianza de los valores de glicemia en la población general.  Esta prueba estadística es muy sensible y por lo tanto no da resultados confiables si la distribución de los valores de glicemia no siguen una curva normal en la población.   

D.- Cuando queremos comparar una muestra con la población con respecto a una variable de distribución binomial (no sigue una distribución normal). 

            TEST BINOMIAL PARA UNA MUESTRA

Ej. Queremos comparar una muestra de escolares de un colegio con la población escolar en general con respecto a la presencia o no de parasitosis.  Variable binomial: Presencia de parasitosis:  Si o No.

E.-  Cuando queremos comparar una muestra con la población con respecto a una variable de distribución no normal ni binomial.

            USAR OTRA DISTRIBUCION O USAR PRUEBAS NO   PARAMETRICAS

Ej. Queremos comparar una muestra de escolares de un colegio con la población general escolar con respecto al rendimiento escolar categorizado como:  excelente, bueno,  regular, malo, pésimo (variable ordinal).  

 2.- CUANDO TENEMOS DOS MUESTRAS: Se desea comparar dos muestras con respecto a una variable.

 A.- Cuando queremos comparar medias entre dos muestras independientes,  las varianzas no son diferentes y la distribución de la variable es normal (o se asume teorema de limite central):

PRUEBA t PARA DOS MUESTRAS INDEPENDIENTES CON IGUALES   VARIANZAS.

Ej: queremos saber si el promedio de trigliceridemia en sangre de una muestra de pacientes con preeclampsia no es diferente del promedio de los valores de trigliciridemia de una muestra de gestantes sin preeclampsia.  Se supone que la distribución de los valores de trigliciridemia sigue un patrón normal, las muestras de pacientes con preeclampsia y las que no tienen preeclampsia son independientes (No están relacionadas) y la varianza de los valores de trigliciridemia no es diferente entre el grupo de gestantes con preeclampsia y el grupo que no tiene preeclampsia.

B.- Cuando queremos comparar las medias de dos muestras independientes,  las varianzas son diferentes y asumimos que la distribución de la variable es normal (o se asume teorema de limite central):

 PRUEBA t PARA DOS MUESTRAS CON DIFERENTES VARIANZAS.

Ej: El caso anterior si es que asumimos que la varianza de los valores de trigliciridemia es diferente entre las mujeres con preeclampsia y las mujeres sin preeclampsia.

C.- Cuando queremos comparar medias entre dos muestras dependientes, asumiendo que la distribución de la variable es normal (o se asume teorema de limite central):

PRUEBA t PAREADA

Ej. Cuando queremos comparar el promedio de la presión arterial sistólica en 100 hipertensos antes y después de un tratamiento farmacológico.  Asumimos que la distribución de los datos de presión arterial sigue una distribución normal.  También son muestras dependientes aquellas  en que se realiza un pareamiento para una o más variables. 

D.- Inferencia acerca de varianzas, distribución normal (o se asume teorema de límite central):

PRUEBA F PARA DOS MUESTRAS PARA COMPARAR VARIANZAS (muy sensible cuando el patrón no es normal).

Ej.  Queremos comparar si las varianzas (cuadrado de la desviación estándar) son diferentes entre los valores de espirometría de un grupo de 100 pacientes con asma y un grupo de 100 pacientes con tuberculosis.  Es decir queremos ver si la dispersión de los valores entre estas dos muestras es diferente.  Asumimos que la distribución de los valores de espirometría siguen una curva normal.

E.- Cuando tenemos dos muestras de distribución binomial y las muestras son dependientes:

            TEST c2 de Mc NEMAR

Ej:  Queremos establecer si existe asociación entre la aparición de preeclampsia o no con el hecho de haber deseado o no el actual embarazo habiendo pareado los casos de preeclampsia con los controles para dos variables: edad y paridad. 

Ej: Se desea determinar si dos técnicas difieren en la detección de cierto tipo de virus en sangre (+). Se toma una muestra de sangre de, por ejemplo, 100 pacientes y cada una se divide en dos, una sub muestra se analiza con la técnica A y la otra con la B.  Con la prueba   de c2 de Mc Nemar se determina si la proporción de los (+) con la técnica A difiere de los (+) con la técnica B.

F.- Cuando tenemos dos variables de distribución binomial, las muestras son independientes pero algún valor esperado de alguna de las celdas de la tabla de 2 x 2 es < 5:

            PRUEBA EXACTA DE FISHER

Ej: Cuando en el ejemplo anterior uno de los valores esperados de una de las celdas de la tabla de 2 x 2 es menor de 5.  El valor esperado se halla multiplicando el total de la columna (a + b) por el total de la fila (a + c)correspondientes a esa celda (ej. la celda a) y dividiendo por el total de participantes (a+b+c+d). 

G.- Cuando tenemos dos variables de distribución binomial, las muestras son independientes y todos los valores esperados son ³ 5.  Los valores usados no corresponden a densidad de incidencia: 

PRUEBAS PARA PROPORCIONES BINOMIALES A DOS MUESTRAS O METODOS PARA  TABLAS DE 2X2 SI NO EXISTEN CONFUSORES.   SI EXISTEN CONFUSORES:  PRUEBA DE MANTEL-HAENSZEL.

Ej: Cuando el ejemplo anterior uno de los valores esperados son £ de 5 y el estudio no es uno de tipo cohortes:  es uno de tipo caso control o transversal

H.- Distribución binomial, muestras independientes, todos los valores esperados £ 5, valores de densidad de incidencia incluidos:         

METODOS DE DENSIDAD DE INCIDENCIA.

Ej. Cuando en el ultimo ejemplo se usa un diseño de cohortes:  es decir siguiendo a gestantes con embarazo no deseado y comparándolas con un grupo de  gestantes con embarazo deseado para ver la incidencia de preeclampsia en cada uno de estos grupos.

I.- Distribución no normal (o teorema de limite central no asumido),  no binomial:

USAR OTRAS DISTRIBUCIONES O USAR MÉTODOS NO  PARAMÉTRICOS.

Ej. Comparar la variable cumplimiento de la dieta (categorizada como:  excelente, bueno, regular, malo) entre dos grupos de diabéticos: uno en el que se les dio un tríptico de información y el otro donde se les dio una charla.

3.- CUANDO TENEMOS TRES O MAS MUESTRAS:

A.- Inferencia acerca de medias, distribución normal (o teorema de limite central asumido):

                        ANOVA UN FACTOR  O PRUEBA DE KRUSKAL-WALLIS.

Ej. Queremos comparar los promedios de edad entre tres grupos de mujeres:  uno en el que el papanicolaou es normal, otro en el que existe un resultado de displasia cervical y el ultimo grupo donde el resultado del papanicolaou es carcinoma invasor.

B.- Inferencia acerca de varianzas, distribución normal (o teorema de limite central asumido):

PRUEBA DE BARTLETT'S PARA HOMOGENEIDAD DE  VARIANZAS

Ej:  Queremos en el ejemplo anterior, comparar la dispersión de las edades en los tres grupos,  tomando en cuenta las varianzas (cuadrado de la desviación estándar).

C.- Distribución no normal (o teorema de limite central no asumido), datos categóricos:

            METODOS DE TABLAS DE CONTINGENCIAS R X C

Ej. Queremos saber si existe asociación entre la variable dolor abdominal (leve, moderado o severo) en tres grupos de mujeres con cervicitis leve, moderada y severa

D.- Distribución no normal (o teorema de limite central no asumido), datos no categóricos:

USAR OTRA DISTRIBUCIÓN O METODOS NO PARAMÉTRICOS

II.-  CUANDO SE ESTUDIA DOS VARIABLES   

1.- CUANDO LAS DOS VARIABLES SON CONTINUAS

A.- Predicción de una variable continua a partir de otra variable también continua:


            REGRESIÓN LINEAL SIMPLE.  

Ej. Predicción de la presión parcial de oxigeno a partir de la altitud (m. sobre el nivel del mar).

B.- Relación entre dos variables continuas que tienen distribución normal

            MÉTODOS DE CORRELACIÓN PEARSON

Ej. Existe o no relación entre los valores de colesterolemia y la presión arterial en un grupo de 1000 diabéticos.

C.- Relación entre dos variables continuas que no tienen  distribución normal

MÉTODOS DE CORRELACIÓN RANK.: COEFICIENTE DE  CORRELACIÓN SPEARMAN

Ej. El uso de condón (medido en porcentaje de los coitos) en una muestra de trabajadoras sexuales y el numero de leucocitos en secreción cervical.

2.- CUANDO UNA DE LAS VARIABLES ES CONTINUA Y LA OTRA CATEGORICA:

            ANÁLISIS DE VARIANZA (ANOVA)

A) variable categórica puede ser clasificada de una sola forma: 

a.- Distribución normal de la variable dependiente (o se asume teorema de limite central):

-  no hay otras covariables a ser controladas: 

ANOVA UN FACTOR

Ej:  Queremos comparar el promedio del efecto hipotensor (variable continua y dependiente) entre cuatro drogas (variable independiente y categórica) en u un grupo de 100 gestantes adolescentes preeclampticas. Asumimos que los valores de las diferencias de PA antes y después de la administración del medicamento siguen un patrón normal.

-  otras covariables a ser controladas:  

ANÁLISIS DE COVARIANZA

Ej:  Queremos comparar el promedio del efecto hipotensor (variable dependente y continua) entre cuatro drogas (variable independiente y categórica) en un grupo de 100 gestantes de diferentes edades.  Variables a ser controlada:  la edad de la gestante, diabetes mellitus asociada.  Asumimos que los valores de las diferencias de PA antes y después de la administración del medicamento siguen un patrón normal.

b.- Distribución no normal de la variable dependiente (o no se asume teorema de limite central):

METODOS ANOVA NO PARAMETRICOS: PRUEBA DE KRUSKAL-WALLIS.

Ej:  Queremos comparar la respuesta de cuatro drogas (variable independiente y categórica) con respecto a su efecto antiinflamatorio (variable dependiente y ordinal) categorizado como excelente, bueno, regular o malo

B) variable categórica puede ser clasificada en dos formas         

a.- No otras covariables a ser controladas:              

ANOVA DOS FACTORES.

Ej:  Queremos ver la diferencia de promedios de colesterolemia (variable dependiente continua) entre dos grupos de mujeres: 100 que toman anticonceptivos y 100 que no toman.  Pero hay que considerar que dentro de estos dos grupos existen mujeres que fuman y mujeres que no fuman.  En realidad habrían 4 grupos en la variable independiente: Fuman y toman ACO, Fuman y no toman ACO, No fuman y toman ACO y No fuman y no toman ACO.  Asumimos que los valores de colesterolemia siguen un patrón normal.

b.- Otras covariables a ser controlada:              

ANALISIS DE COVARIANZA

Ej. El ejemplo anterior pero en el que creemos que la variable edad y las características de la dieta puedan confundir los resultados con respecto a la variable dependiente valor de colesterolemia. 

C) variable categórica puede ser clasificada de mas de dos formas

a.- No otras variables a ser controladas:  ANOVA más de dos factores

Ej:  Queremos ver la diferencia de promedios de colesterolemia (variable dependiente continua) entre dos grupos de mujeres: 100 que toman anticonceptivos y 100 que no toman.  Pero hay que considerar que dentro de estos dos grupos existen mujeres que fuman o no y también las que hacen o no ejercicios físicos.  En realidad habrían 8 grupos: Fuman, toman ACO y no hacen ejercicios; Fuman toman ACO y hacen ejercicios; fuman, no toman ACO y no hacen ejercicios, etc, etc.  Asumimos que los valores de colesterolemia siguen un patrón normal.

b.- Otras variables a ser controladas:  análisis de covarianza
Ej. El ejemplo anterior pero en el que creemos que la variable edad y las características de la  dieta puedan confundir los resultados con respecto a la variable dependiente valor de colesterolemia.

3.- CUANDO LAS VARIABLES SON ORDINALES:

                        MÉTODOS DE CORRELACIÓN RANK

4.- CUANDO LAS DOS VARIABLES SON CATEGORICAS

A) Asociación entre dos variables categóricas:

                        MÉTODOS DE TABLAS DE CONTINGENCIA

Ej. Queremos saber si la presencia o no de candidiasis vaginal (variable dependiente) esta relacionada al uso o no de condones (variable independiente).  Se usa prueba de chi cuadrado para ver asociación estadística entre estas dos variables categóricas.  

B) Reproducibilidad

                        PRUEBA KAPPA

Ej. Queremos saber en que grado concuerdan el diagnostico clínico de un ginecólogo y el diagnostico de laboratorio en la etiología de la vulvovaginitis en 100 mujeres que venían con el síntoma de flujo vaginal anormal.  

III.-  CUANDO SE ESTUDIA TRES O MAS VARIABLES

1.- CUANDO LA VARIABLE DEPENDIENTE ES CONTINUA:

                        MÉTODO DE REGRESIÓN MÚLTIPLE

Ej.  Queremos saber si la variable dependiente talla esta independientemente relacionada (y en que grado) a otras variables como edad, estado nutricional, raza, etc.

2.- CUANDO LA VARIABLE DEPENDIENTE ES BINARIA Y EL TIEMPO EN QUE OCURRE EL EVENTO ES IMPORTANTE.

                          MÉTODO DE ANÁLISIS DE SOBREVIDA

 Ej.  Queremos ver que variables (edad, técnica quirúrgica, tipo de tumor, etc.) están independientemente asociadas a la sobrevida o no (variable dependiente) a 5 años de pacientes con cáncer de mama.

3.- CUANDO LA VARIABLE DEPENDIENTE ES BINARIA Y EL TIEMPO EN QUE OCURRE EL EVENTO NO ES IMPORTANTE:

                        MÉTODO DE REGRESIÓN LOGÍSTICA

Ej. Queremos saber cuales son las variables (edad, uso de condón, numero de compañeros sexuales, etc.) independientemente asociadas a la presencia o no de infección cervical a C. Trachomatis en mujeres que acuden al consultorio de Planificación Familiar. 

Ej. Se desea identificar los factores de riesgo de cáncer de estomago en cierto hospital.

Ir a la Pagina Iniciando la Investigación