|
PRUEBAS DE SIGNIFICANCIA
ESTADISTICA A EMPLEAR EN ESTUDIOS DE INVESTIGACION |
|
Sixto Sánchez C.,
Wilfredo Mormontoy L. |
|
BOLETIN
DEL AREA DE INVESTIGACION Y DE LA UNIDAD DE EPIDEMIOLOGIA DEL HOSPITAL NACIONAL
DOS DE MAYO LIMA PERU |
|
|
|
Uno de los pasos más importantes
dentro de la investigación es la comprobación o rechazo de la hipótesis
propuesta a través del análisis de los resultados obtenidos.
El proceso incluye
consideraciones acerca de si la asociación observada entre el riesgo (variable
independiente) y la enfermedad (variable resultado o dependiente) es debida a
otras explicaciones tales como: 1.- El producto del azar, 2.- Los sesgos del estudio o 3.- El efecto de variables
confusoras. El estudio del rol del azar
incluye dos componentes separados pero relacionados entre si:
1.- El probar o no la hipótesis
usando una prueba de significación estadística, y 2.- El calcular el intervalo de confianza para indicar, con un
grado dado de seguridad, el rango dentro del cual el verdadero valor estimado de
efecto se encuentre. En este artículo, discutiremos
las principales pruebas de significación estadística a usar de acuerdo al número
y tipo de variables y muestras analizadas. |
| I.- CUANDO SE ESTUDIA UNA
SOLA VARIABLE |
|
1.- CUANDO TENEMOS UNA SOLA MUESTRA: Cuando se desea comparar la muestra estudiada con la población
con respecto a una variable A.- Cuando se desea hacer
inferencia acerca de la media de una variable continua con respecto a la media
de la población cuando la distribución
de la variable es normal (o se asume el teorema de límite central) y la
varianza (cuadrado de la
desviación estándar) de la población es conocida.
PRUEBA z NORMAL PARA UNA
MUESTRA. Ej: queremos saber si el
promedio de glucosa en sangre de una muestra de 1000 pacientes usuarias de
anticonceptivos orales es diferente o no del promedio de los niveles de glucosa
en la población general. Sabemos
que los valores de glicemia siguen una distribución normal y conocemos la
desviación estándar (por lo tanto la varianza) de los valores normales de
glicemia en la población.
B.- Cuando se desea hacer
inferencia acerca de la media de una variable continua con respecto a la media
de la población cuando la distribución de la variable es normal (o se asume el
teorema de límite central) y la varianza (cuadrado de la desviación standard)
no es conocida:
PRUEBA t
PARA UNA MUESTRA. Ej. El caso anterior si es que
no conociéramos la desviación estándar (por lo tanto la varianza) de los
valores de glicemia en la población. C.- Cuando se desea hacer
inferencia acerca de la varianza (cuadrado de la desviación estándar) de una
variable continua con respecto a la varianza de la población cuando la
distribución de la variable es normal (o se asume el teorema de límite
central) PRUEBA
Chi CUADRADO PARA VARIANZAS PARA UNA MUESTRA. Ej: Cuando queremos saber si la varianza (cuadrado de la desviación
estándar, que es una medida de dispersión de los datos) de la distribución de
los valores de glicemia en la muestra de usuarias de anticoncepción oral es
diferente de la varianza de los valores de glicemia en la población general.
Esta prueba estadística es muy sensible y por lo tanto no da resultados
confiables si la distribución de los valores de glicemia no siguen una curva
normal en la población. D.- Cuando queremos comparar una
muestra con la población con respecto a una variable de distribución binomial
(no sigue una distribución normal).
TEST BINOMIAL PARA UNA MUESTRA Ej. Queremos comparar una
muestra de escolares de un colegio con la población escolar en general con
respecto a la presencia o no de parasitosis.
Variable binomial: Presencia de parasitosis: Si o No. E.- Cuando queremos comparar una muestra con la población con
respecto a una variable de distribución no normal ni binomial.
USAR OTRA DISTRIBUCION O USAR PRUEBAS NO PARAMETRICAS Ej. Queremos comparar una
muestra de escolares de un colegio con la población general escolar con
respecto al rendimiento escolar categorizado como:
excelente, bueno, regular,
malo, pésimo (variable ordinal). |
|
2.- CUANDO TENEMOS DOS MUESTRAS: Se desea comparar dos muestras con respecto a una variable. A.-
Cuando queremos comparar medias entre dos muestras independientes,
las varianzas no son diferentes y la distribución de la variable es
normal (o se asume teorema de limite central): PRUEBA
t PARA DOS MUESTRAS INDEPENDIENTES CON IGUALES
VARIANZAS. Ej: queremos saber si el
promedio de trigliceridemia en sangre de una muestra de pacientes con
preeclampsia no es diferente del promedio de los valores de trigliciridemia de
una muestra de gestantes sin preeclampsia.
Se supone que la distribución de los valores de trigliciridemia sigue un
patrón normal, las muestras de pacientes con preeclampsia y las que no tienen
preeclampsia son independientes (No están relacionadas) y la varianza de los
valores de trigliciridemia no es diferente entre el grupo de gestantes con
preeclampsia y el grupo que no tiene preeclampsia. PRUEBA
t PARA DOS MUESTRAS CON DIFERENTES VARIANZAS. Ej: El caso anterior si es que
asumimos que la varianza de los valores de trigliciridemia es diferente entre
las mujeres con preeclampsia y las mujeres sin preeclampsia. C.- Cuando queremos comparar
medias entre dos muestras dependientes, asumiendo que la distribución de la
variable es normal (o se asume teorema de limite central): PRUEBA
t PAREADA Ej. Cuando queremos comparar el
promedio de la presión arterial sistólica en 100 hipertensos antes y después
de un tratamiento farmacológico. Asumimos
que la distribución de los datos de presión arterial sigue una distribución
normal. También son muestras
dependientes aquellas en que se
realiza un pareamiento para una o más variables. D.- Inferencia acerca de
varianzas, distribución normal (o se asume teorema de límite central): PRUEBA
F PARA DOS MUESTRAS PARA COMPARAR VARIANZAS (muy sensible cuando el patrón no es normal). Ej. Queremos comparar si las varianzas (cuadrado de la desviación
estándar) son diferentes entre los valores de espirometría de un grupo de 100
pacientes con asma y un grupo de 100 pacientes con tuberculosis.
Es decir queremos ver si la dispersión de los valores entre estas dos
muestras es diferente. Asumimos que la distribución de los valores de espirometría
siguen una curva normal. E.- Cuando tenemos dos muestras
de distribución binomial y las muestras son dependientes:
TEST c2
de Mc NEMAR
Ej: Queremos establecer si existe asociación entre la aparición
de preeclampsia o no con el hecho de haber deseado o no el actual embarazo
habiendo pareado los casos de preeclampsia con los controles para dos variables:
edad y paridad. Ej: Se desea determinar si dos técnicas
difieren en la detección de cierto tipo de virus en sangre (+). Se toma una
muestra de sangre de, por ejemplo, 100 pacientes y cada una se divide en dos,
una sub muestra se analiza con la técnica A y la otra con la B.
Con la prueba de c2
de Mc Nemar se determina si la proporción de los (+) con la técnica A difiere
de los (+) con la técnica B. F.- Cuando tenemos dos variables
de distribución binomial, las muestras son independientes pero algún valor
esperado de alguna de las celdas de la tabla de 2 x 2 es < 5:
PRUEBA EXACTA DE FISHER Ej: Cuando en el ejemplo anterior uno de los valores
esperados de una de las celdas de la tabla de 2 x 2 es menor de 5.
El valor esperado se halla multiplicando el total de la columna (a + b)
por el total de la fila (a + c)correspondientes a esa celda (ej. la celda a) y
dividiendo por el total de participantes (a+b+c+d).
G.- Cuando tenemos dos variables de distribución binomial,
las muestras son independientes y todos los valores esperados son ³
5. Los valores usados no
corresponden a densidad de incidencia: PRUEBAS PARA PROPORCIONES
BINOMIALES A DOS MUESTRAS O METODOS PARA TABLAS
DE 2X2 SI NO EXISTEN CONFUSORES. SI EXISTEN CONFUSORES:
PRUEBA DE MANTEL-HAENSZEL. Ej: Cuando el ejemplo anterior uno de los valores esperados
son £
de 5 y el estudio no es uno de tipo cohortes:
es uno de tipo caso control o transversal H.- Distribución binomial, muestras independientes, todos
los valores esperados £
5, valores de densidad de incidencia incluidos:
METODOS DE DENSIDAD DE INCIDENCIA. Ej. Cuando en el ultimo ejemplo se usa un diseño de
cohortes: es decir siguiendo a
gestantes con embarazo no deseado y comparándolas con un grupo de
gestantes con embarazo deseado para ver la incidencia de preeclampsia en
cada uno de estos grupos. I.- Distribución no normal (o teorema de limite central no
asumido), no binomial: USAR OTRAS DISTRIBUCIONES O USAR MÉTODOS
NO PARAMÉTRICOS. Ej. Comparar la variable cumplimiento de la dieta
(categorizada como: excelente,
bueno, regular, malo) entre dos grupos de diabéticos: uno en el que se les dio
un tríptico de información y el otro donde se les dio una charla. |
|
3.- CUANDO TENEMOS
TRES O MAS MUESTRAS: A.- Inferencia acerca de medias, distribución normal (o
teorema de limite central asumido):
ANOVA UN FACTOR O PRUEBA DE KRUSKAL-WALLIS. Ej. Queremos
comparar los promedios de edad entre tres grupos de mujeres: uno en el que el papanicolaou es normal, otro en el que
existe un resultado de displasia cervical y el ultimo grupo donde el resultado
del papanicolaou es carcinoma invasor. B.- Inferencia acerca de varianzas, distribución normal (o
teorema de limite central asumido): PRUEBA DE BARTLETT'S PARA HOMOGENEIDAD DE VARIANZAS Ej:
Queremos en el ejemplo anterior, comparar la dispersión de las edades en
los tres grupos, tomando en cuenta
las varianzas (cuadrado de la desviación estándar). C.- Distribución no normal (o teorema de limite central no
asumido), datos categóricos:
METODOS
DE TABLAS DE CONTINGENCIAS R X C Ej. Queremos saber si existe asociación entre la variable
dolor abdominal (leve, moderado o severo) en tres grupos de mujeres con
cervicitis leve, moderada y severa D.- Distribución no normal (o teorema de limite central no
asumido), datos no categóricos: USAR OTRA DISTRIBUCIÓN O METODOS
NO PARAMÉTRICOS |
|
1.- CUANDO LAS DOS
VARIABLES SON CONTINUAS A.- Predicción de una variable continua a partir de otra
variable también continua:
Ej. Predicción de la presión parcial de oxigeno a partir
de la altitud (m. sobre el nivel del mar). B.- Relación entre dos variables continuas que tienen
distribución normal
MÉTODOS DE CORRELACIÓN PEARSON Ej. Existe o no relación entre los valores de
colesterolemia y la presión arterial en un grupo de 1000 diabéticos. C.- Relación entre dos variables continuas que no tienen
distribución normal MÉTODOS
DE CORRELACIÓN RANK.: COEFICIENTE DE CORRELACIÓN
SPEARMAN Ej. El uso de condón (medido en porcentaje de los coitos)
en una muestra de trabajadoras sexuales y el numero de leucocitos en secreción
cervical. |
|
2.- CUANDO UNA DE
LAS VARIABLES ES CONTINUA Y LA OTRA CATEGORICA:
ANÁLISIS DE VARIANZA (ANOVA) A) variable categórica
puede ser clasificada de una sola forma: a.- Distribución
normal de la variable dependiente (o se asume teorema de limite central): - no hay otras
covariables a ser controladas: ANOVA UN FACTOR
Ej: Queremos
comparar el promedio del efecto hipotensor (variable continua y dependiente)
entre cuatro drogas (variable independiente y categórica) en u un grupo de 100
gestantes adolescentes preeclampticas. Asumimos que los valores de las
diferencias de PA antes y después de la administración del medicamento siguen
un patrón normal. - otras
covariables a ser controladas:
ANÁLISIS DE COVARIANZA
Ej: Queremos
comparar el promedio del efecto hipotensor (variable dependente y continua)
entre cuatro drogas (variable independiente y categórica) en un grupo de 100
gestantes de diferentes edades. Variables
a ser controlada: la edad de la
gestante, diabetes mellitus asociada. Asumimos que los valores de las diferencias de PA antes y
después de la administración del medicamento siguen un patrón normal. b.- Distribución no normal de la variable dependiente (o
no se asume teorema de limite central): METODOS ANOVA NO PARAMETRICOS:
PRUEBA DE KRUSKAL-WALLIS. Ej: Queremos comparar la respuesta de cuatro drogas (variable independiente y categórica) con respecto a su efecto antiinflamatorio (variable dependiente y ordinal) categorizado como excelente, bueno, regular o malo B) variable categórica puede ser
clasificada en dos formas
a.- No otras
covariables a ser controladas:
ANOVA DOS FACTORES.
Ej: Queremos
ver la diferencia de promedios de colesterolemia (variable dependiente continua)
entre dos grupos de mujeres: 100 que toman anticonceptivos y 100 que no toman.
Pero hay que considerar que dentro de estos dos grupos existen mujeres
que fuman y mujeres que no fuman. En
realidad habrían 4 grupos en la variable independiente: Fuman y toman ACO,
Fuman y no toman ACO, No fuman y toman ACO y No fuman y no toman ACO.
Asumimos que los valores de colesterolemia siguen un patrón normal. b.- Otras
covariables a ser controlada:
ANALISIS DE COVARIANZA
Ej. El ejemplo anterior pero en el que creemos que la
variable edad y las características de la dieta puedan confundir los resultados
con respecto a la variable dependiente valor de colesterolemia.
C) variable categórica
puede ser clasificada de mas de dos formas a.- No otras
variables a ser controladas: ANOVA
más de dos factores Ej: Queremos
ver la diferencia de promedios de colesterolemia (variable dependiente continua)
entre dos grupos de mujeres: 100 que toman anticonceptivos y 100 que no toman.
Pero hay que considerar que dentro de estos dos grupos existen mujeres
que fuman o no y también las que hacen o no ejercicios físicos.
En realidad habrían 8 grupos: Fuman, toman ACO y no hacen ejercicios;
Fuman toman ACO y hacen ejercicios; fuman, no toman ACO y no hacen ejercicios,
etc, etc. Asumimos que los valores
de colesterolemia siguen un patrón normal. b.- Otras
variables a ser controladas: análisis
de covarianza 3.- CUANDO LAS
VARIABLES SON ORDINALES:
MÉTODOS DE CORRELACIÓN RANK 4.- CUANDO LAS DOS
VARIABLES SON CATEGORICAS A) Asociación entre
dos variables categóricas:
MÉTODOS DE TABLAS DE CONTINGENCIA
Ej. Queremos saber si la presencia o no de candidiasis
vaginal (variable dependiente) esta relacionada al uso o no de condones
(variable independiente). Se usa
prueba de chi cuadrado para ver asociación estadística entre estas dos
variables categóricas. B) Reproducibilidad
PRUEBA KAPPA Ej. Queremos saber en que grado concuerdan el diagnostico
clínico de un ginecólogo y el diagnostico de laboratorio en la etiología de
la vulvovaginitis en 100 mujeres que venían con el síntoma de flujo vaginal
anormal. |
|
III.-
CUANDO SE ESTUDIA TRES O MAS VARIABLES |
|
1.- CUANDO LA
VARIABLE DEPENDIENTE ES CONTINUA: MÉTODO
DE REGRESIÓN MÚLTIPLE
Ej. Queremos saber si la variable dependiente talla esta independientemente relacionada (y en que grado) a otras variables como edad, estado nutricional, raza, etc. 2.- CUANDO LA
VARIABLE DEPENDIENTE ES BINARIA Y EL TIEMPO EN QUE OCURRE EL EVENTO ES
IMPORTANTE. Ej. Queremos
ver que variables (edad, técnica quirúrgica, tipo de tumor, etc.) están
independientemente asociadas a la sobrevida o no (variable dependiente) a 5 años
de pacientes con cáncer de mama. 3.- CUANDO LA
VARIABLE DEPENDIENTE ES BINARIA Y EL TIEMPO EN QUE OCURRE EL EVENTO NO ES
IMPORTANTE: MÉTODO DE REGRESIÓN LOGÍSTICAEj. Queremos saber cuales son las variables (edad, uso de
condón, numero de compañeros sexuales, etc.) independientemente asociadas a la
presencia o no de infección cervical a C.
Trachomatis en mujeres que acuden al consultorio de Planificación
Familiar. Ej. Se desea identificar los factores de riesgo de cáncer
de estomago en cierto hospital. |