DETERMINACION DE TAMAÑO MUESTRAL  

Dr Sixto Sánchez

BOLETIN DEL AREA DE INVESTIGACION Y DE LA UNIDAD DE EPIDEMIOLOGIA DEL HOSPITAL NACIONAL DOS DE MAYO LIMA PERU

¿Cuántos sujetos necesitamos para demostrar la hipótesis de nuestra investigación con una significancia estadística apropiada?  Esta es una pregunta frecuente de los investigadores y que depende de varios factores que mostramos mas abajo.  Trataremos de mostrar de la manera mas sencilla, pero sin dejar de explicar los fundamentos bioestadísticos, la forma como calcular el número de sujetos necesarios para nuestro estudio.  
I.-

Acepta si este poder es 80% o mas.  Ej.: Al decir que hemos demostrado la hipótesis de que el tratamiento A es mejor que el B con un poder del 80% estamos diciendo que tenemos la certeza de que esto sucede así en el 80% de las veces que se repita el experimento por año, en cambio el tratamiento B solo reduce las recurrencias en 2 por ano.  La "diferencia de efecto" es:   6 - 2 = 4.  Mientras esta diferencia sea más grande por ejemplo 6 - 1 = 5, necesitaremos menor tamaño muestral para demostrar nuestra hipótesis de que el tratamiento A es mejor que el tratamiento B. 

 4. Variabilidad de los datos: se refiere a la dispersión de los valores.  Se mide mediante la desviación standard (s), varianza y error standard.  A mayor  variabilidad o dispersión de los datos de una variable continua   necesitamos mayor tamaño muestral.  Esta variabilidad puede ser determinada a partir de estudios previos, experiencias similares o a partir de un estudio piloto.  Ej. La variabilidad de la edad de un grupo de personas con edades de 60, 30, 20, 10 y 17 años es mayor que la variabilidad de otro grupo de personas con edades de 25, 26, 28 , 30 y 32 años. 

 Conclusion:  El tamaño muestral  ­  si el error a ¯,  la variabilidad (s ) ­,  el error b ¯ ( equivalente a que el poder o 1 - b ­) o si la diferencia de efecto entre los dos grupos ­.

5. Diferencia de efecto (d):  Es la diferencia entre la efectividad de un tratamiento estudiado con la efectividad de otro tratamiento que consideramos standard.  Si la efectividad de un tratamiento es mucho mayor que la efectividad del otro, necesitaremos menor tamaño muestral y viceversa.  Ej: Un tratamiento A reduce la recurrencia del herpes genital en 6

En estudios experimentales podemos ¯ el poder (error ) hasta incluso 50% (error b: 0.5) pero mantener el error a en 0.05.  De esta manera podríamos solo perder la oportunidad de detectar un mejor tratamiento quedándonos con el tratamiento standard.  Esto es menos peligroso que cambiar un tratamiento que conocemos es efectivo por otro nuevo que no tenemos la certeza de que sea mejor. 

En las fórmulas presentadas aquí suponemos que los grupos a comparar tienen igual variabilidad.  Si la variabilidad  es diferente entre los grupos comparados, existen formulas que toman en cuenta este hecho (Ver Rosner Bernard: Fundamentals of Biostatistics)

El número de sujetos en los dos grupos a comparar puede anticipadamente ser diferente (por ejemplo cuando queremos tener dos controles por cada caso).  En este caso se recomiendan otras  fórmulas que incluyen la proporción (k) que significa cuan grande es un grupo con respecto al otro: n2 = k n1 (Ver:  Rosner Bernard: Fundamentals of Biostatistics).

Existe casos en que tenemos disponible un limitado número de sujetos en ambos grupos a comparar por lo que solo podemos calcular el poder alcanzado de acuerdo a diferentes "diferencia de efecto" esperadas entre dos tratamientos.

1.- Calculo del tamaÑo muestral donde se comparan dos medias (muestras independientes):

Condición:  La distribución de la variable cuantitativa  en los dos grupos debe seguir un patrón normal.  Puede ser usado para: a) estudios experimentales cuando la variable resultado (dependiente) sea continua y b) para estudios caso control donde la variable predictora (independiente)  sea continua.  Ejemplo: a) Experimento: comparar el efecto de un nuevo tratamiento con respecto a otro tratamiento standard para disminuir la presión arterial, b) Caso control:  comparar un grupo de pacientes con ACV con otro sin ACV en cuanto a sus valores sanguíneos de colesterol:

    n =  2 (z 1-a/2 + z 1 - b)2 ( s_ )2     

                                     (m1 - m2)2                                                                                             

s :  desviac. standard de los resultados (Ej.: 15 mmHg)

(variabilidad de los datos)

m1: media de un grupo (Ej.  10 mmHg de disminución)

m2: media del otro grupo (Ej: 5 mmHg de disminución)     

z 1-a/2:  valor del test z para el error a: 1.96 para un error a de 0.05 a dos colas (no sabemos si el tratamiento nuevo es mejor o peor). Si se considera una cola (z 1-a ) o sea que se quiere demostrar la superioridad del nuevo tratamiento: z =1.64

z 1 - b:  valor del test z de un error b de 0.20 (una cola): 0.84

n: Tamaño muestral para cada grupo (son dos grupos)

 2.- Formula para calcular el tamano muestral de un estudio para datos pareados (que incluye solo la media de las diferencias).  Ejemplo:  Estudio experimental: valorar un tratamiento para la depresión en un grupo de pacientes:  Determinamos el grado de depresión de acuerdo a una escala valorada antes y después del tratamiento (experimento pareado).  Valoramos si la media de las diferencias del grado de ansiedad antes y después del tratamiento es significativamente diferente de 0

n =    (z 1-a/2 + z 1 - b)2 (   _ s_ )2                

                                     ( md )2                              

 s :  Desviación estandard de las diferencias (ej.: 10)

md:  Media de las diferencias entre los valores de la variable estudiada antes y después del tratamiento.

z 1-a/2:  valor del test z para el error a: 1.96 (*) para un error a de 0.05 a dos colas (no sabemos si el  tratamiento nuevo es mejor o peor). Si se considera una cola (z 1-a ) o sea que se quiere demostrar la superioridad del nuevo tratamiento:

z =1.64 (*)

z 1 - b:  valor del test z de un error b de 0.20 (una cola): 0.84 (*)

n: tamaño muestra del grupo único

(*) 1.96, 1.64 y 0.84 pueden cambiar de acuerdo al error a o b que hemos escogido.  Solo tenemos que buscar en la tabla de la curva normal (z) el valor del test z correspondiente a los valores de a o b  (a una y dos colas).

 

3.- Formula para calcular el tamano muestral de un estudio en que el resultado se mide por proporciones, es dicotomico y las dos muestras son independientes.

Ejemplo:  a) Experimental: comparar dos tipos de tratamiento de pacientes con cáncer en cuanto a la proporción de pacientes que sobreviven (p1) o no (p2) durante un periodo, b) Cohortes: Comparar la incidencia de cáncer de piel entre un grupo de personas que se exponen al sol (p1) en comparación a la incidencia de cáncer de piel en otro grupo de personas que no se exponen (p2).  Para muestras dependientes, existe una formula especial.                                    

n =  2  (z 1-a/2 + z 1 - b)2    p (1 -  p )                  

                                        (p1 - p2)2                                    

p1:  proporción 1: probabilidad de morir (je:  0.20)

p2:  proporción 2: probabilidad de no morir (ej.: 0.80)      `                                      _

p1:  Media de p1 y  p2 =  (p1 +  p2)/2

z 1-a/2:  valor del test z para el error a: 1.96 para un error a de 0.05 a dos colas (no sabemos si el tratamiento nuevo es mejor o peor). Si se considera una cola (z 1-a ) o sea         que se quiere demostrar la superioridad del nuevo tratamiento: z =1.64

z 1 - b:  valor del test z para un error b de 0.20 (una cola): 0.84

n: Tamaño muestral para cada grupo (son dos grupos)

Nota: Si se trata de un estudio caso control hay que tener en cuenta que

p1 =  (OR  x  p2) / [1 - p2 + (OR  x p2)], donde OR: Odd ratio, p1 es la proporción de expuestos entre los casos y p2 es la proporción de expuestos entre los controles.

 Fomula para calculo del tamaño muestral en estudios caso control tomando en cuenta el riesgo relativo       

n =   [ z 1-a/2   Ö  2`p`q   +   z 1 - b   Ö f (1-f) + p3 q3    ] 2      

                                            ( f - p3)2

(Schlesselman 1982)               

 

Donde:  f    =  prevalencia de la variable de interés

p3  =          f R___ 

                1+ f(R-1)

                                                                                       

`p   =  (f  + p3)  , `q = 1 - `p

                2  

Existe otra fórmula para comparar proporciones:                               

n=   [ z 1-a/2   Ö`p `q    +   z 1 - b   Öp1 q1 + p2 q2  ] 2            

                             ( p2 - q1)2

(Fleiss 1980)

                                               

Donde:                  q1  =  (1  -   p1)

                                q2  =  (1  -   q1)

 

Fórmula para cuando los tamaños muestrales son diferentes para los dos grupos estudiados:   

n1=   [ z 1-a/2 Ö (r+1)`p `q    +   z 1 - b  Ör p1 q1 + p2 q2 ] 2          

                                             r (d)2

(Fleiss 1980)                      

Donde:              d  =  (p2  -  q1)

                                n2  =  r n1      

( r es la proporción entre la cantidad de sujetos en  ambos grupos)                                   

n =   [ z 1-a/2   Ö `p`q    +   z 1 - b   Ö p1 q1 + p2 q2    ] 2  

                             ( p2 - q1)2

 

(Fleiss 1980)                      

Donde:                  q1  =  (1  -   p1)

                                q2  =  (1  -   q1)

 

Existe otras formulas disponibles para este  mismo objetivo (Rosner Bernard. Fundamentals of  Biostatistics, Fisher Van Belle Biostatistics, A Methodology for the Health Sciences).

Para muestras pareadas para una o más variables (ej. grupos pareados para sexo y estadio de la enfermedad), existe una formula (Mc Nemar) que toma en cuenta la proporción y numero de pares discordantes (Rosner Bernard. Fundamentals of  Biostatistics):        

n=   [ z 1-a/2   Ö pb  pc    +   z 1 - b   Ö  (pb pc)/( pb+ qc)  ] 2           

                             ( pb - qc)2

 

(Rosner; Lachin)                               

Donde:              

a b   Donde:  pb = b/N
c d      pc = c/N
    N  

 

4.- En los estudios transversales: no existe selección de los sujetos con respecto al estado de caso o de exposición. No se aplica formula.

 

5.- Estudios donde se correlaciona dos variables continuas mediante el coeficiente de correlación tienen diferente fórmula (Cohen 1988)

 

6.- Situaciones especiales.- En casos donde se aplica regresión logística, considerar para el cálculo del tamaño muestral, solo la relación entre la variable dependiente y la independiente objeto de estudio (prueba t).   Las variables ordinales pueden ser tratadas como continuas si tienen 6 o más categorías y la distribución de los sujetos dentro de cada categoría sigue un patrón normal.  Si son  menos de 6 se podría comprimir y formar solo dos categorías (ej. 0 y 1 o mas).  En casos de sobrevivencia, en vez de que la variable sea tomada de una forma continua (ej: número de semanas) es mejor dicotomizarla en tiempos fijos (ej: sobrevida a 6 meses).

 II.- ESTUDIOS DE ESTIMACION.-

 1.- Fórmula para calcular el tamaño muestral para estimar una media (variable continua): Ejemplo: queremos saber la media de la presión arterial en personas de 50 a 60 anos.  ¿Cuántas personas de este rango de edad necesitamos?  

    n =   ( 1.96   x    DS2  )2  

límite de confianza

DS:  Desv. Estandard de acuerdo a previos estudios o a   límite de confianza de un estudio piloto (ej: 20 mmHg)

Limite de confianza: rango de valores dentro del cual tenemos confianza (a menudo 95%) de que los verdaderos valores de la población  tenga (Ej.: 4 mm g si pensamos que los valores caerán entre 130 y 134 mmHg).

 

1.96: Valor del test z para una confianza de 95% (error a de 0.05 a dos colas)

n: Tamaño muestral

 2.- Cálculo del tamaño muestral para estimar una proporcion:  

Ejemplo: queremos saber la proporción de adolescentes de 13 a 15 anos que tienen relaciones sexuales. ¿ Cuántas personas en este rango de edad necesitamos?.   Esta fórmula también puede ser usada para el tamaño muestral de acuerdo a la sensibilidad o especificidad que deseemos obtener en una prueba de validez.

     n =   1.962     p (1 - p)

                     intervalo2                                

p: proporción que pensamos tiene la característica  estudiada (Ej.: 0.4).  

(1 - p):  Proporción que pensamos no tienen la característica estudiada (Ej.: 0.6)

intervalo: rango dentro del cual tenemos confianza (en  el 95%) de que los verdaderos valores de la proporción estudiada se encuentre (Ej: 0.1 para una proporción 0.4 ± 0.05).

1.96: Valor del test z para una confianza de 95% (error a de 0.05 a dos colas)

n: Tamaño muestral

  Ir a la Pagina Iniciando la Investigación