Cómo estimar el tamaño de la muestra en investigaciones con

92
Educación Médica
Cómo estimar el tamaño de la muestra
en investigaciones con humanos
R. Dennis
Los trabajos de investigación que involucran
seres humanos deben ir precedidos, en su etapa
de planeación, de un estimativo del tamaño de
la muestra necesario para obtener conclusiones valederas. Los conceptos de: error alfa,
error beta, poder, variabilidad de los resultados y mínima diferencia, importantes de
detectar clínicamente justifican este cálculo.
Se discuten estos conceptos y la manera de
utilizarlos en fórmulas de uso fácil para calcular el tamaño apropiado de la muestra.
INTRODUCCION
La curiosidad científica, entendida como el
deseo de aumentar nuestros conocimientos, es una
característica propia de los profesionales de la
medicina. Estos conocimientos pueden aumentarse mediante la memorización de lecturas y conferencias, sistema tradicional en nuestras escuelas
de Medicina; o a través de una actitud científica
validando experimentalmente hipótesis propias
derivadas de estas lecturas o de nuestro trabajo
clínico diario.
Estas hipótesis por lo general abarcan temas
como utilidad de un examen diagnóstico, factores
de riesgo para el desarrollo de una enfermedad,
utilidad de una estrategia de tratamiento o el curso
natural de una enfermedad. Con frecuencia, sin
embargo, nuestras inquietudes investigativas tropiezan con escollos que nos pueden parecer
insalvables y limitan, por falta de información
Rodolfo J Dennis MD., MSc.: Departamento de Medicina Interna y Unidad
de Epidemiología Clínica, Pontificia Universidad Javeriana.
Solicitud de separatas al Dr. Dennis.
Acta Médica C o l o m b i a n a Vol 14 N°2 - M a r z o - A b r i l - 1989
apropiada, el desarrollo de nuestro potencial
investigativo. ¿Cuántas observaciones (o pacientes) necesitamos para que nuestras conclusiones
sean válidas? ¿Cuál es la diferencia entre tener 15
pacientes? ¿o 30? ¿o 100? ¿Cómo hacemos para
tener una idea, al diseñar un estudio (aunque sea
aproximada), del número de pacientes necesario y
del tiempo que podemos tardar en llevarlo a cabo?
Estas y muchas otras preguntas similares nos pueden detener en los umbrales de una investigación
promisoria por cuanto, en términos generales,
nuestros estudios de pregrado y postgrado nos han
proporcionado los elementos necesarios para resolverlas.
Día a día llegan a la unidad de epidemiología
Clínica de nuestra U n i v e r s i d a d , diferentes
investigadores en salud con excelentes hipótesis
de trabajo, buscando información sobre cuántos
individuos son necesarios en el estudio que piensan desarrollar. La mayoría de estos investigadores no desean una explicación detallada de cómo
fueron derivadas estas fórmulas, ni de los finísimos detalles de áreas debajo de curvas de distribución. Sólo desean tener una idea de cómo calcular
el número aproximado de pacientes para su estudio particular.
Hasta hace algunos años no se había establecido la necesidad de calcular el tamaño de la muestra en un estudio clínico y no teníamos una idea
clara de su vital importancia. Freiman, más que
nadie, ha contribuido a demostrar el rol crítico que
tiene el tamaño de la muestra en las conclusiones
que se deriven de un estudio. El estudio de Freiman (1) demostró que aun en las revistas médicas
de más alto prestigio por la exigencia de sus edito-
Tamaño de la muestra en investigaciones con humanos
93
res, se encuentran publicados trabajos cuya deficiente planeación indujo a conclusiones equivocadas. El error consistió en considerar que los tratamientos no diferían entre sí por sus efectos sobre
los grupos tratados. La causa principal de este error
fue el tamaño inapropiado de las observaciones
(muestra) efectuadas.
Pensando en esto y en que los conceptos de error
tipo I o tipo II son en ocasiones difíciles de asimilar (especialmente este último) elaboré este artículo. Pretendiendo únicamente hacer una revisión
breve de las razones y de la necesidad de calcular
el tamaño de la muestra y de los recursos metodológicos a disposición del investigador para calcularla. Aquellos lectores con un interés más profundo en el tema pueden consultar varios libros excelentes (2-4).
error tipo alfa o simplemente un error de tipo falso
positivo (Tabla 1). Obviamente, cuando estamos
evaluando un tratamiento con graves efectos
secundarios o una terapia invasiva o una terapia
cara y de potencial iatrogénico, es no solamente
indeseable sino abiertamente peligroso incurrir en
error de tipo I por un tamaño de muestra insuficiente.
Hoy en día en la literatura mundial hay una
prevención general contra los errores alfa; nadie
acepta ya un resultado c o m o positivo si la p está
por encima de 0.05. Sin embargo, todavía existe
poca preocupación por el efecto de llevar a cabo
múltiples análisis estadísticos con los resultados
de un estudio; entre más pruebas de este tipo se
hagan, con un nivel de significación de 0.05, hay
mayor probabilidad de obtener un resultado falso
positivo. Cuando hemos hecho en el transcurso
del análisis de un estudio, 10 exámenes estadísticos
independientes, la probabilidad de un error de tipo
falso positivo (alfa) es del 4 0 % (5). En estos casos
se puede entonces ser más rígido, y desde el punto
de vista clínico práctico, sólo aceptar como válidos resultados con p menor de 0.01.
El valor p es en realidad una probabilidad; es la
probalidad de obtener un resultado tanto ( o más)
extremo que el observado si la diferencia entre los
diferentes grupos fuese enteramente debida a
variabilidad del intrumento de medición, o de la
respuesta del paciente, o para abreviar, simplemente por azar (6). Otra forma de expresarlo es
aquella probabilidad por encima de la cual dire-
ERROR Y VARIABILIDAD
Existen tres razones básicas por las cuales se
debe obtener un tamaño aproximado de la muestra:
el error de tipo I, el error de tipo II y la variabilidad
del resultado.
Error tipo I y II. En general, cuando un investigador se propone comparar, por ejemplo, la eficacia de un tratamiento, formula una hipótesis de
trabajo que pueda rebatir o desechar, y que en lenguaje estadístico se denomina hipótesis nula. Esta
se expresaría más o menos en los siguientes términos: " N o hay una diferencia en eficacia entre el
tratamiento A y el tratamiento B". Existe también
una hipótesis alterna que aceptaríamos al rechazar
la hipótesis nula y se expresaría como: "el tratamiento A es más efectivo que el tratamiento B".
Cuando el investigador somete a un análisis estadístico sus resultados y obtiene un valor p m e n o r
de 0.05, dice que la diferencia es estadísticamente
significativa, rechaza la hipótesis nula y, por ende,
acepta la hipótesis alterna.
Cuando estamos analizando los resultados de
un estudio como el enunciado, es posible que
aunque en realidad no haya diferencia alguna entre
los grupos estudiados (hipótesis nula verdadera),
concluyamos falsamente que sí la hay y rechacemos
erróneamente la hipótesis nula y aceptemos la
alterna. A esto se le ha llamado error de tipo I,
Acta Med Colomb Vol 14 N°2 - 1989
94
mos que las diferencias que nos interesan entre los
grupos en estudio, muy probablemente se deben al
azar y que m u y problamente son diferencias no
verdaderas.
La manera de evaluar (antes de desarrollar el
estudio) la probabilidad de obtener un error tipo I
es a través del m á x i m o nivel alfa que estamos
dispuestos a tolerar. El nivel alfa es aquel valor de
p por encima del cual nos proponemos rechazar la
hipótesis nula de no diferencia entre los grupos
(tratamientos, factores de riesgo, etc) en estudio.
Por consenso en la literatura médica se ha establecido una p=0.05 como el máximo nivel alfa tolerable.
En torno a este uso de p existe una gran polémica hoy en día. Así por ejemplo, Rothman (6)
argumenta que las revistas de medicina deberían
estimular el uso de intervalos de confianza para el
informe de resultados en experimentos clínicos en
vez de niveles de significación Rothman basa su
afirmación en que los intervalos de confianza
mostrarían tendencias, no un simple punto de corte
dicotómico positivo o negativo. Los intervalos de
confianza definirían los límites entre los cuales,
con una probalidad del 90 o 95%, se encuentra el
resultado que obtuvimos del estudio.
A menores valores de alfa, habrá entonces una
m e n o r posibilidad de incurrir en un error tipo I;
dicho de otra manera, entre menos error alfa queramos tolerar, más pacientes debemos tener: si
deseamos ser rígidos y sólo tolerar una probabilidad de error alfa de 0.01, necesitaremos más pacientes en el estudio que si vamos a tolerar una de
0.05.
Cuando estamos analizando el resultado de un
estudio, es posible que aunque verdaderamente
haya diferencias entre los grupos que se estudian
(hipótesis alterna verdadera), concluyamos erróneamente que no la hay y equivocadamente
aceptemos la hipótesis nula y descartemos la
hipótesis alterna (Tabla 1). A esto se le ha llamado
error de tipo II, error beta, o simplemente un error
de tipo falso negativo.
Es indeseable que si estamos evaluando un tratamiento efectivo o más barato o más corto, lo
descartemos como inútil cuando en realidad sí
R. Dennis
sirve. También es abiertamente indeseable concluir
que dos esquemas de tratamiento son comparables
en efectividad y en efectos colaterales, cuando en
realidad uno de ellos tiene efectos colaterales
mucho más graves. Estas dos situaciones también
tienen implicaciones éticas serias.
La manera de evaluar, la probabilidad de obtener
un error de tipo beta, antes de llevar a cabo el
estudio, es mediante el máximo nivel beta que
estamos dispuestos a tolerar. Esto equivale a fijar
un nivel por debajo del cual un resultado negativo
es un verdadero negativo, y no un resultado
falsamente negativo. Arbitrariamente, al igual que
con el nivel alfa, se ha establecido el máximo nivel
beta aceptable en 0.20; si un estudio tiene una
probabilidad m a y o r del 20% de que su resultado
sea un falso negativo, se deben tener reservas con
sus conclusiones. Al igual que con el error de tipo
I, a niveles más bajos de beta (0.1, 0.05) menos
probabilidad de un error de tipo II. Al igual que
con el error de tipo I, a niveles más bajos de beta,
mayor número de pacientes se necesitan en el
estudio (2).
El valor de la fórmula 1 -beta se ha llamado poder
o sensibilidad del estudio; esto es, la capacidad de
un estudio de encontrar una diferencia significativa si en realidad la hubiere (Tabla 1). Otra forma
de expresar este concepto es que a niveles más
bajos de beta, el poder del estudio para encontrar
una diferencia significativa, si en realidad la hay,
aumenta.
El concepto de p oder de un estudio es
relativamente nuevo, y aún no está ampliamente
difundido en la literatura médica. Sin embargo,
cada día más y más informes anotan el poder que
tenía el estudio para detectar un resultado positivo
si en verdad lo había (7-8), especialmente si
analizan un resultado negativo en sus conclusiones.
Aunque no se ha determinado una cifra mínima
aceptable de poder o sensibilidad para calcular el
tamaño de las muestras, no se debe usar menos del
80% (e. g., una probabilidad de error beta del 20%).
En el análisis crítico de la literatura médica, se
deben considerar inconclusos aquellos estudios con
un resultado negativo y con poder o sensibilidad
menor del 60%.
Tamaño de la muestra en investigaciones con humanos
95
Para mostrar la profusión de estudios en la literatura mundial con resultados negativos
posiblemente debidos a bajo poder, volvamos al
estudio de Freiman et al (1), en el que analizaron
71 ensayos clínicos aleatorizados, de múltiples
tratamientos que resultaron "negativos" o "sin
diferencias". Ellos encontraron que 50 de los 71
estudios no tenían el suficiente poder para encontrar diferencias incluso d e l 5 0 % entre los tratamientos de los grupos en estudio. Este estudio recalca
el concepto de que los términos poder y error de
tipo II no son una curiosidad estadística y que son
una necesidad en el planeamiento de la investigación médica seria (9). Young et al (8) han publicado además un artículo con tablas fáciles de usar
para evaluar trabajos con resultados negativos y
determinar la utilidad del estudio dependiendo del
número de pacientes y de 1a mínima difercncia entre
grupos considerada útil de detectar.
Variabilidad: La tercera razón básica por la
cual calculamos el tamaño adecuado de la muestra
en un estudio es el concepto de variabilidad de los
resultados (10). Las medidas de dispersión de una
muestra (varianza, desviación estándar) y el promedio de la misma muestra, guardan una relación
inversa con el tamaño de la muestra usada para
obtener esos valores. Los estudios con muestras
pequeñas usualmente no pueden ser informados
con la suficiente precisión como para que sus
resultados sean útiles. Un ejemplo es el resultado
hipotético de un estudio en el cual el riesgo de
contraer cáncer de endometrio cuando una mujer
menopáusica ha estado expuesta a estrógenos es 7
veces más alto que el de una mujer no expuesta;
pero con un intervalo de confianza del resultado
que v a r í e entre 1.5 (mínima asociación) y 1.8
(asociación extrema).
vas, pero sin mayor utilidad en la práctica clínica.
Un ejemplo sería al evaluar dos esquemas antihipertensivos. Hipotéticamente, con un número grande de pacientes, podemos encontrar que el esquema A disminuyó la presión arterial diastólica hasta 84 mm de Hg y el esquema B hasta 87 mm de
Hg, y que esta diferencia f u e estadísticamente
significativa. Para el clínico, 3 mm de Hg no son
una diferencia de utilidad práctica y puede concluir que las drogas son comparables. Esta es la
diferencia básica entre un resultado estadísticamente significativo pero clínicamente no significativo ni importante.
Al igual que con los errores de tipo I y II, para
poder tener la capacidad de detectar diferencias
pequeñas entre los grupos a estudiar, se necesitará
un mayor número de pacientes en los grupos. Otra
forma de expresar este concepto es que, si solamente estamos interesados en explorar diferencias
grandes entre los grupos del estudio, necesitaremos
menor cantidad de pacientes. El corolario obvio
de esto es que el castigo a pagar será el de no encontrar diferencias significativas entre los grupos,
si en realidad existe una diferencia menor de la
que estipulamos. Una alegoría que usamos con
frecuencia con nuestros estudiantes de medicina y
que facilita 1a explicación de este concepto es la de
un pescador y su red. Si el pescador está solamente
interesado en pescar tiburones (diferencias grandes) tejerá una red poco tupida que le representará
poco trabajo (tamaño de muestra pequeño). El
castigo a pagar radicará en no poder pescar sardinas (diferencias pequeñas) ya que para eso necesitará una red más tupida (mayor tamaño de muestra).
Mínima diferencia clínicamente importante. Las
fórmulas para el cálculo del tamaño de la muestra
utilizan, además de un estimativo de los errores
alfa y beta, un estimativo de la mínima diferencia
que, como clínicos, pensamos que es útil detectar
entre los grupos que se evaluarán (4).
Con tamaños de muestra grandes, podremos
encontrar diferencias estadísticamente significatiActa Med Colomb Vol 14 N°2 - 1989
Este concepto se amplía en el siguiente ejemplo:
Se quiere evaluar un esquema nuevo y promisorio
de preparación del colon para cirugía electiva del
mismo. Se comparará este nuevo esquema contra
el esquema q u e se utiliza de rutina en el hospital
(grupo control). Al investigador le parece que la
mínima diferencia que clínicamente se justifica
encontrar (en porcentaje de sobreinfección en el
postoperatorio) entre los dos esquemas es del 15%,
para concluir que el esquema propuesto es mejor
que el conocido. Le parece razonable 2 0 % de so-
R. Dennis
96
breinfección en el grupo control según estadísticas
locales, y 5% en el grupo del nuevo esquema, basado en la literatura. Con base a este razonamiento
calcula el tamaño de la muestra. Corre el riesgo de
que si en realidad hay diferencias entre los dos
esquemas, pero la diferencia real es de menos del
15% de sobreinfección (por ejemplo 10% o 5%),
el número de pacientes calculado puede no permitirle encontrar esa m e n o r diferencia, y concluirá
falsamente que el nuevo esquema no ofrece ninguna ventaja y que ambos esquemas son comparables.
FORMULAS DE "BOLSILLO" PARA
CALCULAR EL T A M A Ñ O DE LAS
MUESTRAS
Varias de estas fórmulas son útiles en más de un
tipo de diseño metodológico, pero pensamos que
didácticamente esmejor dividirlas según el diseño
que se quiere utilizar para cada uno de los estudios
que tenemos en mente ( 1 1 , 1 2 ) .
Donde:
n: número de pacientes necesario en cada grupo
del estudio.
p 1 : estimativo probable de respuesta en el grupo
control, en porcentaje.
p 2 : estimativo probable de respuesta en el grupo
de tratamiento, que el investigador quiere detectar
como diferente d e p 1 .
f (alfa y beta): estimativo de cómputo de los
niveles alfa y beta dispuesto a tolerar y que el
investigador quiere usar, ver Tabla 2 ( 1 1 ) .
Ejemplo: Siguiendo con el estudio del protocolo de preparación del colon ya anunciado y con P 1
de 2 0 % y p 2 de 5%, usando un nivel alfa de 0.05
evaluando dos colas y beta de 0.20, tenemos:
Vale decir que cada grupo requiere 72 pacientes
para realizar el estudio propuesto.
Donde:
n: número de pacientes en cada grupo
c): la diferencia esperada c o m o verdadera entre
los dos grupos, y que el investigador desea detectar
como importante (clínicamente).
S: Estimativo de la desviación estándar del promedio de las observaciones (asumiendo homogeneidad de varianzas y por ende similares desviaciones estándar entre los grupos). Este estimativo
puede obtenerse fácilmente de otros estudios en la
revisión bibliográfica previa al diseño, o de un
estudio piloto.
f (alfa y beta): Estimativo de cómputo de los
niveles alfa y beta usados, ver Tabla 2 ( 1 1 ) .
Ejemplo: Se quiere evaluar un antibiótico nuevo para el tratamiento de las exacerbaciones infecciosas de la bronquitis crónica y se comparará con
un antibiótico c o m ú n m e n t e usado para esta entidad. Los investigadores piensan que la variable
más importante a investigar es el número de días
en promedio hasta la mejoría. La diferencia que en
*
La evaluación de una o dos colas difiere con respecto a la interpretación
de una conclusión estadísticamente significativa. Cuando se usa una
cola, la inferencia es que el valor real que buscamos está por encima
de aquel especificado en la hipótesis nula; cuando evaluamos dos
colas, la inferencia es que el valor real puede estar por encima o por
debajo de lo especificado en la hipótesis nula (14). Con relación al
ejemplo de la preparación del colon, el nuevo esquema bien puede
disminuir la incidencia de infección en el post-operatorio, pero también
puede aumentarla (con respecto al grupo control). En esta situación
se debe usar la columna de dos colas.
Tamaño de la muestra en investigaciones con humanos
97
promedio hasta la mejoría se estimó como clínicamente importante es de dos días (6 para el nuevo
antibiótico y 8 para el antibiótico control), con una
desviación estándar de dos días. Debido a que se
quiso evitar al m á x i m o la posibilidad de un error
de tipo I o II, se usó un nivel alfa (dos colas) de
0.01 y un nivel beta de 0.10:
expuesto (e igual cantidad en el no expuesto)
P 1 : probabilidad de desarrollar la enfermedad
(blanco) en los no expuestos.
p 2 : probabilidad de desarrollar la enfermedad
(blanco) en los expuestos, obtenida de multiplicar
P 1 por el RR considerado c o m o útil de detectar.
Ejemplo:Se está planeando un estudio para
determinar si hay asociación entre exposición a
analgésicos y el desarrollo de anemia aplásica.
Basado en la literatura, el investigador piensa que
la probabilidad de desarrollar anemia aplásica
(incidencia) si no se ha estado expuesto a
analgésicos antiinflamatorios no esteroideos es del
0.5%. ¿Cuántos pacientes expuestos y no expuestos necesitaría para tener una probabilidad del 80%
(poder) de detectar un riesgo relativo de 2 o más
usando un nivel alfa de 0.05?
En este caso cada grupo deberá contar con 30
pacientes.
B. estudios de cohortes:
En este tipo de diseño se empieza típicamente
con un grupo de individuos expuestos o no
expuestos a un factor de riesgo X y sin enfermedad,
y se siguen prospectivamente en el tiempo hasta
que desarrollan la enfermedad (o el resultado)
blanco que se quiere estudiar. La medida de
asociación clave en este tipo de estudios es el riesgo
relativo (RR). El RR es definido como el riesgo de
desarrollar la enfermedad o el resultado que se
busca en el grupo expuesto, con respecto al riesgo
de desarrollar la enfermedad en el grupo no
expuesto a los factores de riesgo identificados.
Ejemplo: el riesgo de desarrollar cáncer de pulm ó n es de 9 en 100.000 si la persona fue un fumador moderado, mientras que es sólo de 1 en 100.000
si no lo ha sido. El riesgo de desarrollar cáncer de
pulmón si la persona ha fumado, con respecto a no
haberlo hecho, es de 9. Dicho de otra manera: es 9
veces más frecuente el desarrollar cáncer de pulm ó n si se ha f u m a d o que si no se ha fumado.
Para el cálculo del tamaño de la muestra en este
tipo de estudios se necesita estimar:
a) El máximo nivel alfa dispuesto a tolerar; b) el
máximo nivel beta dispuesto a tolerar; c) el mínimo riesgo relativo considerado como clínicamente útil de detectar; d) la incidencia (probabilidad)
de la enfermedad en el grupo no expuesto.
La fórmula es:
Donde:
n: número de pacientes necesarios en el grupo
Acta Med Colomb Vol 14 N°2 - 1989
En este caso el investigador deberá conformar
dos cohortes de 4.670 personas cada una.
c. E s t u d i o s de casos y c o n t r o l e s :
En este tipo de diseño se empieza típicamente
con un grupo de personas que han sufrido la
enfermedad blanco, y un grupo de personas que no
la tienen (grupo control, por lo general asignado
por el investigador). Retrospectivamente, se
determina a qué factores de riesgo estuvieron
expuestos ambos grupos, en el lapso considerado
como importante por el investigador. La medida
de asociación clave en este tipo de estudios es el
riesgo relativo (RR), obtenido de manera indirecta
(3).
Para el Cálculo de tamaño de muestra se necesita
estimar:
a) El máximo nivel alfa dispuesto a tolerar; b) el
máximo nivel beta dispuesto a tolerar; c) el mínimo RR considerado como útil o importante de
detectar; d) la prevalencia (probabilidad) de la
exposición en el grupo sin enfermedad (controles).
La fórmula a usar es similar a las vistas anteriormente (11):
R. Dennis
98
Donde:
n: número de pacientes necesarios en cada grupo.
p 1 : probabilidad de exposición (prevalencia) en
el grupo control.
p 2 : probabilidad de exposición en los enfermos,
calculada del siguiente modo:
Ejemplo: U s e m o s la misma situación anterior
en el diseño de cohortes. Basado en la literatura, el
investigador documenta que la probabilidad de
exposición a analgésicos en pacientes sin anemia
aplásica (grupo control) en los 15 días anteriores
al ingreso, es del 20%.
En este caso, p 1 2 0 %
Ahora; el investigador debe hacer grupos de 177
pacientes, lo cual, desde el punto de vista de
eficiencia y costos, con las probabilidades usadas
como ejemplo, indica el diseño de casos y controles en esta situación.
LIMITACIONES DE LOS CALCULOS DE
TAMAÑOS DE MUESTRAS
Las fórmulas enunciadas aquí sólo dan una
aproximación (aunque cercana) al número real de
pacientes necesarios. La atracción que ejerce una
cifra exacta como las que resultan de estas fórmulas,
revisten a estos cálculos de un rigor falso que puede
prestarse a engaño (6). En lo que sí hay acuerdo en
la literatura es que si hay tiempo y los costos lo
permiten, es m á s adecuado sobreestimar los
cálculos del tamaño de la muestra, y si es el caso,
acabar temprano el estudio (3, 6).
Para estudios con diseños más sofisticados y de
análisis estadístico complicado (estudios con apareo de casos y controles, con más de dos grupos,
con diseños de "crossover", o análisis de sobrevida, por citar unos cuantos) deben consultarse libros
o artículos especializados sobre el t e m a (2, 3 , 4 ) o
idealmente contar con la ayuda de un bioestadístico.
En ocasiones, se desea demostrar "equivalencia"
de las intervenciones. Calcular tamaños de muestra asumiendo que no hay diferencias entre los
grupos resultaría en un n ú m e r o infinito de
pacientes, con las fórmulas antes descritas. La estrategia en estos casos es especificar algún valor
X, tal que, intervenciones con diferencias entre ellas
menores que este valor X puedan ser consideradas
"igualmente efectivas" o "equivalentes". El especificar este valor puede ser difícil, pero sin él ningún estudio de este tipo podría ser diseñado (3).
Otra forma de enfocar este problema es desde el
punto de vista de validación de hipótesis: la hipótesis nula sería que las dos intervenciones difieren
en menos de este valor X y la hipótesis alterna
sería el demostrar que sí difieren.
En la práctica, el investigador usualmente tiene
más de una variable en los resultados de los que
quisiera sacar conclusiones válidas. Esto es particularmente importante en los estudios de casos y
controles en los que se va de "expedición de pesca". Lo indicado en estos casos es calcular el tamaño de la muestra para cada una de estas variables y saber en cuáles tiene poder suficiente para
sacar conclusiones valederas (12).
ABSTRACT
Medical Research in h u m a n beings should be
preceded by calculation of the sample size needed
to obtain valid results. T h e concepts of alpha error, beta error, power, result variability, and of the
minimal difference worth finding, are identified
not only as the main factors that justify these calculartions but as elements to be used in easy to
follow sample size formulas.
REFERENCIAS
1.
Freíman JA. T h e importance of Beta, the type II error, and sample size in
the design and interpretation of the randomized clinical trial. New Engl J
Med 1978; 299: 690-694.
Tamaño de la muestra en investigaciones con humanos
99
2.
Schlesselman JJ. Case control Studies; Desing, conduct, analysis. New
Y o r k : Oxford University Press; 1982: 144-170.
for administration of metaproterenol in hospitalized patients. Journal of
Asthna 1985; 22: 87-92.
3.
Friedman LM, Furberg CD, Demets DL. Fundamentals of clincal trials.
2a ed, Littleton. PSG Publishing Company Inc; 1985: 83-107.
8.
Young MS, Bresnitz EA, Strom BL. Sample size nomograms for interpreting negative clinical studies. Ann Int Med 1983; 99:248-251.
4.
Fleiss JL. Statistical methods for rates and proportions. 2a ed. New York:
John Wiley and Sons;1982
9.
Ingelfinger JA, Mosteller F, Thibodeau LA, Ware JH. Biostatistics in
clinical medicine. New York: Macmillan Publishing Co Ine; 1983.
5.
Galen R, Gambino SR. Beyond normality: The predictive value and efficiency of medical diagnoses. New York: John Wiley & Sons; 1975:2-3.
10. Fletcher RH, Fletcher RH, Wagner EH. Clinical epidemiology the essentials. Baltimore: Williams & Wilkins 1982; 154:17-37.
6.
Rothman KJ. Modem Epidemiology. Boston: Little, Brown and Company; 1986: 79-82,115-125.
11. Dobson A J. Calculating sample size. Transactions of the Menzies Foundation 1984; 7 : 7 5 - 7 9 .
7.
Berenberg MJ, Baigelman W, Cupples LA, et al. Comparison of metered dose ubgaker attached to and aerochamber with an updraft nebulizer
12.
Acta Med Colomb Vol 14 N°2 - 1989
Colton T. Statistics in medicine. Boston: Little, Brown and Company;
1974:147-161.