Contraste de Hipótesis. Métodos ANOVA
Contraste de Hipótesis. Métodos ANOVA
Contraste de Hipótesis. Métodos ANOVA
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Prácticas <strong>de</strong> Calidad <strong>de</strong> Sistemas <strong>de</strong> Información<br />
Sesión 2:<br />
<strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong>. <strong>Métodos</strong><br />
<strong>ANOVA</strong><br />
5º Curso <strong>de</strong> Ingeniería<br />
Informática<br />
Perfil Sistemas <strong>de</strong> Información<br />
Ciudad Real<br />
Curso 2003/04<br />
Sesión 2 CSI-Curso 2003/04 1<br />
Contenido<br />
<strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong><br />
Definición, elementos<br />
Relación con la calidad<br />
Tipos <strong>de</strong> contraste <strong>de</strong> hipótesis.<br />
Sobre una población<br />
Sobre dos poblaciones<br />
<strong>Métodos</strong> <strong>ANOVA</strong><br />
Estudio <strong>de</strong> influencia <strong>de</strong> factores.<br />
Relación entre<br />
Sesión 2 CSI-Curso 2003/04 2<br />
1
<strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong><br />
Definición<br />
Procedimiento estadístico que se basa en elegir<br />
entre dos opciones o hipótesis <strong>de</strong> trabajo posibles y<br />
antagónicas.<br />
Consiste en aceptar o rechazar una hipótesis sobre<br />
el valor <strong>de</strong> algún parámetro poblacional,<br />
normalmente la media.<br />
En calidad va a servir para estudiar cómo la<br />
aplicación <strong>de</strong> un factor ha afectado al parámetro<br />
poblacional elegido.<br />
Sesión 2 CSI-Curso 2003/04 3<br />
<strong>Contraste</strong> <strong>de</strong> hipótesis (II)<br />
A una <strong>de</strong> ellas se le acepta como verda<strong>de</strong>ra (hipótesis nula<br />
H 0 ) y se tratará <strong>de</strong> <strong>de</strong>terminar si no se comete ningún error<br />
aceptándola o rechazándola.<br />
H 0 : µ=µ 0<br />
H 1 : µ≠µ 0<br />
Pasos:<br />
1. I<strong>de</strong>ntificar el parámetro <strong>de</strong> interés<br />
2. Definir las hipótesis nula y la alternativa<br />
3. Elegir un nivel <strong>de</strong> significación<br />
4. Fijar el test estadístico <strong>de</strong> contraste apropiado<br />
5. Fijar la región <strong>de</strong> rechazo apropiada<br />
6. Determinar si se acepta o no la hipótesis nula.<br />
Sesión 2 CSI-Curso 2003/04 4<br />
2
<strong>Contraste</strong> <strong>de</strong> hipótesis (III)<br />
Conceptos<br />
Parámetro o estadístico <strong>de</strong> contraste<br />
Es la variable aleatoria que se preten<strong>de</strong> estudiar.<br />
Decisión Correcta :<br />
De Tipo A: cuando no se <strong>de</strong>scarte H 0 siendo cierta<br />
De Tipo B: cuando se <strong>de</strong>scarte H 0 siendo falsa<br />
Errores:<br />
De tipo I: cuando hayamos <strong>de</strong>scartado H 0 siendo cierta. La<br />
probabilidad <strong>de</strong> cometerlo es α, también conocido como nivel<br />
<strong>de</strong> significación.<br />
De tipo II: cuando no hayamos <strong>de</strong>scartado H 0 siendo falsa. La<br />
probabilidad <strong>de</strong> cometerlo es β.<br />
Potencia <strong>de</strong>l contraste,<br />
Es la probabilidad <strong>de</strong> rechazar H 0 siendo falsa: 1- β<br />
Sesión 2 CSI-Curso 2003/04 5<br />
<strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (IV)<br />
Concepto <strong>de</strong> p-valor<br />
Es la probabilidad <strong>de</strong> que suponiendo cierta H 0 , el<br />
estadístico <strong>de</strong> contraste tome un valor al menos tan<br />
extremos como el que se obtiene a partir <strong>de</strong> los<br />
valores muestrales:<br />
El p-valor sólo pue<strong>de</strong> calcularse una vez tomada la muestra,<br />
obteniéndose valores críticos para cada muestra<br />
El p-valor pue<strong>de</strong> interpretarse como un nivel mínimo <strong>de</strong><br />
significación en el sentido <strong>de</strong> que niveles <strong>de</strong> significación α<br />
iguales o superiores al p-valor llevarán a rechazar la<br />
hipótesis nula<br />
Cuanto menor sea el p-valor, mayor es el grado<br />
<strong>de</strong> incompatibilidad <strong>de</strong> la muestra con H 0 , lo que<br />
lleva a rechazar H 0<br />
El cálculo <strong>de</strong>l p-valor no proporciona <strong>de</strong> modo sistemático<br />
una <strong>de</strong>cisión entre H 0 y H 1<br />
Sesión 2 CSI-Curso 2003/04 6<br />
3
<strong>Contraste</strong> <strong>de</strong> hipótesis (V)<br />
Tipos <strong>de</strong> Error<br />
Decisión Tomada Verda<strong>de</strong>ra<br />
Falsa<br />
No <strong>de</strong>scartar H 0<br />
Descartar H 0<br />
Decisión correcta <strong>de</strong> tipo A<br />
Probabilidad 1-α<br />
Error <strong>de</strong> tipo I<br />
Probabilidad α<br />
Error <strong>de</strong> tipo II<br />
Probabilidad β<br />
Decisión correcta <strong>de</strong> tipo A<br />
Probabilidad 1- β<br />
Sesión 2 CSI-Curso 2003/04 7<br />
<strong>Contraste</strong> <strong>de</strong> hipótesis (VI)<br />
Relación con la calidad<br />
<strong>Hipótesis</strong> Nula H 0<br />
Es posible utilizar contraste <strong>de</strong> hipótesis para:<br />
Validar que los resultados <strong>de</strong> los procesos están<br />
ocurriendo como se preveía<br />
Estudiar cómo afectan ciertos factores a los<br />
estadísticos <strong>de</strong> control<br />
Sesión 2 CSI-Curso 2003/04 8<br />
4
Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong><br />
<strong>Contraste</strong> sobre µ con σ conocida.<br />
Usos:<br />
H : µ = µ H : µ = µ<br />
0<br />
Aceptación<br />
0<br />
H1<br />
: µ ≠ µ 0 H1<br />
: µ < µ 0<br />
Estadístico <strong>de</strong> contraste<br />
Si H 1 contiene “>” ⇒ p-valor= P(Z>z*)<br />
Si H 1 contiene “
Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (III)<br />
Solución<br />
Se conocen tanto µ como σ<br />
El contraste <strong>de</strong> hipótesis a realizar es:<br />
Stat Basic Statistics 1-Sample Z<br />
: µ = 85<br />
Sesión 2 CSI-Curso 2003/04 11<br />
Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> hipótesis(IV).<br />
Se obtiene el siguiente resultado:<br />
H<br />
0<br />
H : µ > 85<br />
Estadístico <strong>de</strong> contraste<br />
Lo que significa que como p-valor (0.00) es menor<br />
que el nivel <strong>de</strong> significación (0,05) entonces existe<br />
evi<strong>de</strong>ncia estadística <strong>de</strong> que los valores son<br />
mayores que 85, por lo que po<strong>de</strong>mos rechazar la<br />
hipótesis nula<br />
Sesión 2 CSI-Curso 2003/04 12<br />
1<br />
P-valor<br />
6
Tipo <strong>de</strong> contraste <strong>de</strong> hipótesis (V)<br />
Y si en el ejemplo anterior quisiésemos ver que la<br />
media es mayor que 91?<br />
Repitiendo los pasos anteriores se obtiene que pvalor<br />
es 1,00, con lo que no se podría rechazar la<br />
hipótesis nula. En este caso no se tiene más<br />
información, y habría que utilizar otros medios.<br />
Sesión 2 CSI-Curso 2003/04 13<br />
Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (VI)<br />
<strong>Contraste</strong> sobre µ con σ <strong>de</strong>sconocida.<br />
Usos:<br />
H 0 : µ = µ 0<br />
H : µ ≠ µ<br />
1<br />
0<br />
H 0 : µ = µ 0<br />
H : µ < µ<br />
Estadístico <strong>de</strong> contraste<br />
* x − µ<br />
t = ≈ t − Stu<strong>de</strong>nt(<br />
n −1)<br />
s n<br />
Aceptación<br />
1<br />
Si p-valor ≤ nivel <strong>de</strong> significación, rechazamos H 0<br />
Sesión 2 CSI-Curso 2003/04 14<br />
0<br />
H 0 : µ = µ 0<br />
H : µ > µ<br />
1<br />
0<br />
7
Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (VII)<br />
Ejemplo:<br />
Se están haciendo pruebas sobre un <strong>de</strong>terminado<br />
hardware para estudiar el rendimiento <strong>de</strong> cierto<br />
programa. Se estima que el rendimiento será<br />
aproximadamente <strong>de</strong> 90. Revisando 19 pruebas<br />
hechas hasta ahora, se <strong>de</strong>termina que el<br />
rendimiento es 83,24±11. Se <strong>de</strong>sea probar la<br />
hipótesis a nivel <strong>de</strong> significación <strong>de</strong>l 10%<br />
H0<br />
: µ = 90<br />
H : µ ≠ 90<br />
1<br />
Sesión 2 CSI-Curso 2003/04 15<br />
Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (VIII)<br />
Solución<br />
Es posible suponer que la población sigue una<br />
distribución normal X≈N(µ, σ), con lo que la media<br />
X<br />
muestral sigue también una normal:<br />
⎛<br />
X ≈ N⎜<br />
µ ,<br />
⎝<br />
Como no se conocen las <strong>de</strong>sviaciones estándar <strong>de</strong> las<br />
poblaciones se utilizará una t-stu<strong>de</strong>nt<br />
Sesión 2 CSI-Curso 2003/04 16<br />
S<br />
n<br />
⎞<br />
⎟<br />
⎠<br />
X ≈<br />
N ( µ ,<br />
)<br />
n<br />
8
Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (IX)<br />
Haciendo Stat Basic Statistics 1-Sample Z<br />
Sesión 2 CSI-Curso 2003/04 17<br />
Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (X)<br />
Se obtiene<br />
Como p-valor = 0.015 < 0.05, entonces se rechaza<br />
la hipótesis nula.<br />
Sesión 2 CSI-Curso 2003/04 18<br />
9
Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (XI)<br />
<strong>Contraste</strong> sobre probabilidad <strong>de</strong> éxito p en<br />
una binomial.<br />
Usos:<br />
H 0 : p = p0<br />
H 0 : p = p0<br />
H 0 : p = p0<br />
H1<br />
: p ≠ p0<br />
H1<br />
: p < p0<br />
H1<br />
: p > p0<br />
Estadístico <strong>de</strong> contraste<br />
La distribución X es aproximadamente normal(con n≥20)<br />
X ≈ N(<br />
np,<br />
np(<br />
1−<br />
p)<br />
Las muestras son aleatoria: *<br />
z =<br />
p'−<br />
p<br />
≈ N(<br />
0,<br />
1)<br />
p(<br />
1−<br />
p)<br />
n<br />
Aceptación<br />
Si p-valor ≤ nivel <strong>de</strong> significación, rechazamos H0 Sesión 2 CSI-Curso 2003/04 19<br />
Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (XII)<br />
Ejemplo<br />
Un portal e-business sabe que el 55% <strong>de</strong> sus<br />
visitantes quieren comprar pero son reacios al<br />
comercio electrónico. Pero se sabe que cada vez se<br />
aceptan más las compras por internet. Se sabe que<br />
86 <strong>de</strong> 200 visitantes estarían interesados en<br />
comprar. Contrasta a un nivel <strong>de</strong>l 5% si se pue<strong>de</strong><br />
contar con ese 55%.<br />
Sesión 2 CSI-Curso 2003/04 20<br />
10
Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (XIII)<br />
Solución<br />
Dado que n=200>20, entonces se pue<strong>de</strong> aproximar<br />
por una normal.<br />
H 0 : p = 0,<br />
55<br />
El contraste a realizar es: H1<br />
: p < 0,<br />
55<br />
Stat Basic Statistics 1 Proportion<br />
Sesión 2 CSI-Curso 2003/04 21<br />
Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (XIV)<br />
Se obtiene lo siguiente:<br />
De lo que se concluye que se pue<strong>de</strong> rechazar la<br />
hipótesis nula, y que efectivamente se tendrá<br />
menos <strong>de</strong>l 55% <strong>de</strong> los clientes y que con un nivel<br />
<strong>de</strong> confianza <strong>de</strong>l 95% se tendrá como máximo un<br />
48,75% <strong>de</strong> clientes<br />
Sesión 2 CSI-Curso 2003/04 22<br />
11
Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (XIV)<br />
<strong>Contraste</strong> <strong>de</strong> hipótesis <strong>de</strong> dos<br />
muestras <strong>de</strong>pendientes.<br />
Dos muestras son in<strong>de</strong>pendientes cuando se<br />
obtienen <strong>de</strong> individuos que no están<br />
interrelacionados entre sí.<br />
Se suelen realizar estos problemas para estudiar<br />
cómo afecta un factor sobre ellos<br />
Cambio <strong>de</strong>l rendimiento <strong>de</strong> un sistema al ampliar<br />
memoria, al cambiar la versión <strong>de</strong>l kernel, al corregir<br />
ciertos errores mediante parches en un software, ...<br />
Sesión 2 CSI-Curso 2003/04 23<br />
Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (XV)<br />
El contraste <strong>de</strong> hipótesis que se plantea es el<br />
siguiente:<br />
H0<br />
: µ A = µ B<br />
H : µ < µ ( ≠,<br />
> )<br />
1<br />
A<br />
B<br />
Esto suele plantearse también como la diferencia <strong>de</strong><br />
ambas muestras d=X A -X B, suponiendo que X A yX B<br />
siguen una distribución normal<br />
H<br />
0<br />
1<br />
: µ<br />
= 0<br />
d<br />
H : µ < 0(<br />
≠,<br />
> )<br />
d<br />
Sesión 2 CSI-Curso 2003/04 24<br />
12
Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (XVI)<br />
Don<strong>de</strong> el intervalo <strong>de</strong> confianza, a nivel 1- α para<br />
µ d =µ A -µ B viene dado por<br />
( ) d S n −1,<br />
α<br />
t d ± *<br />
2<br />
Siendo t(n-1, α/2) el valor que en una t-Stu<strong>de</strong>nt<br />
con n-1 grado <strong>de</strong> libertad, <strong>de</strong>ja a su <strong>de</strong>recha un<br />
área <strong>de</strong> α/2, y S d es la <strong>de</strong>sviación estándar<br />
muestral<br />
El estadístico <strong>de</strong> contraste es:<br />
d − µ d t*<br />
=<br />
S<br />
Sesión 2 CSI-Curso 2003/04 25<br />
Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (XVII)<br />
Ejemplo:<br />
Se quiere <strong>de</strong>terminar cuánto mejora el tiempo <strong>de</strong><br />
respuesta <strong>de</strong> un servidor <strong>de</strong> dominio si se le aña<strong>de</strong><br />
512 Mb más <strong>de</strong> memoria RAM. Se tienen datos <strong>de</strong><br />
antes y <strong>de</strong> <strong>de</strong>spués <strong>de</strong> distintos procesos:<br />
Antes: 93 106 87 92 102 95 88 110<br />
Después: 92 102 89 92 101 96 88 105<br />
¿Realmente mejora el rendimiento <strong>de</strong>l sistema?<br />
Suponed un nivel <strong>de</strong> significación <strong>de</strong>l 95% En el<br />
fichero servidordominio.mtw están los datos.<br />
Sesión 2 CSI-Curso 2003/04 26<br />
d<br />
13
Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (XVIII)<br />
Solución<br />
Calculamos mediante la calculadora la diferencia y<br />
la almacenamos en la columna diferencia.<br />
Sesión 2 CSI-Curso 2003/04 27<br />
Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (XIX)<br />
Como el estadístico <strong>de</strong> contraste es una t-stu<strong>de</strong>nt<br />
se utiliza 1-sampleT, con los datos almacenados en<br />
diferencia, y el criterio <strong>de</strong> la prueba es 0<br />
Sesión 2 CSI-Curso 2003/04 28<br />
14
Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (XX)<br />
Obteniéndose estos resultados:<br />
Como el p-valor (0,275)> 0,05, no se tienen<br />
evi<strong>de</strong>ncias estadísticas y se concluye que no se<br />
pue<strong>de</strong> <strong>de</strong>cir que mejore el tiempo <strong>de</strong> respuesta<br />
añadiéndole 512 MB más <strong>de</strong> RAM<br />
Sesión 2 CSI-Curso 2003/04 29<br />
Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (XXI)<br />
Otra forma <strong>de</strong> haber procedido hubiera sido utilizar<br />
Stat Basic Statistics Paired T<br />
Sesión 2 CSI-Curso 2003/04 30<br />
15
Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (XXII)<br />
<strong>Contraste</strong> <strong>de</strong> hipótesis en muestras<br />
in<strong>de</strong>pendientes<br />
<strong>Contraste</strong> <strong>de</strong> diferencia <strong>de</strong> medias en dos<br />
muestras in<strong>de</strong>pendientes<br />
Son necesarias tres suposiciones<br />
Las poblaciones muestreadas tienen una distribución<br />
normal<br />
Las dos muestras son in<strong>de</strong>pendientes<br />
Las <strong>de</strong>sviaciones estándar <strong>de</strong> ambas poblaciones son<br />
iguales.<br />
Sesión 2 CSI-Curso 2003/04 31<br />
Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (XXIII)<br />
<strong>Hipótesis</strong> a probar<br />
Dadas dos muestras in<strong>de</strong>pendientes se <strong>de</strong>sea comprobar si<br />
µ P1 =µ P2. El contraste <strong>de</strong> hipótesis será<br />
H<br />
0<br />
1<br />
: µ<br />
P1<br />
P1<br />
= µ<br />
Suponiendo que siguen una distribución normal, es posible<br />
afirmar que<br />
X<br />
− X<br />
Siendo<br />
XP1,<br />
XP2<br />
las medias <strong>de</strong> las muestras <strong>de</strong> P1 y P2<br />
n P1 y n P2 el número <strong>de</strong> individuos <strong>de</strong> la muestras P1 y P2<br />
Sesión 2 CSI-Curso 2003/04 32<br />
P2<br />
H : µ ≠ µ ( < , > )<br />
⎛<br />
≈ N⎜<br />
⎜<br />
µ P<br />
⎝<br />
P2<br />
− µ<br />
P1<br />
P2<br />
1 P2<br />
,<br />
σ<br />
2<br />
P1<br />
n<br />
P1<br />
2<br />
σ<br />
+ P<br />
2<br />
n<br />
P2<br />
⎞<br />
⎟<br />
⎠<br />
16
Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (XXIV)<br />
El intervalo <strong>de</strong> confianza (1-α) para µ P1 -µ P2 , viene<br />
dado por la expresión<br />
( X P n 2<br />
1 − X P2<br />
) ± t(min{<br />
nP1<br />
−1,<br />
P −1},<br />
α / 2)<br />
Siendo el estadístico <strong>de</strong> contraste<br />
( X P1<br />
− X P2<br />
) − ( µ P1<br />
− µ P2<br />
) Ho<br />
t*<br />
= ≈ t(min{<br />
n 1 −1,<br />
2 −1},<br />
α / 2)<br />
2<br />
2<br />
P nP<br />
SP1<br />
+<br />
SP<br />
2<br />
n n<br />
P1<br />
P2<br />
Sesión 2 CSI-Curso 2003/04 33<br />
Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (XXV)<br />
Ejemplo<br />
Se hace un experimento para comprobar qué<br />
procesadores son más rápidos, si los Pentium o sus<br />
equivalentes AMD. Se han hecho pruebas sobre 61<br />
equipos y se ha obtenido que para los Pentiums se<br />
tuvo una media muestral <strong>de</strong> 110±5,92 y para los<br />
AMD se obtuvo 100 ±5,10. ¿Pue<strong>de</strong> asegurarse al<br />
95% que los dos tipos <strong>de</strong> procesadores tienen la<br />
misma productividad?<br />
Sesión 2 CSI-Curso 2003/04 34<br />
17
Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (XXVI)<br />
Solución<br />
Siendo la hipótesis<br />
H<br />
H<br />
0<br />
1<br />
Pentium<br />
Pentium<br />
≠ µ<br />
Y aplicamos StatBasic Statistics 2 Sample T<br />
Sesión 2 CSI-Curso 2003/04 35<br />
: µ<br />
: µ<br />
= µ<br />
AMD<br />
AMD<br />
Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (XXVII)<br />
Se obtendría el siguiente resultado:<br />
Don<strong>de</strong> pue<strong>de</strong> apreciarse que el p-valor es menor<br />
que 0.05, con lo que se rechaza la hipótesis <strong>de</strong> que<br />
las medias <strong>de</strong> velocida<strong>de</strong>s <strong>de</strong> uno y otro sean<br />
iguales<br />
Sesión 2 CSI-Curso 2003/04 36<br />
18
Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (XXVIII)<br />
<strong>Contraste</strong> <strong>de</strong> diferencia <strong>de</strong> proporciones en<br />
dos muestras in<strong>de</strong>pendientes<br />
Sirven para comprobar si hay diferencias o no entre<br />
las proporciones <strong>de</strong> errores entre dos métodos.<br />
Sea P A la proporción <strong>de</strong> errores (poblacionales)<br />
cometidos con un método A y P B la proporción <strong>de</strong><br />
errores cometidos con el otro método B. La hipótesis<br />
a probar es:<br />
H<br />
H<br />
0<br />
1<br />
: P<br />
: P<br />
A<br />
A<br />
= PB<br />
≠ P ( < , > )<br />
B<br />
Sesión 2 CSI-Curso 2003/04 37<br />
Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (XXIX)<br />
Sean<br />
X α el número <strong>de</strong> errores al realizar n α pruebas en el<br />
método α y sea P α = X α /n α las proporciones <strong>de</strong> error<br />
<strong>de</strong> cada muestra.<br />
Para muestras suficientemente gran<strong>de</strong>s (n α >30) se<br />
pue<strong>de</strong> <strong>de</strong>mostrar que<br />
(<br />
p<br />
P<br />
A<br />
− p<br />
P<br />
B<br />
⎛<br />
⎜<br />
PP<br />
( 1−<br />
P −<br />
A P ) P<br />
A P ( 1 P<br />
B<br />
) ≈ N P<br />
− P<br />
+<br />
A P , B ⎜<br />
⎝<br />
nP<br />
n<br />
A<br />
PB<br />
Sesión 2 CSI-Curso 2003/04 38<br />
P<br />
B<br />
) ⎞<br />
⎟<br />
⎟<br />
⎠<br />
19
Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (XXIX)<br />
Para muestras gran<strong>de</strong>s, es posible aproximar X α<br />
como una normal:<br />
Xα ≈ N(<br />
nα<br />
Pα<br />
, nα<br />
Pα<br />
( 1−<br />
Pα<br />
)<br />
Con lo que el intervalo <strong>de</strong> confianza a nivel 1-α<br />
para P PA -P PB viene dada por:<br />
( p<br />
P<br />
A<br />
− p<br />
P<br />
B<br />
( ) ⎟ ⎟<br />
⎛ ⎞<br />
⎜<br />
P<br />
( 1−<br />
P −<br />
A P ) P<br />
A P ( 1 P<br />
B P ) B<br />
) ± z α<br />
+<br />
2 ⎜<br />
⎝<br />
nP<br />
n<br />
A<br />
PB<br />
⎠<br />
Sesión 2 CSI-Curso 2003/04 39<br />
Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (XXX)<br />
Siendo el estadístico <strong>de</strong> contraste la normal:<br />
Z*<br />
=<br />
( P<br />
A − P<br />
) B<br />
⎛<br />
' '<br />
− ⎜<br />
1<br />
P<br />
( 1 P<br />
)<br />
⎜<br />
⎝<br />
nPA<br />
1 ⎞<br />
+ ⎟<br />
n ⎟<br />
PB<br />
⎠<br />
Siendo<br />
P<br />
'<br />
P<br />
=<br />
n<br />
A<br />
P<br />
P<br />
n<br />
A<br />
A<br />
+ n<br />
+ n<br />
Sesión 2 CSI-Curso 2003/04 40<br />
B<br />
B<br />
P<br />
P<br />
B<br />
20
Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (XXXI)<br />
Ejemplo:<br />
Una empresa <strong>de</strong> software aplica dos métodos para<br />
para eliminar errores, Inspecciones y Evaluaciones.<br />
Con el primer método se han eliminado 58 errores<br />
en 2 KLC, y con el segundo se han eliminado 61 en<br />
2,5 KLC ¿Hay diferencias significativas entre los dos<br />
métodos?<br />
Sesión 2 CSI-Curso 2003/04 41<br />
Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (XXXII)<br />
Solución<br />
Vamos a calcular un intervalo para la diferencia <strong>de</strong><br />
proporciones <strong>de</strong> los dos métodos. Para ello<br />
aplicamos Stat Basic Statistics 2 Proportions<br />
Sesión 2 CSI-Curso 2003/04 42<br />
21
Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (XXXIII)<br />
Obtenemos el siguiente resultado:<br />
Como se ve el estadístico <strong>de</strong> contraste es x=0,96 con pvalor=0,344<br />
> 0,05, con lo que no se pue<strong>de</strong> <strong>de</strong>scartar la<br />
hipótesis nula <strong>de</strong> que los dos métodos son igual <strong>de</strong><br />
productivos<br />
Sesión 2 CSI-Curso 2003/04 43<br />
Ejercicio 1<br />
Problema<br />
Invéntate un problema tipo para cada uno <strong>de</strong> los<br />
tipos <strong>de</strong> hipótesis <strong>de</strong> contraste explicados en las<br />
prácticas<br />
Resuélvelos explicando la justificación teórica y los<br />
pasos que se dan.<br />
Sesión 2 CSI-Curso 2003/04 44<br />
22
Ejercicio 2<br />
Problema<br />
Se sabe que los datos que maneja una empresa<br />
tienen un valor medio <strong>de</strong> actualidad <strong>de</strong> 80 unida<strong>de</strong>s<br />
con una <strong>de</strong>sviación típica <strong>de</strong> 0,6. Se quiere estudiar si<br />
el proceso <strong>de</strong> recogida <strong>de</strong> datos funciona<br />
correctamente, para los que se toman 20 muestras<br />
recogidas en el fichero actualidad.mtw, que tiene una<br />
media <strong>de</strong> 80,288 y una <strong>de</strong>sviación <strong>de</strong>l 0,653. Se pi<strong>de</strong><br />
¿Es la diferencia estadísticamente significativa? (α=0,5)<br />
Suponed que no se conoce σ<br />
Sesión 2 CSI-Curso 2003/04 45<br />
Ejercicio 3<br />
Problema<br />
Una empresa ha impartido una serie <strong>de</strong> cursos <strong>de</strong><br />
perfeccionamiento a quince <strong>de</strong> sus programadores.<br />
Se ha estudiado la productividad en número <strong>de</strong><br />
errores por KLOC antes y <strong>de</strong>spués <strong>de</strong>l curso y se<br />
recogen en el fichero productividad.mtw ¿ha valido<br />
el curso para algo?<br />
Calcula con un 95% aplicando la diferencia <strong>de</strong> las<br />
medias y aplicando Paired T<br />
Muestra un gráfico apropiado para mostrar el<br />
resultado<br />
Sesión 2 CSI-Curso 2003/04 46<br />
23
Ejercicio 4<br />
Problema<br />
Un antivirus utiliza dos heurísticas para la <strong>de</strong>tección<br />
<strong>de</strong> virus. Con una primera heurística se tarda en<br />
analizar un disco duro <strong>de</strong> 40 Gb 12,1 minutos y con<br />
la otra heurística se tardan 11,2 minutos<br />
<strong>de</strong>tectando los 10 virus que se habían insertado.<br />
Demostrar analíticamente cuál es la mejor<br />
heurística con α=0,05<br />
Sesión 2 CSI-Curso 2003/04 47<br />
Ejercicio 5<br />
Problema<br />
Se están evaluando dos marcas diferentes <strong>de</strong><br />
disquetes. Para ello se han tomado 150 unida<strong>de</strong>s<br />
<strong>de</strong> cada una <strong>de</strong> ellas. De la marca A se han<br />
registrado 15 unida<strong>de</strong>s <strong>de</strong>fectuosas, y <strong>de</strong> la marca<br />
B se ha registrado 6 unida<strong>de</strong>s <strong>de</strong>fectuosas. Calcular<br />
con un intervalo <strong>de</strong> confianza <strong>de</strong>l 95% si la<br />
diferencia <strong>de</strong> proporciones es significativa. Repetir<br />
los cálculos con un intervalo <strong>de</strong>l 99%.<br />
Sesión 2 CSI-Curso 2003/04 48<br />
24
Ejercicio 6<br />
Problema<br />
Dos marcas <strong>de</strong> monitores distintas aguantan 87000<br />
y 90000 horas <strong>de</strong> funcionamiento, con una<br />
<strong>de</strong>sviación típica <strong>de</strong> 22,33 y 20 horas<br />
respectivamente. Se han comprado en la<br />
organización 10 monitores <strong>de</strong> una marca y 15 <strong>de</strong><br />
otra. ¿Existe evi<strong>de</strong>ncia estadística para afirmar que<br />
las dos marca <strong>de</strong> monitores van a tener un<br />
duración similar? ¿Qué diferencia en la duración se<br />
pue<strong>de</strong> <strong>de</strong>tectar con una probabilidad <strong>de</strong>l 90%?<br />
Sesión 2 CSI-Curso 2003/04 49<br />
<strong>Métodos</strong> <strong>ANOVA</strong><br />
Definición<br />
Se utilizará el método <strong>ANOVA</strong> para contrastar la<br />
hipótesis nula <strong>de</strong> que las medias <strong>de</strong> distintas<br />
poblaciones coinci<strong>de</strong>n:<br />
Ho=µ 1 =µ 2 =µ 3 =...=µ k<br />
Esto es equivalente a probar las k-ésimas hipótesis<br />
Surgen dos problemas<br />
Se requiere un gran esfuerzo computacional<br />
Pue<strong>de</strong> aumentar consi<strong>de</strong>rablemente el error <strong>de</strong> tipo I<br />
Estos problemas se pue<strong>de</strong> resolver usando <strong>ANOVA</strong><br />
Sesión 2 CSI-Curso 2003/04 50<br />
25
Método <strong>ANOVA</strong> (II)<br />
El objetivo principal <strong>de</strong> muchos experimentos<br />
consiste en <strong>de</strong>terminar el efecto que alguna variable<br />
<strong>de</strong>pendiente Y tienen distintos niveles <strong>de</strong> algún<br />
factor X (variable in<strong>de</strong>pendiente y discreta)<br />
Sesión 2 CSI-Curso 2003/04 51<br />
Método <strong>ANOVA</strong> (III)<br />
Tipos <strong>ANOVA</strong><br />
One-Way <strong>ANOVA</strong> (Análisis Simple <strong>de</strong> la<br />
Varianza)<br />
El diseño para el análisis simple <strong>de</strong> la varianza<br />
consistirá en obtener muestras aleatorias e<br />
in<strong>de</strong>pendientes <strong>de</strong>l valor <strong>de</strong> Y asociado a cada uno<br />
<strong>de</strong> los distintos niveles <strong>de</strong>l factor X 1 , X 2 , ...,X k<br />
El funcionamiento <strong>de</strong> <strong>ANOVA</strong> es a fin <strong>de</strong> comparar<br />
las medias <strong>de</strong> Y asociadas a los distintos niveles <strong>de</strong>l<br />
factor (X 1 , X 2 , ...,X k ) se comparará una medida <strong>de</strong> la<br />
variación entre diferentes niveles (MS-Factor) con<br />
una variación <strong>de</strong>ntro <strong>de</strong> cada nivel (MS-Error)<br />
Sesión 2 CSI-Curso 2003/04 52<br />
26
Método <strong>ANOVA</strong> (IV)<br />
Si MS-Factor > MS-Error, entonces las medidas<br />
asociadas a diferentes niveles son distintas El<br />
factor influye significativamente sobre la variable<br />
<strong>de</strong>pendiente Y.<br />
Si MS-Factor no influye significativamente en el MS-<br />
Error, no se rechazará la hipótesis nula <strong>de</strong> que todas<br />
las medias coinci<strong>de</strong>n.<br />
Sesión 2 CSI-Curso 2003/04 53<br />
Método <strong>ANOVA</strong> (V)<br />
Ejemplo<br />
Se <strong>de</strong>sea estudiar la <strong>de</strong>pen<strong>de</strong>ncia o no <strong>de</strong> una<br />
métrica <strong>de</strong> complejidad <strong>de</strong> bases <strong>de</strong> datos <strong>de</strong>l<br />
factor conocimiento. Para ello se han seleccionado<br />
aleatoriamente datos <strong>de</strong> 11 alumnos a los que se<br />
les han entregado 5 y se ha medido en minutos el<br />
tiempo que tardaba cada uno en hacerlo. Los datos<br />
están en el fichero metricasbbdd.mtw.¿Pueda<br />
<strong>de</strong>cirse que influya <strong>de</strong>cisivamente?<br />
Sesión 2 CSI-Curso 2003/04 54<br />
27
Método <strong>ANOVA</strong> (VI)<br />
Solución<br />
La hipótesis que hay que probar es si para todos los<br />
alumnos la media <strong>de</strong> complejidad es la misma. Para<br />
ello se realizará un <strong>ANOVA</strong> simple (es uno solo el<br />
factor que tenemos que estudiar)<br />
Hay dos formas <strong>de</strong> trabajar esta opción en Minitab<br />
14: bien compactando todos los datos en una<br />
columna e indicando el tamaño <strong>de</strong> las muestras o<br />
bien utilizando la opción Stat <strong>ANOVA</strong> One<br />
Way (Unstacked) que permite tomar las respuestas<br />
<strong>de</strong> diferentes columnas.<br />
Sesión 2 CSI-Curso 2003/04 55<br />
Método <strong>ANOVA</strong> (VII)<br />
Como los datos están en columnas, parece más<br />
cómodo usar esta última opción, sino habría que<br />
compactando todos los datos con Data Stack <br />
Columns. Usamos por simplicidad la opción<br />
Unstacked, y completamos los datos:<br />
Sesión 2 CSI-Curso 2003/04 56<br />
28
Método <strong>ANOVA</strong> (VIII)<br />
Como pue<strong>de</strong> verse en el output el p-valor es menor<br />
que 0,05, con lo que se pue<strong>de</strong> rechazar la hipótesis<br />
nula <strong>de</strong> que todas las medias son iguales,<br />
quedando claro que el factor conocimiento influye<br />
<strong>de</strong>cisivamente<br />
Sesión 2 CSI-Curso 2003/04 57<br />
Método <strong>ANOVA</strong> (IX)<br />
Two-Way <strong>ANOVA</strong> (Análisis Doble <strong>de</strong> la<br />
Varianza)<br />
Se utilizará para estudiar posibles efectos causados<br />
por dos factores sobre la variable <strong>de</strong>pendiente.<br />
Se usará <strong>ANOVA</strong> doble para contrastar para cada<br />
uno <strong>de</strong> los factores, la hipótesis nula <strong>de</strong> que el<br />
resultado <strong>de</strong> la variable <strong>de</strong>pendiente no <strong>de</strong>pen<strong>de</strong> <strong>de</strong>l<br />
factor.<br />
Sesión 2 CSI-Curso 2003/04 58<br />
29
Método <strong>ANOVA</strong> (X)<br />
Ejemplo<br />
Una administrador <strong>de</strong> bases <strong>de</strong> datos realiza un<br />
experimento en el que se comprobaron las<br />
habilida<strong>de</strong>s <strong>de</strong> varios usuarios manejando la base<br />
<strong>de</strong> datos. Las medidas están en el fichero<br />
administrador.mtw. Se consi<strong>de</strong>ran dos clases <strong>de</strong><br />
usuario, expertos e inexpertos, y tres tipos <strong>de</strong><br />
consultas: <strong>de</strong> selección, <strong>de</strong> inserción y <strong>de</strong><br />
actualización. Cada uno cometió una serie <strong>de</strong><br />
errores. Se quiere comprobar si el número <strong>de</strong><br />
errores <strong>de</strong>pen<strong>de</strong> <strong>de</strong>l tipo <strong>de</strong> consulta.<br />
Sesión 2 CSI-Curso 2003/04 59<br />
Método <strong>ANOVA</strong> (XI)<br />
Solución<br />
Haciendo Stat <strong>ANOVA</strong> Balanced <strong>ANOVA</strong> o<br />
Two-Way <strong>ANOVA</strong><br />
Sesión 2 CSI-Curso 2003/04 60<br />
30
Método <strong>ANOVA</strong> (XII)<br />
Se obtienen los siguientes resultados:<br />
Como p-valor > 0,05 en ambos casos, no se pue<strong>de</strong> concluir<br />
con los datos que se tienen que la experiencia o el tipo <strong>de</strong><br />
consulta influyan <strong>de</strong>cisivamente en el resultado (es <strong>de</strong>cir, no<br />
po<strong>de</strong>mos rechazar la hipótesis nula)<br />
Sesión 2 CSI-Curso 2003/04 61<br />
Ejercicio 7<br />
Problemas<br />
Inventa un ejemplo <strong>de</strong> influencia <strong>de</strong> factor sobre<br />
una variable <strong>de</strong> tu sistema <strong>de</strong> información para<br />
estudiar con un <strong>ANOVA</strong> simple.<br />
Resuelve dicho problema.<br />
Inventa un ejemplo <strong>de</strong> influencia <strong>de</strong> dos factores<br />
sobre una variable <strong>de</strong> tu sistema <strong>de</strong> información<br />
para estudiar con un <strong>ANOVA</strong> doble.<br />
Resuelve dicho problema.<br />
Sesión 2 CSI-Curso 2003/04 62<br />
31
Ejercicio 8<br />
Problema<br />
Se <strong>de</strong>sea saber si el tamaño <strong>de</strong> los ficheros influye<br />
en el grado <strong>de</strong> fragmentación externa <strong>de</strong> diferentes<br />
sistemas <strong>de</strong> ficheros. Para ello se han hecho<br />
pruebas <strong>de</strong> lectura/escritura <strong>de</strong> cinco ficheros <strong>de</strong><br />
tamaño diferente en 10 sistemas <strong>de</strong> ficheros. Los<br />
datos están almacenados en el fichero<br />
SistemaFicheros.mtw. De dichos datos ¿qué se<br />
pue<strong>de</strong> concluir?<br />
Sesión 2 CSI-Curso 2003/04 63<br />
Problema 9<br />
Ejercicio<br />
Se quiere estudiar cómo influye la edad y el sexo<br />
en la asimilación <strong>de</strong> un nuevo lenguaje <strong>de</strong><br />
programación. Para ello en el fichero<br />
programadores.mtw se han almacenado los datos<br />
correspondiente al sexo y nivel <strong>de</strong> experiencia y<br />
tiempo <strong>de</strong> aprendizaje <strong>de</strong> 24 programadores. Se<br />
quiere saber si el sexo o el nivel <strong>de</strong> experiencia<br />
influyen en la capacidad <strong>de</strong> aprendizaje<br />
Sesión 2 CSI-Curso 2003/04 64<br />
32