13.08.2013 Views

Contraste de Hipótesis. Métodos ANOVA

Contraste de Hipótesis. Métodos ANOVA

Contraste de Hipótesis. Métodos ANOVA

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Prácticas <strong>de</strong> Calidad <strong>de</strong> Sistemas <strong>de</strong> Información<br />

Sesión 2:<br />

<strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong>. <strong>Métodos</strong><br />

<strong>ANOVA</strong><br />

5º Curso <strong>de</strong> Ingeniería<br />

Informática<br />

Perfil Sistemas <strong>de</strong> Información<br />

Ciudad Real<br />

Curso 2003/04<br />

Sesión 2 CSI-Curso 2003/04 1<br />

Contenido<br />

<strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong><br />

Definición, elementos<br />

Relación con la calidad<br />

Tipos <strong>de</strong> contraste <strong>de</strong> hipótesis.<br />

Sobre una población<br />

Sobre dos poblaciones<br />

<strong>Métodos</strong> <strong>ANOVA</strong><br />

Estudio <strong>de</strong> influencia <strong>de</strong> factores.<br />

Relación entre<br />

Sesión 2 CSI-Curso 2003/04 2<br />

1


<strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong><br />

Definición<br />

Procedimiento estadístico que se basa en elegir<br />

entre dos opciones o hipótesis <strong>de</strong> trabajo posibles y<br />

antagónicas.<br />

Consiste en aceptar o rechazar una hipótesis sobre<br />

el valor <strong>de</strong> algún parámetro poblacional,<br />

normalmente la media.<br />

En calidad va a servir para estudiar cómo la<br />

aplicación <strong>de</strong> un factor ha afectado al parámetro<br />

poblacional elegido.<br />

Sesión 2 CSI-Curso 2003/04 3<br />

<strong>Contraste</strong> <strong>de</strong> hipótesis (II)<br />

A una <strong>de</strong> ellas se le acepta como verda<strong>de</strong>ra (hipótesis nula<br />

H 0 ) y se tratará <strong>de</strong> <strong>de</strong>terminar si no se comete ningún error<br />

aceptándola o rechazándola.<br />

H 0 : µ=µ 0<br />

H 1 : µ≠µ 0<br />

Pasos:<br />

1. I<strong>de</strong>ntificar el parámetro <strong>de</strong> interés<br />

2. Definir las hipótesis nula y la alternativa<br />

3. Elegir un nivel <strong>de</strong> significación<br />

4. Fijar el test estadístico <strong>de</strong> contraste apropiado<br />

5. Fijar la región <strong>de</strong> rechazo apropiada<br />

6. Determinar si se acepta o no la hipótesis nula.<br />

Sesión 2 CSI-Curso 2003/04 4<br />

2


<strong>Contraste</strong> <strong>de</strong> hipótesis (III)<br />

Conceptos<br />

Parámetro o estadístico <strong>de</strong> contraste<br />

Es la variable aleatoria que se preten<strong>de</strong> estudiar.<br />

Decisión Correcta :<br />

De Tipo A: cuando no se <strong>de</strong>scarte H 0 siendo cierta<br />

De Tipo B: cuando se <strong>de</strong>scarte H 0 siendo falsa<br />

Errores:<br />

De tipo I: cuando hayamos <strong>de</strong>scartado H 0 siendo cierta. La<br />

probabilidad <strong>de</strong> cometerlo es α, también conocido como nivel<br />

<strong>de</strong> significación.<br />

De tipo II: cuando no hayamos <strong>de</strong>scartado H 0 siendo falsa. La<br />

probabilidad <strong>de</strong> cometerlo es β.<br />

Potencia <strong>de</strong>l contraste,<br />

Es la probabilidad <strong>de</strong> rechazar H 0 siendo falsa: 1- β<br />

Sesión 2 CSI-Curso 2003/04 5<br />

<strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (IV)<br />

Concepto <strong>de</strong> p-valor<br />

Es la probabilidad <strong>de</strong> que suponiendo cierta H 0 , el<br />

estadístico <strong>de</strong> contraste tome un valor al menos tan<br />

extremos como el que se obtiene a partir <strong>de</strong> los<br />

valores muestrales:<br />

El p-valor sólo pue<strong>de</strong> calcularse una vez tomada la muestra,<br />

obteniéndose valores críticos para cada muestra<br />

El p-valor pue<strong>de</strong> interpretarse como un nivel mínimo <strong>de</strong><br />

significación en el sentido <strong>de</strong> que niveles <strong>de</strong> significación α<br />

iguales o superiores al p-valor llevarán a rechazar la<br />

hipótesis nula<br />

Cuanto menor sea el p-valor, mayor es el grado<br />

<strong>de</strong> incompatibilidad <strong>de</strong> la muestra con H 0 , lo que<br />

lleva a rechazar H 0<br />

El cálculo <strong>de</strong>l p-valor no proporciona <strong>de</strong> modo sistemático<br />

una <strong>de</strong>cisión entre H 0 y H 1<br />

Sesión 2 CSI-Curso 2003/04 6<br />

3


<strong>Contraste</strong> <strong>de</strong> hipótesis (V)<br />

Tipos <strong>de</strong> Error<br />

Decisión Tomada Verda<strong>de</strong>ra<br />

Falsa<br />

No <strong>de</strong>scartar H 0<br />

Descartar H 0<br />

Decisión correcta <strong>de</strong> tipo A<br />

Probabilidad 1-α<br />

Error <strong>de</strong> tipo I<br />

Probabilidad α<br />

Error <strong>de</strong> tipo II<br />

Probabilidad β<br />

Decisión correcta <strong>de</strong> tipo A<br />

Probabilidad 1- β<br />

Sesión 2 CSI-Curso 2003/04 7<br />

<strong>Contraste</strong> <strong>de</strong> hipótesis (VI)<br />

Relación con la calidad<br />

<strong>Hipótesis</strong> Nula H 0<br />

Es posible utilizar contraste <strong>de</strong> hipótesis para:<br />

Validar que los resultados <strong>de</strong> los procesos están<br />

ocurriendo como se preveía<br />

Estudiar cómo afectan ciertos factores a los<br />

estadísticos <strong>de</strong> control<br />

Sesión 2 CSI-Curso 2003/04 8<br />

4


Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong><br />

<strong>Contraste</strong> sobre µ con σ conocida.<br />

Usos:<br />

H : µ = µ H : µ = µ<br />

0<br />

Aceptación<br />

0<br />

H1<br />

: µ ≠ µ 0 H1<br />

: µ < µ 0<br />

Estadístico <strong>de</strong> contraste<br />

Si H 1 contiene “>” ⇒ p-valor= P(Z>z*)<br />

Si H 1 contiene “


Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (III)<br />

Solución<br />

Se conocen tanto µ como σ<br />

El contraste <strong>de</strong> hipótesis a realizar es:<br />

Stat Basic Statistics 1-Sample Z<br />

: µ = 85<br />

Sesión 2 CSI-Curso 2003/04 11<br />

Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> hipótesis(IV).<br />

Se obtiene el siguiente resultado:<br />

H<br />

0<br />

H : µ > 85<br />

Estadístico <strong>de</strong> contraste<br />

Lo que significa que como p-valor (0.00) es menor<br />

que el nivel <strong>de</strong> significación (0,05) entonces existe<br />

evi<strong>de</strong>ncia estadística <strong>de</strong> que los valores son<br />

mayores que 85, por lo que po<strong>de</strong>mos rechazar la<br />

hipótesis nula<br />

Sesión 2 CSI-Curso 2003/04 12<br />

1<br />

P-valor<br />

6


Tipo <strong>de</strong> contraste <strong>de</strong> hipótesis (V)<br />

Y si en el ejemplo anterior quisiésemos ver que la<br />

media es mayor que 91?<br />

Repitiendo los pasos anteriores se obtiene que pvalor<br />

es 1,00, con lo que no se podría rechazar la<br />

hipótesis nula. En este caso no se tiene más<br />

información, y habría que utilizar otros medios.<br />

Sesión 2 CSI-Curso 2003/04 13<br />

Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (VI)<br />

<strong>Contraste</strong> sobre µ con σ <strong>de</strong>sconocida.<br />

Usos:<br />

H 0 : µ = µ 0<br />

H : µ ≠ µ<br />

1<br />

0<br />

H 0 : µ = µ 0<br />

H : µ < µ<br />

Estadístico <strong>de</strong> contraste<br />

* x − µ<br />

t = ≈ t − Stu<strong>de</strong>nt(<br />

n −1)<br />

s n<br />

Aceptación<br />

1<br />

Si p-valor ≤ nivel <strong>de</strong> significación, rechazamos H 0<br />

Sesión 2 CSI-Curso 2003/04 14<br />

0<br />

H 0 : µ = µ 0<br />

H : µ > µ<br />

1<br />

0<br />

7


Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (VII)<br />

Ejemplo:<br />

Se están haciendo pruebas sobre un <strong>de</strong>terminado<br />

hardware para estudiar el rendimiento <strong>de</strong> cierto<br />

programa. Se estima que el rendimiento será<br />

aproximadamente <strong>de</strong> 90. Revisando 19 pruebas<br />

hechas hasta ahora, se <strong>de</strong>termina que el<br />

rendimiento es 83,24±11. Se <strong>de</strong>sea probar la<br />

hipótesis a nivel <strong>de</strong> significación <strong>de</strong>l 10%<br />

H0<br />

: µ = 90<br />

H : µ ≠ 90<br />

1<br />

Sesión 2 CSI-Curso 2003/04 15<br />

Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (VIII)<br />

Solución<br />

Es posible suponer que la población sigue una<br />

distribución normal X≈N(µ, σ), con lo que la media<br />

X<br />

muestral sigue también una normal:<br />

⎛<br />

X ≈ N⎜<br />

µ ,<br />

⎝<br />

Como no se conocen las <strong>de</strong>sviaciones estándar <strong>de</strong> las<br />

poblaciones se utilizará una t-stu<strong>de</strong>nt<br />

Sesión 2 CSI-Curso 2003/04 16<br />

S<br />

n<br />

⎞<br />

⎟<br />

⎠<br />

X ≈<br />

N ( µ ,<br />

)<br />

n<br />

8


Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (IX)<br />

Haciendo Stat Basic Statistics 1-Sample Z<br />

Sesión 2 CSI-Curso 2003/04 17<br />

Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (X)<br />

Se obtiene<br />

Como p-valor = 0.015 < 0.05, entonces se rechaza<br />

la hipótesis nula.<br />

Sesión 2 CSI-Curso 2003/04 18<br />

9


Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (XI)<br />

<strong>Contraste</strong> sobre probabilidad <strong>de</strong> éxito p en<br />

una binomial.<br />

Usos:<br />

H 0 : p = p0<br />

H 0 : p = p0<br />

H 0 : p = p0<br />

H1<br />

: p ≠ p0<br />

H1<br />

: p < p0<br />

H1<br />

: p > p0<br />

Estadístico <strong>de</strong> contraste<br />

La distribución X es aproximadamente normal(con n≥20)<br />

X ≈ N(<br />

np,<br />

np(<br />

1−<br />

p)<br />

Las muestras son aleatoria: *<br />

z =<br />

p'−<br />

p<br />

≈ N(<br />

0,<br />

1)<br />

p(<br />

1−<br />

p)<br />

n<br />

Aceptación<br />

Si p-valor ≤ nivel <strong>de</strong> significación, rechazamos H0 Sesión 2 CSI-Curso 2003/04 19<br />

Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (XII)<br />

Ejemplo<br />

Un portal e-business sabe que el 55% <strong>de</strong> sus<br />

visitantes quieren comprar pero son reacios al<br />

comercio electrónico. Pero se sabe que cada vez se<br />

aceptan más las compras por internet. Se sabe que<br />

86 <strong>de</strong> 200 visitantes estarían interesados en<br />

comprar. Contrasta a un nivel <strong>de</strong>l 5% si se pue<strong>de</strong><br />

contar con ese 55%.<br />

Sesión 2 CSI-Curso 2003/04 20<br />

10


Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (XIII)<br />

Solución<br />

Dado que n=200>20, entonces se pue<strong>de</strong> aproximar<br />

por una normal.<br />

H 0 : p = 0,<br />

55<br />

El contraste a realizar es: H1<br />

: p < 0,<br />

55<br />

Stat Basic Statistics 1 Proportion<br />

Sesión 2 CSI-Curso 2003/04 21<br />

Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (XIV)<br />

Se obtiene lo siguiente:<br />

De lo que se concluye que se pue<strong>de</strong> rechazar la<br />

hipótesis nula, y que efectivamente se tendrá<br />

menos <strong>de</strong>l 55% <strong>de</strong> los clientes y que con un nivel<br />

<strong>de</strong> confianza <strong>de</strong>l 95% se tendrá como máximo un<br />

48,75% <strong>de</strong> clientes<br />

Sesión 2 CSI-Curso 2003/04 22<br />

11


Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (XIV)<br />

<strong>Contraste</strong> <strong>de</strong> hipótesis <strong>de</strong> dos<br />

muestras <strong>de</strong>pendientes.<br />

Dos muestras son in<strong>de</strong>pendientes cuando se<br />

obtienen <strong>de</strong> individuos que no están<br />

interrelacionados entre sí.<br />

Se suelen realizar estos problemas para estudiar<br />

cómo afecta un factor sobre ellos<br />

Cambio <strong>de</strong>l rendimiento <strong>de</strong> un sistema al ampliar<br />

memoria, al cambiar la versión <strong>de</strong>l kernel, al corregir<br />

ciertos errores mediante parches en un software, ...<br />

Sesión 2 CSI-Curso 2003/04 23<br />

Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (XV)<br />

El contraste <strong>de</strong> hipótesis que se plantea es el<br />

siguiente:<br />

H0<br />

: µ A = µ B<br />

H : µ < µ ( ≠,<br />

> )<br />

1<br />

A<br />

B<br />

Esto suele plantearse también como la diferencia <strong>de</strong><br />

ambas muestras d=X A -X B, suponiendo que X A yX B<br />

siguen una distribución normal<br />

H<br />

0<br />

1<br />

: µ<br />

= 0<br />

d<br />

H : µ < 0(<br />

≠,<br />

> )<br />

d<br />

Sesión 2 CSI-Curso 2003/04 24<br />

12


Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (XVI)<br />

Don<strong>de</strong> el intervalo <strong>de</strong> confianza, a nivel 1- α para<br />

µ d =µ A -µ B viene dado por<br />

( ) d S n −1,<br />

α<br />

t d ± *<br />

2<br />

Siendo t(n-1, α/2) el valor que en una t-Stu<strong>de</strong>nt<br />

con n-1 grado <strong>de</strong> libertad, <strong>de</strong>ja a su <strong>de</strong>recha un<br />

área <strong>de</strong> α/2, y S d es la <strong>de</strong>sviación estándar<br />

muestral<br />

El estadístico <strong>de</strong> contraste es:<br />

d − µ d t*<br />

=<br />

S<br />

Sesión 2 CSI-Curso 2003/04 25<br />

Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (XVII)<br />

Ejemplo:<br />

Se quiere <strong>de</strong>terminar cuánto mejora el tiempo <strong>de</strong><br />

respuesta <strong>de</strong> un servidor <strong>de</strong> dominio si se le aña<strong>de</strong><br />

512 Mb más <strong>de</strong> memoria RAM. Se tienen datos <strong>de</strong><br />

antes y <strong>de</strong> <strong>de</strong>spués <strong>de</strong> distintos procesos:<br />

Antes: 93 106 87 92 102 95 88 110<br />

Después: 92 102 89 92 101 96 88 105<br />

¿Realmente mejora el rendimiento <strong>de</strong>l sistema?<br />

Suponed un nivel <strong>de</strong> significación <strong>de</strong>l 95% En el<br />

fichero servidordominio.mtw están los datos.<br />

Sesión 2 CSI-Curso 2003/04 26<br />

d<br />

13


Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (XVIII)<br />

Solución<br />

Calculamos mediante la calculadora la diferencia y<br />

la almacenamos en la columna diferencia.<br />

Sesión 2 CSI-Curso 2003/04 27<br />

Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (XIX)<br />

Como el estadístico <strong>de</strong> contraste es una t-stu<strong>de</strong>nt<br />

se utiliza 1-sampleT, con los datos almacenados en<br />

diferencia, y el criterio <strong>de</strong> la prueba es 0<br />

Sesión 2 CSI-Curso 2003/04 28<br />

14


Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (XX)<br />

Obteniéndose estos resultados:<br />

Como el p-valor (0,275)> 0,05, no se tienen<br />

evi<strong>de</strong>ncias estadísticas y se concluye que no se<br />

pue<strong>de</strong> <strong>de</strong>cir que mejore el tiempo <strong>de</strong> respuesta<br />

añadiéndole 512 MB más <strong>de</strong> RAM<br />

Sesión 2 CSI-Curso 2003/04 29<br />

Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (XXI)<br />

Otra forma <strong>de</strong> haber procedido hubiera sido utilizar<br />

Stat Basic Statistics Paired T<br />

Sesión 2 CSI-Curso 2003/04 30<br />

15


Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (XXII)<br />

<strong>Contraste</strong> <strong>de</strong> hipótesis en muestras<br />

in<strong>de</strong>pendientes<br />

<strong>Contraste</strong> <strong>de</strong> diferencia <strong>de</strong> medias en dos<br />

muestras in<strong>de</strong>pendientes<br />

Son necesarias tres suposiciones<br />

Las poblaciones muestreadas tienen una distribución<br />

normal<br />

Las dos muestras son in<strong>de</strong>pendientes<br />

Las <strong>de</strong>sviaciones estándar <strong>de</strong> ambas poblaciones son<br />

iguales.<br />

Sesión 2 CSI-Curso 2003/04 31<br />

Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (XXIII)<br />

<strong>Hipótesis</strong> a probar<br />

Dadas dos muestras in<strong>de</strong>pendientes se <strong>de</strong>sea comprobar si<br />

µ P1 =µ P2. El contraste <strong>de</strong> hipótesis será<br />

H<br />

0<br />

1<br />

: µ<br />

P1<br />

P1<br />

= µ<br />

Suponiendo que siguen una distribución normal, es posible<br />

afirmar que<br />

X<br />

− X<br />

Siendo<br />

XP1,<br />

XP2<br />

las medias <strong>de</strong> las muestras <strong>de</strong> P1 y P2<br />

n P1 y n P2 el número <strong>de</strong> individuos <strong>de</strong> la muestras P1 y P2<br />

Sesión 2 CSI-Curso 2003/04 32<br />

P2<br />

H : µ ≠ µ ( < , > )<br />

⎛<br />

≈ N⎜<br />

⎜<br />

µ P<br />

⎝<br />

P2<br />

− µ<br />

P1<br />

P2<br />

1 P2<br />

,<br />

σ<br />

2<br />

P1<br />

n<br />

P1<br />

2<br />

σ<br />

+ P<br />

2<br />

n<br />

P2<br />

⎞<br />

⎟<br />

⎠<br />

16


Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (XXIV)<br />

El intervalo <strong>de</strong> confianza (1-α) para µ P1 -µ P2 , viene<br />

dado por la expresión<br />

( X P n 2<br />

1 − X P2<br />

) ± t(min{<br />

nP1<br />

−1,<br />

P −1},<br />

α / 2)<br />

Siendo el estadístico <strong>de</strong> contraste<br />

( X P1<br />

− X P2<br />

) − ( µ P1<br />

− µ P2<br />

) Ho<br />

t*<br />

= ≈ t(min{<br />

n 1 −1,<br />

2 −1},<br />

α / 2)<br />

2<br />

2<br />

P nP<br />

SP1<br />

+<br />

SP<br />

2<br />

n n<br />

P1<br />

P2<br />

Sesión 2 CSI-Curso 2003/04 33<br />

Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (XXV)<br />

Ejemplo<br />

Se hace un experimento para comprobar qué<br />

procesadores son más rápidos, si los Pentium o sus<br />

equivalentes AMD. Se han hecho pruebas sobre 61<br />

equipos y se ha obtenido que para los Pentiums se<br />

tuvo una media muestral <strong>de</strong> 110±5,92 y para los<br />

AMD se obtuvo 100 ±5,10. ¿Pue<strong>de</strong> asegurarse al<br />

95% que los dos tipos <strong>de</strong> procesadores tienen la<br />

misma productividad?<br />

Sesión 2 CSI-Curso 2003/04 34<br />

17


Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (XXVI)<br />

Solución<br />

Siendo la hipótesis<br />

H<br />

H<br />

0<br />

1<br />

Pentium<br />

Pentium<br />

≠ µ<br />

Y aplicamos StatBasic Statistics 2 Sample T<br />

Sesión 2 CSI-Curso 2003/04 35<br />

: µ<br />

: µ<br />

= µ<br />

AMD<br />

AMD<br />

Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (XXVII)<br />

Se obtendría el siguiente resultado:<br />

Don<strong>de</strong> pue<strong>de</strong> apreciarse que el p-valor es menor<br />

que 0.05, con lo que se rechaza la hipótesis <strong>de</strong> que<br />

las medias <strong>de</strong> velocida<strong>de</strong>s <strong>de</strong> uno y otro sean<br />

iguales<br />

Sesión 2 CSI-Curso 2003/04 36<br />

18


Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (XXVIII)<br />

<strong>Contraste</strong> <strong>de</strong> diferencia <strong>de</strong> proporciones en<br />

dos muestras in<strong>de</strong>pendientes<br />

Sirven para comprobar si hay diferencias o no entre<br />

las proporciones <strong>de</strong> errores entre dos métodos.<br />

Sea P A la proporción <strong>de</strong> errores (poblacionales)<br />

cometidos con un método A y P B la proporción <strong>de</strong><br />

errores cometidos con el otro método B. La hipótesis<br />

a probar es:<br />

H<br />

H<br />

0<br />

1<br />

: P<br />

: P<br />

A<br />

A<br />

= PB<br />

≠ P ( < , > )<br />

B<br />

Sesión 2 CSI-Curso 2003/04 37<br />

Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (XXIX)<br />

Sean<br />

X α el número <strong>de</strong> errores al realizar n α pruebas en el<br />

método α y sea P α = X α /n α las proporciones <strong>de</strong> error<br />

<strong>de</strong> cada muestra.<br />

Para muestras suficientemente gran<strong>de</strong>s (n α >30) se<br />

pue<strong>de</strong> <strong>de</strong>mostrar que<br />

(<br />

p<br />

P<br />

A<br />

− p<br />

P<br />

B<br />

⎛<br />

⎜<br />

PP<br />

( 1−<br />

P −<br />

A P ) P<br />

A P ( 1 P<br />

B<br />

) ≈ N P<br />

− P<br />

+<br />

A P , B ⎜<br />

⎝<br />

nP<br />

n<br />

A<br />

PB<br />

Sesión 2 CSI-Curso 2003/04 38<br />

P<br />

B<br />

) ⎞<br />

⎟<br />

⎟<br />

⎠<br />

19


Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (XXIX)<br />

Para muestras gran<strong>de</strong>s, es posible aproximar X α<br />

como una normal:<br />

Xα ≈ N(<br />

nα<br />

Pα<br />

, nα<br />

Pα<br />

( 1−<br />

Pα<br />

)<br />

Con lo que el intervalo <strong>de</strong> confianza a nivel 1-α<br />

para P PA -P PB viene dada por:<br />

( p<br />

P<br />

A<br />

− p<br />

P<br />

B<br />

( ) ⎟ ⎟<br />

⎛ ⎞<br />

⎜<br />

P<br />

( 1−<br />

P −<br />

A P ) P<br />

A P ( 1 P<br />

B P ) B<br />

) ± z α<br />

+<br />

2 ⎜<br />

⎝<br />

nP<br />

n<br />

A<br />

PB<br />

⎠<br />

Sesión 2 CSI-Curso 2003/04 39<br />

Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (XXX)<br />

Siendo el estadístico <strong>de</strong> contraste la normal:<br />

Z*<br />

=<br />

( P<br />

A − P<br />

) B<br />

⎛<br />

' '<br />

− ⎜<br />

1<br />

P<br />

( 1 P<br />

)<br />

⎜<br />

⎝<br />

nPA<br />

1 ⎞<br />

+ ⎟<br />

n ⎟<br />

PB<br />

⎠<br />

Siendo<br />

P<br />

'<br />

P<br />

=<br />

n<br />

A<br />

P<br />

P<br />

n<br />

A<br />

A<br />

+ n<br />

+ n<br />

Sesión 2 CSI-Curso 2003/04 40<br />

B<br />

B<br />

P<br />

P<br />

B<br />

20


Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (XXXI)<br />

Ejemplo:<br />

Una empresa <strong>de</strong> software aplica dos métodos para<br />

para eliminar errores, Inspecciones y Evaluaciones.<br />

Con el primer método se han eliminado 58 errores<br />

en 2 KLC, y con el segundo se han eliminado 61 en<br />

2,5 KLC ¿Hay diferencias significativas entre los dos<br />

métodos?<br />

Sesión 2 CSI-Curso 2003/04 41<br />

Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (XXXII)<br />

Solución<br />

Vamos a calcular un intervalo para la diferencia <strong>de</strong><br />

proporciones <strong>de</strong> los dos métodos. Para ello<br />

aplicamos Stat Basic Statistics 2 Proportions<br />

Sesión 2 CSI-Curso 2003/04 42<br />

21


Tipos <strong>de</strong> <strong>Contraste</strong> <strong>de</strong> <strong>Hipótesis</strong> (XXXIII)<br />

Obtenemos el siguiente resultado:<br />

Como se ve el estadístico <strong>de</strong> contraste es x=0,96 con pvalor=0,344<br />

> 0,05, con lo que no se pue<strong>de</strong> <strong>de</strong>scartar la<br />

hipótesis nula <strong>de</strong> que los dos métodos son igual <strong>de</strong><br />

productivos<br />

Sesión 2 CSI-Curso 2003/04 43<br />

Ejercicio 1<br />

Problema<br />

Invéntate un problema tipo para cada uno <strong>de</strong> los<br />

tipos <strong>de</strong> hipótesis <strong>de</strong> contraste explicados en las<br />

prácticas<br />

Resuélvelos explicando la justificación teórica y los<br />

pasos que se dan.<br />

Sesión 2 CSI-Curso 2003/04 44<br />

22


Ejercicio 2<br />

Problema<br />

Se sabe que los datos que maneja una empresa<br />

tienen un valor medio <strong>de</strong> actualidad <strong>de</strong> 80 unida<strong>de</strong>s<br />

con una <strong>de</strong>sviación típica <strong>de</strong> 0,6. Se quiere estudiar si<br />

el proceso <strong>de</strong> recogida <strong>de</strong> datos funciona<br />

correctamente, para los que se toman 20 muestras<br />

recogidas en el fichero actualidad.mtw, que tiene una<br />

media <strong>de</strong> 80,288 y una <strong>de</strong>sviación <strong>de</strong>l 0,653. Se pi<strong>de</strong><br />

¿Es la diferencia estadísticamente significativa? (α=0,5)<br />

Suponed que no se conoce σ<br />

Sesión 2 CSI-Curso 2003/04 45<br />

Ejercicio 3<br />

Problema<br />

Una empresa ha impartido una serie <strong>de</strong> cursos <strong>de</strong><br />

perfeccionamiento a quince <strong>de</strong> sus programadores.<br />

Se ha estudiado la productividad en número <strong>de</strong><br />

errores por KLOC antes y <strong>de</strong>spués <strong>de</strong>l curso y se<br />

recogen en el fichero productividad.mtw ¿ha valido<br />

el curso para algo?<br />

Calcula con un 95% aplicando la diferencia <strong>de</strong> las<br />

medias y aplicando Paired T<br />

Muestra un gráfico apropiado para mostrar el<br />

resultado<br />

Sesión 2 CSI-Curso 2003/04 46<br />

23


Ejercicio 4<br />

Problema<br />

Un antivirus utiliza dos heurísticas para la <strong>de</strong>tección<br />

<strong>de</strong> virus. Con una primera heurística se tarda en<br />

analizar un disco duro <strong>de</strong> 40 Gb 12,1 minutos y con<br />

la otra heurística se tardan 11,2 minutos<br />

<strong>de</strong>tectando los 10 virus que se habían insertado.<br />

Demostrar analíticamente cuál es la mejor<br />

heurística con α=0,05<br />

Sesión 2 CSI-Curso 2003/04 47<br />

Ejercicio 5<br />

Problema<br />

Se están evaluando dos marcas diferentes <strong>de</strong><br />

disquetes. Para ello se han tomado 150 unida<strong>de</strong>s<br />

<strong>de</strong> cada una <strong>de</strong> ellas. De la marca A se han<br />

registrado 15 unida<strong>de</strong>s <strong>de</strong>fectuosas, y <strong>de</strong> la marca<br />

B se ha registrado 6 unida<strong>de</strong>s <strong>de</strong>fectuosas. Calcular<br />

con un intervalo <strong>de</strong> confianza <strong>de</strong>l 95% si la<br />

diferencia <strong>de</strong> proporciones es significativa. Repetir<br />

los cálculos con un intervalo <strong>de</strong>l 99%.<br />

Sesión 2 CSI-Curso 2003/04 48<br />

24


Ejercicio 6<br />

Problema<br />

Dos marcas <strong>de</strong> monitores distintas aguantan 87000<br />

y 90000 horas <strong>de</strong> funcionamiento, con una<br />

<strong>de</strong>sviación típica <strong>de</strong> 22,33 y 20 horas<br />

respectivamente. Se han comprado en la<br />

organización 10 monitores <strong>de</strong> una marca y 15 <strong>de</strong><br />

otra. ¿Existe evi<strong>de</strong>ncia estadística para afirmar que<br />

las dos marca <strong>de</strong> monitores van a tener un<br />

duración similar? ¿Qué diferencia en la duración se<br />

pue<strong>de</strong> <strong>de</strong>tectar con una probabilidad <strong>de</strong>l 90%?<br />

Sesión 2 CSI-Curso 2003/04 49<br />

<strong>Métodos</strong> <strong>ANOVA</strong><br />

Definición<br />

Se utilizará el método <strong>ANOVA</strong> para contrastar la<br />

hipótesis nula <strong>de</strong> que las medias <strong>de</strong> distintas<br />

poblaciones coinci<strong>de</strong>n:<br />

Ho=µ 1 =µ 2 =µ 3 =...=µ k<br />

Esto es equivalente a probar las k-ésimas hipótesis<br />

Surgen dos problemas<br />

Se requiere un gran esfuerzo computacional<br />

Pue<strong>de</strong> aumentar consi<strong>de</strong>rablemente el error <strong>de</strong> tipo I<br />

Estos problemas se pue<strong>de</strong> resolver usando <strong>ANOVA</strong><br />

Sesión 2 CSI-Curso 2003/04 50<br />

25


Método <strong>ANOVA</strong> (II)<br />

El objetivo principal <strong>de</strong> muchos experimentos<br />

consiste en <strong>de</strong>terminar el efecto que alguna variable<br />

<strong>de</strong>pendiente Y tienen distintos niveles <strong>de</strong> algún<br />

factor X (variable in<strong>de</strong>pendiente y discreta)<br />

Sesión 2 CSI-Curso 2003/04 51<br />

Método <strong>ANOVA</strong> (III)<br />

Tipos <strong>ANOVA</strong><br />

One-Way <strong>ANOVA</strong> (Análisis Simple <strong>de</strong> la<br />

Varianza)<br />

El diseño para el análisis simple <strong>de</strong> la varianza<br />

consistirá en obtener muestras aleatorias e<br />

in<strong>de</strong>pendientes <strong>de</strong>l valor <strong>de</strong> Y asociado a cada uno<br />

<strong>de</strong> los distintos niveles <strong>de</strong>l factor X 1 , X 2 , ...,X k<br />

El funcionamiento <strong>de</strong> <strong>ANOVA</strong> es a fin <strong>de</strong> comparar<br />

las medias <strong>de</strong> Y asociadas a los distintos niveles <strong>de</strong>l<br />

factor (X 1 , X 2 , ...,X k ) se comparará una medida <strong>de</strong> la<br />

variación entre diferentes niveles (MS-Factor) con<br />

una variación <strong>de</strong>ntro <strong>de</strong> cada nivel (MS-Error)<br />

Sesión 2 CSI-Curso 2003/04 52<br />

26


Método <strong>ANOVA</strong> (IV)<br />

Si MS-Factor > MS-Error, entonces las medidas<br />

asociadas a diferentes niveles son distintas El<br />

factor influye significativamente sobre la variable<br />

<strong>de</strong>pendiente Y.<br />

Si MS-Factor no influye significativamente en el MS-<br />

Error, no se rechazará la hipótesis nula <strong>de</strong> que todas<br />

las medias coinci<strong>de</strong>n.<br />

Sesión 2 CSI-Curso 2003/04 53<br />

Método <strong>ANOVA</strong> (V)<br />

Ejemplo<br />

Se <strong>de</strong>sea estudiar la <strong>de</strong>pen<strong>de</strong>ncia o no <strong>de</strong> una<br />

métrica <strong>de</strong> complejidad <strong>de</strong> bases <strong>de</strong> datos <strong>de</strong>l<br />

factor conocimiento. Para ello se han seleccionado<br />

aleatoriamente datos <strong>de</strong> 11 alumnos a los que se<br />

les han entregado 5 y se ha medido en minutos el<br />

tiempo que tardaba cada uno en hacerlo. Los datos<br />

están en el fichero metricasbbdd.mtw.¿Pueda<br />

<strong>de</strong>cirse que influya <strong>de</strong>cisivamente?<br />

Sesión 2 CSI-Curso 2003/04 54<br />

27


Método <strong>ANOVA</strong> (VI)<br />

Solución<br />

La hipótesis que hay que probar es si para todos los<br />

alumnos la media <strong>de</strong> complejidad es la misma. Para<br />

ello se realizará un <strong>ANOVA</strong> simple (es uno solo el<br />

factor que tenemos que estudiar)<br />

Hay dos formas <strong>de</strong> trabajar esta opción en Minitab<br />

14: bien compactando todos los datos en una<br />

columna e indicando el tamaño <strong>de</strong> las muestras o<br />

bien utilizando la opción Stat <strong>ANOVA</strong> One<br />

Way (Unstacked) que permite tomar las respuestas<br />

<strong>de</strong> diferentes columnas.<br />

Sesión 2 CSI-Curso 2003/04 55<br />

Método <strong>ANOVA</strong> (VII)<br />

Como los datos están en columnas, parece más<br />

cómodo usar esta última opción, sino habría que<br />

compactando todos los datos con Data Stack <br />

Columns. Usamos por simplicidad la opción<br />

Unstacked, y completamos los datos:<br />

Sesión 2 CSI-Curso 2003/04 56<br />

28


Método <strong>ANOVA</strong> (VIII)<br />

Como pue<strong>de</strong> verse en el output el p-valor es menor<br />

que 0,05, con lo que se pue<strong>de</strong> rechazar la hipótesis<br />

nula <strong>de</strong> que todas las medias son iguales,<br />

quedando claro que el factor conocimiento influye<br />

<strong>de</strong>cisivamente<br />

Sesión 2 CSI-Curso 2003/04 57<br />

Método <strong>ANOVA</strong> (IX)<br />

Two-Way <strong>ANOVA</strong> (Análisis Doble <strong>de</strong> la<br />

Varianza)<br />

Se utilizará para estudiar posibles efectos causados<br />

por dos factores sobre la variable <strong>de</strong>pendiente.<br />

Se usará <strong>ANOVA</strong> doble para contrastar para cada<br />

uno <strong>de</strong> los factores, la hipótesis nula <strong>de</strong> que el<br />

resultado <strong>de</strong> la variable <strong>de</strong>pendiente no <strong>de</strong>pen<strong>de</strong> <strong>de</strong>l<br />

factor.<br />

Sesión 2 CSI-Curso 2003/04 58<br />

29


Método <strong>ANOVA</strong> (X)<br />

Ejemplo<br />

Una administrador <strong>de</strong> bases <strong>de</strong> datos realiza un<br />

experimento en el que se comprobaron las<br />

habilida<strong>de</strong>s <strong>de</strong> varios usuarios manejando la base<br />

<strong>de</strong> datos. Las medidas están en el fichero<br />

administrador.mtw. Se consi<strong>de</strong>ran dos clases <strong>de</strong><br />

usuario, expertos e inexpertos, y tres tipos <strong>de</strong><br />

consultas: <strong>de</strong> selección, <strong>de</strong> inserción y <strong>de</strong><br />

actualización. Cada uno cometió una serie <strong>de</strong><br />

errores. Se quiere comprobar si el número <strong>de</strong><br />

errores <strong>de</strong>pen<strong>de</strong> <strong>de</strong>l tipo <strong>de</strong> consulta.<br />

Sesión 2 CSI-Curso 2003/04 59<br />

Método <strong>ANOVA</strong> (XI)<br />

Solución<br />

Haciendo Stat <strong>ANOVA</strong> Balanced <strong>ANOVA</strong> o<br />

Two-Way <strong>ANOVA</strong><br />

Sesión 2 CSI-Curso 2003/04 60<br />

30


Método <strong>ANOVA</strong> (XII)<br />

Se obtienen los siguientes resultados:<br />

Como p-valor > 0,05 en ambos casos, no se pue<strong>de</strong> concluir<br />

con los datos que se tienen que la experiencia o el tipo <strong>de</strong><br />

consulta influyan <strong>de</strong>cisivamente en el resultado (es <strong>de</strong>cir, no<br />

po<strong>de</strong>mos rechazar la hipótesis nula)<br />

Sesión 2 CSI-Curso 2003/04 61<br />

Ejercicio 7<br />

Problemas<br />

Inventa un ejemplo <strong>de</strong> influencia <strong>de</strong> factor sobre<br />

una variable <strong>de</strong> tu sistema <strong>de</strong> información para<br />

estudiar con un <strong>ANOVA</strong> simple.<br />

Resuelve dicho problema.<br />

Inventa un ejemplo <strong>de</strong> influencia <strong>de</strong> dos factores<br />

sobre una variable <strong>de</strong> tu sistema <strong>de</strong> información<br />

para estudiar con un <strong>ANOVA</strong> doble.<br />

Resuelve dicho problema.<br />

Sesión 2 CSI-Curso 2003/04 62<br />

31


Ejercicio 8<br />

Problema<br />

Se <strong>de</strong>sea saber si el tamaño <strong>de</strong> los ficheros influye<br />

en el grado <strong>de</strong> fragmentación externa <strong>de</strong> diferentes<br />

sistemas <strong>de</strong> ficheros. Para ello se han hecho<br />

pruebas <strong>de</strong> lectura/escritura <strong>de</strong> cinco ficheros <strong>de</strong><br />

tamaño diferente en 10 sistemas <strong>de</strong> ficheros. Los<br />

datos están almacenados en el fichero<br />

SistemaFicheros.mtw. De dichos datos ¿qué se<br />

pue<strong>de</strong> concluir?<br />

Sesión 2 CSI-Curso 2003/04 63<br />

Problema 9<br />

Ejercicio<br />

Se quiere estudiar cómo influye la edad y el sexo<br />

en la asimilación <strong>de</strong> un nuevo lenguaje <strong>de</strong><br />

programación. Para ello en el fichero<br />

programadores.mtw se han almacenado los datos<br />

correspondiente al sexo y nivel <strong>de</strong> experiencia y<br />

tiempo <strong>de</strong> aprendizaje <strong>de</strong> 24 programadores. Se<br />

quiere saber si el sexo o el nivel <strong>de</strong> experiencia<br />

influyen en la capacidad <strong>de</strong> aprendizaje<br />

Sesión 2 CSI-Curso 2003/04 64<br />

32

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!