DiseÃ±o experimental y anÃ¡lisis de resultados

DISEÑO EXPERIMENTAL 

Y ANALISIS DE 

RESULTADOS 

– Introducción 

– Simulación de variables aleatorias 

– Análisis de datos 

– Organización de simulaciones (o experimentos) 

– Selección de entradas : diseños factoriales 

– Comparación de diseños alternativos 

– Análisis de regresión 

1

INTRODUCCION 

Técnicas básicas en la evaluación del rendimiento 

de sistemas : 

– Medición 

– Simulación 

– Modelado anaĺıtico 

Medición y simulación : se requieren técnicas 

estadísticas para diseñar experimentos, recoger 

datos, análisis de datos. 

2

Medición 

Experimentación con un sistema real. 

Medición de parámetros de rendimiento por 

hardware, software, métodos híbridos. 

Factores no controlados en la experimentación 

: 

– análisis estadístico de las medidas, 

– selección de entradas y salidas. 

3

Simulación 

Elaboración y ejecución de un programa que 

representa el funcionamiento de un sistema. 

Una simulación requiere : 

– construir un modelo del funcionamiento del 

sistema, 

– suministrar una representación (modelo) o 

una traza de la carga. 

Cuestiones en una simulación : 

– nivel de detalle del sistema que se modela, 

– análisis estadístico de los resultados, 

– diseño del experimento para que sea factible. 

4

Técnicas de simulación 

Simulación de eventos discretos : el estado del 

sistema se actualiza cada vez que ocurre un 

evento. (Llegada de un cliente a una cola, adquisición 

de un recurso, finalización de un servicio, 

etc.) 

Generación de eventos : 

– siguiendo una traza, medición de un sistema 

real, se preserva el detalle de las entradas, 

– siguiendo una distribución (mediante algoritmos 

que simulan variables aleatorias), modelo 

compacto, reproducible y modificable 

de la carga. 

Simulación siguiendo una distribución : algoritmos 

que generan números aleatorios de acuerdo 

con la distribución dada. Algoritmo determinista, 

requiere una semilla (número) inicial. 

5

SIMULACION DE VARIABLES 

ALEATORIAS 

Partimos de un algoritmo (software) generador 

de una secuencia de números aleatorios distribuidos 

uniformemente entre 0 y 1 : unif(0, 1). 

Algoritmo determinista, una semilla (un número 

entero) inicial determina la secuencia generada 

: 

– se proporciona la semilla, 

– el software recurre al reloj del computador, 

– etc. 

Un software : java.util.Random 

Métodos básicos para generar variables aleatorias 

continuas : método de transformación 

inversa, método de rechazo. 

6

Método de transformación inversa 

U variable aleatoria uniforme en (0, 1). 

X variable aleatoria con una función de distribución 

F (x) : 

X = F −1 (U) 

(Interpretar discretizando x.) 

Generar u con unif(0, 1), x = F −1 (u). 

Ejemplo : variable aleatoria exponencial, 

F (x) = 1 − e −λx 

X = − 1 λ log(1 − U) 7

Método de rechazo 

No existe una expresión expĺıcita de F −1 

Planteamiento : 

– queremos generar X, con densidad f(x), 

– podemos generar Y , con densidad g(y). 

Requisito : para cierta constante c, 

f(x) ≤ c g(x) , 

∀x 

(mejor c mínima) 

Iterar : 

1. Generar un valor Y = y, 

2. Generar un valor U=u, unif(0, 1), y proporcionar 

X = y si : 

u ≤ f(y)/cg(y) 

(aceptar con probabilidad f(y)/cg(y)) 

8

Ejemplo : variable aleatoria normal a partir de 

una variable exponencial (asignar ± aleatoriamente). 

Distribuciones de variables discretas 

Trivial : versión discretizada del método de 

transformación inversa. 

9

ANALISIS DE DATOS 

Sistemas con carga no determinista, factores 

indeterminados : resultados aleatorios. Parámetros 

de rendimiento : se necesitan varias observaciones. 

1. ¿Cómo estimar el valor promedio del parámetro 

de rendimiento a partir de varias 

observaciones ? 

2. ¿Un mayor número de observaciones proporciona 

una estimación más fiable ? 

3. ¿Cómo caracterizar el error de la estimación 

en función del número de observaciones 

? 

4. ¿Cómo realizar los experimentos para que 

la caracterización del error sea fiable ? 

5. ¿Cómo reducir el número necesario de observaciones 

? 

10

X parámetro de rendimiento del sistema : variable 

aleatoria con distribución desconocida. 

Media s y varianza σ 2 desconocidos : estimar 

experimentalmente. 

X 1 , X 2 , . . . , X n observaciones experimentales 

del parámetro X, en principio no independientes 

entre si. 

X i observación i-ésima del sistema, varible aleatoria 

: media s y varianza σ 2 . 

Un estimador de s, de la esperanza de X : 

X = 1 n 

n∑ 

X i 

i=1 

X es un estimador no sesgado : 

E[X] = s 

11

X es un estimador más fiable aumentando el 

número de observaciones : 

[ (X ) ] 2 

Var(X) = E − s = 

= E 

⎡⎛ 

⎢ 

⎣ 

⎝ 1 n 

n∑ 

i=1 

(X i − s) 

⎞ 

⎠2 ⎤ ⎥ ⎦ = 

= σ2 

n + 2 n 2 ∑ 

i 

∑ 

j>i 

Cov(X i , X j ) 

– Observaciones independientes, 

Cov(X i , X j ) = 0 : la varianza decrece, 

Var(X) → 0, con n → ∞ 

– Condición más débil, 

Cov(X i , X i+m ) = 0 para m → ∞ : la varianza 

decrece con n. 

12

Determinar cuantitativamente la bondad del 

estimador X : intervalo en torno al resultado 

X que incluye s con cierta probabilidad. Necesitamos 

estimar la varianza. 

Estimador de σ 2 , la varianza de X : 

δ 2 X = 1 

n − 1 

donde X = 1/n ∑ i X i 

n∑ 

i=1 

Esperanza del estimador : 

E [ δ 2 X] 

= σ 2 − 

2 

n(n − 1) 

(X i − X) 2 

∑ 

i 

∑ 

j>i 

Para observaciones independientes, 

estimador no sesgado : E[δ 2 X ] = σ2 

Cov(X i , X j ) 

Varianza de X, σ 2 /n para observaciones independientes, 

estimador de Var(X) : 

Decrece con n. 

δ 2 X = δ2 X 

n 

13

Para cuantificar, con una probabilidad, el margen 

de error del valor estimado : distribución 

de X = 1/n ∑ i X i 

Variable aleatoria normalizada : 

Y = (X − s) √ n/σ 

Si las variables (independientes) X 1 , . . . , X n siguen 

la distribución normal N (s, σ), entonces 

Y sigue la t-distribución estándar con n−1 grados 

de libertad. (Ver tabla.) 

Teorema del ĺımite central : variables (independientes) 

X 1 , . . . , X n con distribución cualquiera, 

Y tiende a la distribución normal N (0, 1) con 

n → ∞. 

14

Tabla de la t-distribución estándar : df grados 

de libertad, α probabilidad de cola. 

df \ α 0.10 0.05 0.025 

1 3.077684 6.313752 12.70620 

2 1.885618 2.919986 4.30265 

3 1.637744 2.353363 3.18245 

4 1.533206 2.131847 2.77645 

5 1.475884 2.015048 2.57058 

6 1.439756 1.943180 2.44691 

7 1.414924 1.894579 2.36462 

8 1.396815 1.859548 2.30600 

9 1.383029 1.833113 2.26216 

10 1.372184 1.812461 2.22814 

inf 1.281552 1.644854 1.95996 

15

Continuación 

df \ α 0.01 0.005 

1 31.82052 63.65674 

2 6.96456 9.92484 

3 4.54070 5.84091 

4 3.74695 4.60409 

5 3.36493 4.03214 

6 3.14267 3.70743 

7 2.99795 3.49948 

8 2.89646 3.35539 

9 2.82144 3.24984 

10 2.76377 3.16927 

inf 2.32635 2.57583 

16

Cuantificar la bondad del estimador X 

Intervalo de confianza : s ± e 

Nivel de confianza : 

P = 1 − 2α = Pr(|X − s| < e) 

Valores típicos : P = 0.90, 0.95, 0.99 

(α = 0.05, 0.025, 0.005) 

Variable normalizada Y : 

P = 1 − 2α = Pr(|Y | < e ′ ) 

√ 

e ′ n 

= 

σ e 

Probabilidades de cola (para distribución simétrica) 

: 

Pr(Y > e ′ ) = Pr(Y < −e ′ ) = α 

Dada una distribución, un nivel de confianza 

se corresponde con un intervalo de confianza. 

Mayor nivel de confianza implica ensanchar el 

intervalo de confianza. 

17

Determinar el número de observaciones n necesario 

para un nivel de confianza mayor que 

P 0 = 1 − 2α 0 y un intervalo de confianza ±e 

dados, de acuerdo con una : 

– t-distribución con n − 1 grados de libertad, 

– distribución normal estándar para n → ∞. 

(para la variable normalizada Y .) 

Pasos : 

1. Con un número de observaciones inicial n 0 

estimar s y σ 2 calculando X y δ 2 X 

2. Determinar n de forma que en la t-distribución 

con n − 1 grados de libertad : 

Pr(Y > e ′ ) < α 0 

donde e ′ = ( √ n/σ)e . (Distribución normal 

para n grande.) 

3. Con n observaciones volver a estimar s y 

σ 2 , y verificar el nivel de confianza. En caso 

contrario, incrementar n y repetir. 

18

Ejemplo 

Para determinar un parámetro de rendimiento 

se han realizado cinco experimentos, observandose 

los siguientes valores : 

3.07, 3.24, 3.14, 3.11, 3.07 

1. Calcular el nivel de confianza para un intervalo 

de ±0.1 

2. Calcular el número de observaciones necesario 

para un nivel de confianza superior al 

99% con el intervalo de confianza anterior. 

Recordar : 

– observaciones X i independientes, 

– distribuciones normales de X i vs. teorema del 

ĺımite central. 

Cuestión adicional : intervalo de confianza para 

la estimación de la varianza de X. 

19

ORGANIZACION DE SIMULACIONES 

(O EXPERIMENTOS) 

Tipos de parámetros de rendimiento : 

(A) Una simulación o experimento proporciona 

un único valor, bien definido, de X, parámetro 

que puede tener una componente aleatoria. 

Ejemplo : tiempo de ejecución de un programa 

por un procesador. 

(B) Una simulación o experimento proporciona 

una secuencia de valores, en general no independientes 

entre sí, cuyo promedio define X. 

Ejemplo : número de paquetes en un buffer de 

un switch. 

¿Cómo organizar una simulación o experimento 

para obtener observaciones X 1 , . . . , X n independientes 

entre sí ? 

20

Método de réplicas independientes 

Realizar n simulaciones o experimentos independientes. 

Parámetros de tipo (A). 

En una simulación cambiar adecuadamente la 

semilla para generar números aleatorios (o generar 

números de forma consecutiva). 

21

Método de ejecución única 

Parámetros de tipo (B). 

Ejecución de una única simulación (o experimento) 

de longitud m×n : n lotes o tramos de 

tamaño m. Observaciones X 11 , . . . , X 1m , . . . , 

X i1 , . . . , X im , . . . , X n1 , . . . , X nm . 

X i promedio de las m observaciones del lote 

i-ésimo. 

¿Son independientes entre si X 1 , . . . , X n ? 

Autocovarianza de X : 

R(k) = 1 

n − k 

n−k ∑ 

i=1 

(X i − X)(X i+k − X) 

Coeficiente de autocorrelación : 

R(k)/R(0) 

R(0) un estimador de la varianza de X. 

Usualmente k = 1. 

22

Hipótesis de observaciones independientes : 

si R(k)/R(0) pequeño (< 0.02 ?) 

Seleccionar m grande para que R(k)/R(0) ≈ 0 

Valores típicos : n ∝ 10, m ∝ 100 

Variantes del método : 

– NB (nonoverlapping batch), lotes no superpuestos, 

variante arriba descrita, 

– OB (overlapping batch), lotes superpuestos. 

Variante OB del método : con cada observación 

se inicia un lote (disjunto) de longitud 

m y paso k. 

X i : media de las observaciones del lote i- 

ésimo. 

Seleccionar k de forma que, sobre todas las observaciones, 

R(k)/R(0) ≈ 0 

Estimar parámetros a partir de X 1 , . . . , X n 

(ver referencias) 

La variante OB puede ser más eficiente. 

23

Métodos regenerativos 

Proceso estocástico {X(t); t ≥ 0} 

X(t) : estado de un sistema, variable aleatoria 

función de un parámetro temporal (continuo). 

Proceso regenerativo : existe un estado de renovación 

desde el cual el sistema se renueva 

probabiĺısticamente. 

Ciclo : realización del proceso entre dos renovaciones 

consecutivas. (Duración con esperanza 

finita, infinidad de renovaciones.) 

Estimación de los parámetros de rendimiento : 

promedio de los valores obtenidos en cada ciclo. 

Sistemas complejos : muy improbable entrar 

en un estado global de renovación. Método regenerativo 

impracticable. 

24

SELECCION DE ENTRADAS 

(INPUTS) : DISEÑOS FACTORIALES 

Estudio del efecto en el rendimiento de un sistema 

de los distintos parámetros o factores 

de entrada multivaluados : k entradas controlables, 

cada uno con n valores diferentes. 

Diseño de un experimento factorial : n k combinaciones 

posibles del experimento. Puede ser 

impracticable. 

Para simplificar la experimentación : 

– mantener constantes los factores menos importantes, 

– considerar independientes factores que interaccionan 

débilmente. 

Selección de factores importantes 

Asignar dos valores a cada factor : 

0 bajo (mínimo), 1 alto (máximo). 

Diseño factorial de 2 k combinaciones. 

25

Vector de factores c = (c 1 , . . . , c k ) donde cada 

c i ∈ {0, 1} 

X(c) valor del parámetro de rendimiento para 

un vector de entrada c 

Efecto principal o de primer orden del factor 

i-ésimo : 

⎡ 

⎤ 

e i = 1 

2 k−1 ⎣ 

∑ 

X(c) − 

∑ 

X(c) ⎦ 

c : c i =1 

c : c i =0 

Valor promedio del rendimiento : 

X = 1 ∑ 

2 k X(c) 

Si e i ≪ X : factor no importante. Se fija el 

factor con un valor intermedio (monotonicidad 

supuesta). 

Si e i significativo frente a X : factor importante. 

c 

26

Interacción entre factores importantes 

Efectos de orden superior. 

m ij (x) : efecto (de primer orden) del factor 

i-ésimo fijando el factor j para x ∈ {0, 1}, 

⎡ 

⎢ 

∑ 

2 k−2 ⎣ 

c : c i =1,c j =x 

= 1 

m ij (x) = 

X(c) − 

∑ 

c : c i =0,c j =x 

X(c) 

⎤ 

⎥ 

⎦ 

Efecto de interacción entre los factores i y j : 

(e ij = e ji ) 

e ij = m ij(1) − m ij (0) 

2 

Si e ij ≪ X : interacción débil entre factores i 

y j, factores independientes. 

Si e ij significativo frente a X : factores dependientes. 

27

Diseño experimental 

– Factor importante que no interacciona con 

otros : estudiar el rendimiento para los n valores. 

– Factores importantes que interaccionan entre 

si : experimentar con n p combinaciones 

para p factores. 

Diseño factorial fraccional : se eliminan algunas 

de las 2 k combinaciones iniciales de factores. 

Estudio de factores principales y sus interacciones. 

(ver referencias) 

28

COMPARACION DE DISEÑOS 

ALTERNATIVOS 

Problema : de un conjunto de sistemas, seleccionar 

un sistema de acuerdo con un criterio 

de rendimiento. 

Minimizar (o maximizar) un parámetro de rendimiento 

(o una función de varios). 

Formulación estadística 

– P 0 probabilidad mínima requerida para la selección 

correcta. 

– d diferencia mínima entre los valores de rendimiento 

de dos sistemas que se considera 

significativa en la práctica. 

– Siendo s 1 , . . . , s k las esperanzas del parámetro 

de rendimiento para varios sistemas, el 

sistema i es óptimo si s i < s j para cada sistema 

j restante. 

– Para cada sistema l, estimación estadística 

de s l realizando n l observaciones (n función 

de l). 29

Método sistemático : ver referencias 

Método indirecto 

Inicio : estimación del parámetro de rendimiento 

según un intervalo de confianza y un nivel 

de confianza Pr(l), para cada sistema l. 

Fijado d, mantener una separación mínima d 

entre el intervalo del sistema óptimo y los intervalos 

del resto de sistemas. 

Dado P 0 , obtener : 

∏ 

l 

Pr(l) ≥ P 0 

– ampliando intervalos de confianza, 

– aumentando el número de observaciones si 

fuera necesario. 

30

Variaciones del problema 

– Seleccionar varios sistemas (igualmente) óptimos 

– Seleccionar un subconjunto de tamaño m 

que contenga el sistema óptimo. 

– Seleccionar los m mejores sistemas. 

31

ANALISIS DE REGRESION 

Rendimiento de un sistema. Parámetros de entrada 

controlables : 

– cualitativos, 

– cuantitativos. 

Entradas cuantitativas : interpolación y extrapolación 

para un parámetro de rendimiento. 

Formulación general 

Parámetro de rendimiento (salida) y, parámetro 

de entrada x : 

y = f(x) 

Hipótesis : la función f es conocida, salvo los 

valores de sus parámetros α 1 , . . . , α k : 

y = f(x; α 1 , . . . , α k ) 

Valores de entrada x 1 , . . . , x n 

Valores observados Y 1 , . . . , Y n (variables aleatorias) 

del parámetro de salida (rendimiento) 

Estimar α 1 , . . . , α k 

32

Observaciones con un componente de error 

aleatorio (desconocido) : 

Y i = f(x i ) + ε i 

Método de mínimos cuadrados : minimizar el 

error cuadrático respecto de ˆα 1 , . . . , ˆα k , 

Q E = 

n∑ 

i=1 

[ 

Yi − ˆf(x i ) ] 2 

Y 1 , . . . , Y n valores de salida observados, 

ˆf(x 1 ), . . . , ˆf(x n ) valores de salida estimados por 

f(x; ˆα 1 , . . . , ˆα k ) para los valores de entrada 

x 1 , . . . , x n 

Regresión de y sobre x : obtener los valores de 

los estimadores ˆα 1 , . . . , ˆα k 

33

Teorema de Gauss-Markov 

El método de mínimos cuadrados proporciona 

unos estimadores de α 1 , . . . , α k que no son sesgados 

y su varianza es mínima, bajo las siguientes 

condiciones : 

1. f(x) es lineal en los parámetros : 

f(x) = α 1 g 1 (x) + . . . + α k g k (x) 

2. No hay sesgo en el error de los valores observados 

Y i , es decir, E[ε i ] = 0 

3. No hay correlación entre los valores observados. 

Mínimos cuadrados : el mejor método para estimar 

f(x) lineal en α 1 , . . . , α k 

34

Q E convexo para cada ˆα j , mínimo global : derivar, 

para j = 1, . . . , k, e igualar a 0, 

n∑ 

i=1 

g j (x i ) [Y i − ˆα 1 g 1 (x i ) − . . . − ˆα k g k (x i )] = 0 

Expresión matricial del sistema de ecuaciones : 

Πˆα = θ 

Π matriz k × k, θ vector columna, 

ˆα solución de la ecuación. 

Ejemplo 

Regresión de y sobre x para 

f(x) = α 1 + α 2 x + α 3 x 2 35

Regresión lineal 

Parámetro de salida y función lineal del 

parámetro de entrada x : 

y = α + β x 

Minimizar Q E , estimadores de α y β : 

ˆβ = 

n∑ 

i=1 

ˆα = Y − ˆβ x 

(x i − x) Y i / 

n∑ 

i=1 

(x i − x) 2 

donde x = ∑ n 

i=1 

x i /n, Y = ∑ n 

i=1 

Y i /n 

Estimador del parámetro de rendimiento (salida), 

función de la entrada x : 

Ŷ = ˆα + ˆβ x = Y + ˆβ (x − x) 

Gauss-Jordan : ˆα y ˆβ estimadores no sesgados, 

varianza mínima. ¿Varianza de Ŷ ? 

36

Var(Ŷ ) = Var(Y ) + (x − x) 2 Var(ˆβ) 

(Y y ˆβ no están correlacionadas) 

Var(Ŷ ) = σ 2 [ 

1 

n 

] 

(x − x)2 

+ ∑ ni=1 

(x i − x) 2 

Y 1 , . . . , Y n variables aleatorias no correlacionadas 

y de varianza σ 2 (desconocida) 

Var(Ŷ ) función de x : mínimo σ 2 /n en x = x, 

incremento cuadrático para |x − x| > 0 

Estimador de σ 2 , no sesgado : 

δ 2 = 1 

n − 2 

n∑ 

i=1 

Y i valor observado para x i , 

Ŷ i = ˆα + ˆβx i valor estimado. 

(Y i − Ŷ i ) 2 = Q E 

n − 2 

37

Cuantificar bondad del estimador Ŷ : 

Ŷ − y 

ν 

sigue una t-distribución estándar con n−2 grados 

de libertad, donde : 

Ŷ = ˆα + ˆβx, y = α + βx, 

ν 2 (función de x) varianza estimada de Ŷ . 

(Hipótesis : distribución normal de los errores 

de observación ε i ) 

Intervalo y nivel de confianza del valor de salida 

estimado Ŷ para una entrada x. 

38

Adecuación del modelo 

Adecuación del modelo de regresión : 

Un criterio sencillo. 

y = f(x; α 1 , . . . , α k ) 

Variación total en torno a la media, 

Q T = 

n∑ 

i=1 

(Y i − Y ) 2 

Error cuadrático mínimo para ˆf, 

Criterio : 

Q E = 

n∑ 

i=1 

(Y i − Ŷ i ) 2 

Q E / Q T → 0 

Fuentes de error : 

– mediciones muy erróneas, número de mediciones 

pequeño, 

– modelo inadecuado. 

39

Otras cuestiones 

Linealización de una función de regresión no lineal 

en los parámetros : por ejemplo, logarítmo 

de f(x) = αe βx 

Mínimos cuadrados. 

Gauss-Markov : no hay sesgo en el error de los 

nuevos valores observados g(Y i ) ? 

En cualquier caso, comprobar Q E / Q T → 0 

Ejemplo 

Regresión múltiple : 

y = f(u, v, w, . . . ; α 1 , α 2 , . . .) 

Mínimos cuadrados, teorema de 

Gauss-Markov. 

Complejidad del modelo, gran número de observaciones. 

Técnicas de reducción de varianza 

40

DiseÃ±o experimental y anÃ¡lisis de resultados

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?