13.07.2015 Views

j - Departament d'Estadística i Investigació Operativa

j - Departament d'Estadística i Investigació Operativa

j - Departament d'Estadística i Investigació Operativa

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

FME Models Lineals GeneralitzatsTEMA 5: TABLA DE CONTENIDOS5-1. TEMA 5: RESP. POLITÓMICA. M. MULTINOMIAL: ESCALAS NOMINALES __________________________________________________ 35-1.1 MODELOS PARA ESCALAS ORDINALES_______________________________________________________________________________________ 95-2. TEMA 5: RESP. POLITÓMICA. EJEMPLOS. _______________________________________________________________________________ 125-2.1 EJEMPLO 4: FOX (CONTINUACIÓN EJEMPLO 2) ______________________________________________________________________________ 125-2.1.1 RESOLUCIÓN POR JERARQUÍAS DE LOGITS___________________________________________________________________________________ 225-2.1.2 RESOLUCIÓN CON R: COMANDOS EMPLEADOS _______________________________________________________________________________ 275-2.2 EJEMPLO 6: CONDICIONES DE LA VIVIENDA EN COPENHAGEN__________________________________________________________________ 355-2.2.1 RESPUESTAS NOMINALES________________________________________________________________________________________________ 355-2.2.2 RESOLUCIÓN CON R: SELECCIÓN DE COMANDOS _____________________________________________________________________________ 38Prof. Lídia Montero Pàg. 5-2 Curs 2.006-2.007


FME Models Lineals GeneralitzatsTEMA 5-1: RESP. POLITÓMICA. MULTINOMIAL: ESCALAS DE MEDIDAEntre los posibles tipos existentes pueden identificarse los siguientes grandes grupos:• Escalas nominales, donde las categorías son identificadores arbitrarios, cuyo significado dependetotalmente de la estructura de la experiencia.• Escalas ordinales, donde las categorías están ordenadas y responden a una clasificación de primera,segunda, etc. No tiene sentido hablar de la distancia entre pares de categorías, únicamente tienesentido su relación de orden.• Escalas de intervalos, donde las categorías están ordenadas y tienen asociadas etiquetas numéricas orepresentantes de categoría, habitualmente son los valores medios dentro de la categoría. Lasdiferencias entre etiquetas se interpretan como medida de separación entre las categorías. Los modelosempleados no se detallarán en el presente curso.• La distinción entre escalas ordinales e intervalos no es siempre evidente: por ejemplo, en un estudio depercepción de la calidad de productos alimentarios, la respuesta puede considerarse claramente ordinalsi se asocia a cada producto las categorías excelente, bueno, …, malo, vomitivo, etc.Prof. Lídia Montero Pàg. 5-6 Curs 2.006-2.007


FME Models Lineals Generalitzats5-2. RESP. POLITÓMICA. M. MULTINOMIAL: ESCALAS NOMINALESLos modelos que suelen resultar más interpretables si se la reparametrización base-linecon categoría base ky los modelos se expresan en base a los log-odds respecto lacategoría base k quedan:• Modelo sin efecto de las covariables (A):( xi)( x )πijηij ( xi) = log = αjj = 1 , K,k − 1 i = 1,K,nπ• Modelo aditivo categoría – covariable (A+X):iki( xi)( x )πijTηij ( xi) = log = αj+ β xij = 1 , K,k −1i = 1,K,nπiki• Modelo con interacciones entre categorías y covariable (A*X), único estimable con MINITAB:( xi)( x )πijTηij( xi) = log = αj+ βjxij = 1 , K,k −1i = 1,K,nπikiProf. Lídia Montero Pàg. 5-7 Curs 2.006-2.007


FME Models Lineals GeneralitzatsTEMA 5: RESP. POLITÓMICA. M. MULTINOMIAL: ESCALAS NOMINALESEl odds de la categoría j-ésima sobre la categoría base k-ésima tiene por expresión,ππijik( xi)( x )i= expjT{ α + β x } El odds de la categoría j-ésima sobre la categoría l-ésima tiene por expresión, j k l ≠ kππijil( x )i( x )i( x ) ( )iπikxi( x ) π ( x )πij= = expjαlπilj = 1,K,k − 1Dado el tipo de reparametrización,se cumplei = 1,K,nπik( x )ii=1+∑ikr≠ki1expji{( ) ( ) }Tα − + β −β x=πij( x )i=j∑rlexpexp( η ( x )) 1+π ( ) π ( )iri∑r≠kij1x i ikx i≠ , ,iij( xi)( η ( x ))( η )iriyProf. Lídia Montero Pàg. 5-8 Curs 2.006-2.007


FME Models Lineals GeneralitzatsTEMA 5: RESP. POLITÓMICA. M. MULTINOMIAL: ESCALAS ORDINALES5-2.1 Modelos para escalas ordinalesLos modelos para escalas ordinales son más frecuentes en la práctica que los modelos para escalasnominales y de ahí que merezca la pena darles un tratamiento específico. Se sigue el texto deMcCullagh.En muchas aplicaciones, la definición de las categorías de la variable de respuesta es arbitraria osubjetiva, sin embargo, resulta fundamental que las conclusiones del estudio sean válidas y no dependanni del número ni de la definición de las categorías de la respuesta, de manera que si se forma una nuevaescala en base a crear una nueva categoría combinando dos categorías adyacentes de la antigua escala,la esencia de las conclusiones debe permanecer.Las anteriores consideraciones llevan a pensar directamente en modelos basados en lasprobabilidades acumuladas de las respuestasγj= Ρ( Y ≤ j)= Ρ( Y j)πj=., no en las probabilidades mismasLos dos conjuntos de probabilidades son equivalentes, pero los modelos basados en probabilidadesacumuladas parece que han de tener mejores propiedades para las escalas de respuesta ordinales.En particular, los MLGz que emplean la transformación logística sobre las probabilidadeslog γ ( )acumuladas, j1 − γj, han demostrado trabajar bien en la práctica.Prof. Lídia Montero Pàg. 5-9 Curs 2.006-2.007


FME Models Lineals GeneralitzatsTEMA 5: RESP. POLITÓMICA. M. MULTINOMIAL: ESCALAS ORDINALESLos modelos más simples dentro de la tipología anterior definen rectas paralelas en la escala de loslog-odds acumulados, es decir añadiendo el índice de referencia del grupo para claridad posterior en lainterpretación del modelo,γjlog1−γ( x)( x)jT= α − β xjj = 1,K,k−1(modelo A+X)Por lo que se denomina, modelo de los odds proporcionales, ya el odds-ratio del sucesox = x 1 y x2x = tiene por expresión,γγjj( x1) 1−γj( x1)( x ) 1−γ ( x )2( )( )j2=e−βT( x −x)12j = 1,K,k−1Y ≤ j paraEl signo negativo en los parámetros β es un convenio para garantizar que los valores grandes deTβ x en el predictor lineal facilitan probabilidades elevadas a las categorías de orden superior.Los parámetros α y β son las incógnitas a estimar, con la restricción que los términos≤ α ≤ ≤ αindependientes de las rectas deben ser no crececientes, es decir,α1 2Kk−1.Prof. Lídia Montero Pàg. 5-10 Curs 2.006-2.007


FME Models Lineals GeneralitzatsTEMA 5: RESP. POLITÓMICA. M. MULTINOMIAL: ESCALAS ORDINALESSi en lugar de emplear el link logit sobre las probabilidades acumuladas se emplea el link c-log-logg3π ), el modelo resultante se denomina en la literatura especializada(log-log complementario ( )proportional-hazards model ,⎛ 1log⎜log⎝ 1−γj( x)⎞T⎟ = α −jβ x⎠j = 1,K,k(modelo A+X) Los parámetros que deben estimarse son los mismos, sujetos a la restricción de términosindependientes no decrecientes, α1 ≤ α2≤ K ≤ αk−1, lo que garantiza probabilidades no negativas. Tambien es posible formular modelos más complejos de rectas no paralelas, empleando el link logit o c-log-log, según convenga a los datos, donde el resultado será la estimación de k-1 rectas de regresiónno paralelas, en la escala transformada por la función de link seleccionada para las probabilidadesacumuladas. Sin ninguna dificultad, el predictor lineal tomará por expresión:η( )Tx = α − β jx j = 1,K k −1ij j,(modelo A*X)−1Prof. Lídia Montero Pàg. 5-11 Curs 2.006-2.007


FME Models Lineals Generalitzats5-3. TEMA 5: RESP. POLITÓMICA. EJEMPLOS.5-3.1 Ejemplo 4: FoxEl modelo lineal generalizado que se plantea investiga el análisis de la relación entre las mujeres jóvenescasadas que trabajan en función de la existencia de hijos en el hogar, los ingresos de sus maridos y laregión del país donde residen.• La variable de respuesta es politómica tiene 3 categorías: no trabaja (1), trabaja a tiempo parcial (2) ytrabaja a tiempo completo (3). La categoría baseline es no trabaja.• La presencia de hijos en el hogar es el factor A, que tiene 2 categorías (SI, NO). Categoría base: NO (laconstante corresponde al valor medio de la categoría NO).• La región del Canadá es un factor politómico B, con 5 categorías. Los ingresos del marido (en miles dedólares) es la covariable X.• La intuición indica una interacción entre los ingresos de los maridos (X) y la presencia de hijos (A).Prof. Lídia Montero Pàg. 5-12 Curs 2.006-2.007


FME Models Lineals GeneralitzatsTEMA 5: RESP. POLITÓMICA. EJEMPLO 4 (FOX)WOMEN'S LABOUR-FORCE PARTICIPATION DATASET, CANADA 1977[1] OBSERVATION[2] LABOUR-FORCE PARTICIPATIONfulltime = WORKING FULL-TIMEparttime = WORKING PART-TIMEnot_work = NOT WORKING OUTSIDE THE HOME[3] HUSBAND'S IINCOME, $1000'S[4] PRESENCE OF CHILDRENabsentpresent[5] REGIONAtlantic = ATLANTIC CANADAQuebecOntarioPrairie = PRAIRIE PROVINCESBC = BRITISH COLUMBIASource: Social Change in Canada Project, York Institute for Social Research.DATA:1 not_work 15 present Ontario2 not_work 13 present Ontario…253 not_work 13 present Quebec254 parttime 23 present Quebec255 fulltime 11 absent Quebec…263 not_work 15 present QuebecENDDATAProf. Lídia Montero Pàg. 5-13 Curs 2.006-2.007


FME Models Lineals GeneralitzatsTEMA 5: RESP. POLITÓMICA. EJEMPLO 4 (FOX)La tabla contiene el análisis de la devianza para diversos modelos. El modelo más adecuado contiene X y A,cuyo coeficiente negativo indican que ante la presencia de niños y mayores ingresos masculinos es menor laincidencia del trabajo femenino.Análisis de la DevianzaModelo p Devianza oLog-Verosimilitud∆ Devianza g.l.ComentariosContraste H0Accept.0 1 2 ¿? 86.439 14 0 vs 8 No1 A 4 -219.018 15.154 2 1 vs 3 No2 X 4 -243.220 63.558 2 2 vs 3 No3 A+X 6 -211.441 7.416 8 3 vs 7 Si4 A+B 12 -215.055 14.644 2 4 vs 7 No5 B+X 12 -240.335 65.204 2 5 vs 7 No6 A+A*X 8 -210.715 7.286 8 6 vs 8 Si7 A+B+X 14 -207.733 1.322 2 7 vs 8 Si8 A+B+A*X 16 -207.0722χ 5 9912 , 0.05= .Prof. Lídia Montero Pàg. 5-14 Curs 2.006-2.007


FME Models Lineals GeneralitzatsTEMA 5: RESP. POLITÓMICA. EJEMPLO 4 (FOX)πlogπi3 = 1.983 − 2.559 Ai− 0.i1Factor 09723xdonde Factor = 1 si hay presencia de niños y 0 de otro modo.A ii0,90,8absentpresent El contraste de M7 vs M8 indicaque las interacciones entre losingresos masculinos y la presenciade niños no es estadísticamentesignificativa (Factor A).EPRO_WFT0,70,60,50,40,30,20,10,00 10 20 30 40 50Income-X El contraste de M3 vs M7 indicaque la región (Factor B) tampoco esestadísticamente significativa. Sin embargo, los efectosprincipales del Factor A (M1 vs M3)y de la covariable (M2 vs M3) sonestadísticamente significativos (serechazan las correspondienteshipótesis nulas).Prof. Lídia Montero Pàg. 5-15 Curs 2.006-2.007


FME Models Lineals GeneralitzatsTEMA 5: RESP. POLITÓMICA. EJEMPLO 4 (FOX)EPRO_NOTW0,80,70,60,50,40,30,20,101020Income-X304050absentpresentAnte ingresosmasculinos elevados ypresencia de niños, latendencia al trabajofemenino a tiempocompleto descienderespecto a no trabajar(signo negativo de loscoeficientescorrespondientes), sinembargo el trabajofemenino a tiempoparcial respecto al notrabajo no se ve apenasafectado debido a loscoeficientes cercanos a0 que presentan losparámetros.Prof. Lídia Montero Pàg. 5-16 Curs 2.006-2.007


FME Models Lineals GeneralitzatsTEMA 5: RESP. POLITÓMICA. EJEMPLO 4 (FOX)πlog Factor + 0069xπi2 = −1.43 + 0.022 Ai0.i1idonde = 1Factor siA ihay presencia de niños y 0de otro modo.EPRO_WPT0,250,200,150,100,050,00absentpresentEl análisis de los residuosde la devianza frente alas probabilidadesestimadas o el leverageno puede realizarseautomáticamente por lafalta de resultadosfacilitados por el paqueteMINITAB.01020Income-X304050Prof. Lídia Montero Pàg. 5-17 Curs 2.006-2.007


FME Models Lineals GeneralitzatsTEMA 5: RESP. POLITÓMICA. EJEMPLO 4 (FOX)MTB > Name c7 = 'NTRI1'MTB > NLogistic 'Y_i' = 'Factor A' 'Income-X';SUBC> Factors 'Factor A';SUBC> Reference 'Y_i' 'not_work';SUBC> Ntrials 'NTRI1';SUBC> Brief 3.Nominal Logistic Regression: Y_i versus Factor A; Income-XResponse InformationVariable Value CountY_i not_work 155 (Reference Event)parttime 42fulltime 66Total 263Factor InformationFactor Levels ValuesFactor A 2 absent presentLogistic Regression TableOdds 95% CIPredictor Coef SE Coef Z P Ratio Lower UpperLogit 1: (parttime/not_work)Constant -1,4323 0,5925 -2,42 0,016Factor Apresent 0,0215 0,4690 0,05 0,963 1,02 0,41 2,56Income-X 0,00689 0,02345 0,29 0,769 1,01 0,96 1,05Logit 2: (fulltime/not_work)Constant 1,9828 0,4842 4,10 0,000Factor Apresent -2,5586 0,3622 -7,06 0,000 0,08 0,04 0,16Income-X -0,09723 0,02810 -3,46 0,001 0,91 0,86 0,96Prof. Lídia Montero Pàg. 5-18 Curs 2.006-2.007


FME Models Lineals GeneralitzatsTEMA 5: RESP. POLITÓMICA. EJEMPLO 4 (FOX)Log-likelihood = -211,441Test that all slopes are zero: G = 77,611; DF = 4; P-Value = 0,000Goodness-of-Fit TestsMethod Chi-Square DF PPearson 164,769 86 0,000Deviance 138,674 86 0,000MTB > Es imprescindible comprobar mediante la transformación logística empírica sobre las observacionesque un modelo lineal es adecuado a los datos. Para cada categoría j: crear las variablestransformadasreferencia es k.⎛ ylog⎜⎝ yijik++1212⎟ ⎞⎠y validar su relación lineal con la/s covariable/s. La categoría deProf. Lídia Montero Pàg. 5-19 Curs 2.006-2.007


FME Models Lineals GeneralitzatsTEMA 5: RESP. POLITÓMICA. EJEMPLO 4 (FOX)emp_log_FTvsNW210-1-2-3absentpresentemp_log_PTvsNW210-1-2absentpresent-4-301020Income-X30405001020Income-X304050➨ Se intenta ajustar un modelo lineal al log-odds de ‘Full time’ y ‘Partial time’ respecto a ‘Not_work’.21absentpresent21absentpresentologFTvsNWng0-1-2-3ologPTvsNWng0-1-2-4-3-50 10 20 30 40 50Income-X0 10 20 30 40 50Income-XProf. Lídia Montero Pàg. 5-20 Curs 2.006-2.007


FME Models Lineals GeneralitzatsTEMA 5: RESP. POLITÓMICA. EJEMPLO 4 (FOX)➨ Modelos lineales ajustados A+X21absentpresent-1,1absentpresentlog_FTvsNW0-1-2-3log_PTvsNW-1,2-1,3-4-5-1,40 10 20 30 40 50Income-X0 10 20 30 40 50Income-XologFTvsNW210-1-2-3-4-5661010202035620364 600404 6 0000000 10 20 30 40 50C_INCOME_XabsentpresentologPTvsNW210-1-292 31 212091 11 3 1541 12 2000 115000 10 20 30 40 50C_INCOME_X12absentpresentProf. Lídia Montero Pàg. 5-21 Curs 2.006-2.007


FME Models Lineals GeneralitzatsTEMA 5: RESP. POLITÓMICA. EJEMPLO 4 (FOX)5-3.1.1 Resolución por jerarquías de logits La variable de respuesta es politómica tiene 3 categorías ordenadas: no trabaja (1), trabaja a tiempoparcial (2) y trabaja a tiempo completo (3).El primer nivel establece la relación entre no trabaja y trabaja (a tiempo parcial más jornada completa),los resultados y discusión del modelo se realizó en el Tema 4,πlog+ πi 2 i3= 1.336 − 1.576 Ai− 0π.i1Factor 04231xdonde Factor = 1 si hay presencia de niños y 0 de otro modo.A iiProf. Lídia Montero Pàg. 5-22 Curs 2.006-2.007


FME Models Lineals GeneralitzatsTEMA 5: RESP. POLITÓMICA. EJEMPLO 4 (FOX)Binary Logistic Regression: Ybin_i versus Factor A; Income-XStep Log-Likelihood0 -178,0751 -159,9652 -159,8663 -159,8664 -159,866Link Function: LogitResponse InformationVariable Value CountYbin_i work 108 (Event)not_work 155Total 263Logistic Regression TableOdds 95% CIPredictor Coef SE Coef Z P Ratio Lower UpperConstant 1,3358 0,3838 3,48 0,000Factor Apresent -1,5756 0,2923 -5,39 0,000 0,21 0,12 0,37Income-X -0,04231 0,01978 -2,14 0,032 0,96 0,92 1,00Log-Likelihood = -159,866Test that all slopes are zero: G = 36,418; DF = 2; P-Value = 0,000Goodness-of-Fit TestsMethod Chi-Square DF PPearson 73,229 43 0,003Deviance 78,469 43 0,001Hosmer-Lemeshow 5,824 7 0,560Prof. Lídia Montero Pàg. 5-23 Curs 2.006-2.007


FME Models Lineals GeneralitzatsTEMA 5: RESP. POLITÓMICA. EJEMPLO 4 (FOX)En el segundo nivel se establece la relación entre trabajar a tiempo parcial (baseline) y trabajar a tiempocompleto:πlogπi3 = 3.478 − 2.651 Ai− 0.i2Factor 1073xdonde Factor A i= 1 si hay presencia de niños y 0 de otro modo.MTB > BLogistic 'Y_i' = 'Factor A' 'Income-X';SUBC> Factors 'Factor A';SUBC> Logit;SUBC> Reference 'Y_i' 'fulltime';SUBC> Brief 2.Binary Logistic Regression: Y_i versus Factor A; Income-XLink Function: LogitResponse InformationVariable Value CountY_i fulltime 66 (Event)parttime 42Total 108Logistic Regression TableOdds 95% CIPredictor Coef SE Coef Z P Ratio Lower UpperConstant 3,4778 0,7671 4,53 0,000Factor Apresent -2,6515 0,5411 -4,90 0,000 0,07 0,02 0,20Income-X -0,10727 0,03915 -2,74 0,006 0,90 0,83 0,97Log-Likelihood = -52,247Prof. Lídia Montero Pàg. 5-24 Curs 2.006-2.007i


FME Models Lineals GeneralitzatsTEMA 5: RESP. POLITÓMICA. EJEMPLO 4 (FOX)Test that all slopes are zero: G = 39,847; DF = 2; P-Value = 0,000Goodness-of-Fit TestsMethod Chi-Square DF PPearson 64,392 38 0,005Deviance 61,551 38 0,009Hosmer-Lemeshow 14,983 8 0,059Table of Observed and Expected Frequencies:(See Hosmer-Lemeshow Test for the Pearson Chi-Square Statistic)GroupValue 1 2 3 4 5 6 7 8 9 10 TotalfulltimeObs 1 6 3 1 8 7 11 8 13 8 66Exp 2,0 3,3 3,9 4,6 5,6 6,9 10,3 8,9 11,9 8,6parttimeObs 12 5 7 9 2 3 1 2 0 1 42Exp 11,0 7,7 6,1 5,4 4,4 3,1 1,7 1,1 1,1 0,4Total 13 11 10 10 10 10 12 10 13 9 108Measures of Association:(Between the Response Variable and Predicted Probabilities)Pairs Number Percent Summary MeasuresConcordant 2285 82,4% Somers' D 0,66Discordant 452 16,3% Goodman-Kruskal Gamma 0,67Ties 35 1,3% Kendall's Tau-a 0,32Total 2772 100,0%MTB >Prof. Lídia Montero Pàg. 5-25 Curs 2.006-2.007


FME Models Lineals GeneralitzatsTEMA 5: RESP. POLITÓMICA. EJEMPLO 4 (FOX) Los resultados son interesantes en este ejemplo: tanto la presencia de niños, como los ingresosmasculinos tienen un efecto más acusado en los odds del trabajo femenino a tiempo completo vs tiempoparcial, que no en los odds del primer nivel trabajar vs no trabajar. La estructura jerárquica enmascaralos resultados obtenidos empleando el modelo de respuestas politómicas nominales: las variablesexplicativas tienen poco efecto en los odds del trabajo a tiempo parcial vs no trabajar. La opción más adecuada de tratamiento: nomial, jerárquica u ordinal, se obtiene de comparar los AICde los mejores modelos dentro de cada tratamiento. El mínimo AIC corresponde a la propuestaJERARQUICA.o AIC Nominal: 2(219.018+6) = 450.036o AIC Jerárquico: Suma del AIC de los dos niveles jerárquicos: 2(159.866+3) + 2(52.247+3)o AIC Ordinal: 2(220.831 + 4 ) = 449.662Prof. Lídia Montero Pàg. 5-26 Curs 2.006-2.007


FME Models Lineals GeneralitzatsTEMA 5: RESP. POLITÓMICA. EJEMPLO 4 (FOX)5-3.1.2 Resolución con R: comandos empleados# MODELS DE RESPOSTA POLITOMICA# Integracio laboral en dones casades# Tenim al data.frame womenlf les dades referents a la situacio# laboral, ingressos del marit, si tenen o no fills, i la regio# on viuen.# A mes, el factor resposta work, el tenim ja ordenat:# not_work < parttime < fulltime# La columna de ones ens dona la freqüencia d'observacio de# cada individu.options(contrasts=c("contr.treatment","contr.treatment"))# Model de resposta nominal:# situacio laboral = ingressos + fills> womenlf summary(womenlf)id work income sons regionMin. : 1.0 fulltime: 66 Min. : 1.00 absent : 79 Atlantic: 301st Qu.: 66.5 not_work:155 1st Qu.:10.00 present:184 BC : 29Median :132.0 parttime: 42 Median :14.00 Ontario :108Mean :132.0 Mean :14.76 Prairie : 313rd Qu.:197.5 3rd Qu.:19.00 Quebec : 65Max. :263.0 Max. :45.00>> # Ordenar les categories>> womenlf$work womenlf$sons > # Introduir columna d'unsProf. Lídia Montero Pàg. 5-27 Curs 2.006-2.007


FME Models Lineals Generalitzats> womenlf$ones > summary(womenlf)id work income sons regionMin. : 1.0 not_work:155 Min. : 1.00 absent : 79 Atlantic: 301st Qu.: 66.5 parttime: 42 1st Qu.:10.00 present:184 BC : 29Median :132.0 fulltime: 66 Median :14.00 Ontario :108Mean :132.0 Mean :14.76 Prairie : 313rd Qu.:197.5 3rd Qu.:19.00 Quebec : 65Max. :263.0 Max. :45.00onesMin. :11st Qu.:1Median :1Mean :13rd Qu.:1Max. :1> attach(womenlf)> library(MASS)> library(nnet)> womenlf.mult summary(womenlf.mult)Call:multinom(formula = work ~ income + sons, data = womenlf, weights = ones)Coefficients:(Intercept) income sonspresentparttime -1.432321 0.006893838 0.02145558fulltime 1.982842 -0.097232073 -2.55860537Std. Errors:(Intercept) income sonspresentparttime 0.5924627 0.02345484 0.4690352Prof. Lídia Montero Pàg. 5-28 Curs 2.006-2.007


FME Models Lineals Generalitzatsfulltime 0.4841789 0.02809599 0.3621999Residual Deviance: 422.8819AIC: 434.8819Correlation of Coefficients:parttime:(Intercept) parttime:income parttime:sonspresentparttime:income -0.6951337parttime:sonspresent -0.7232561 0.1013946fulltime:(Intercept) 0.2484200 -0.1763135 -0.1779455fulltime:income -0.1147567 0.1757442 0.0097564fulltime:sonspresent -0.1935253 0.0265197 0.2689145fulltime:(Intercept) fulltime:incomeparttime:incomeparttime:sonspresentfulltime:(Intercept)fulltime:income -0.8462090fulltime:sonspresent -0.5465813 0.1989128>> # on hem obtingut els coeficients dels models:> # logit 1: parttime vs not_work> # logit 2: fulltime vs not_work>> # Model de resposta ordinal:> # situacio laboral = ingressos + fills>> library(MASS)> womenlf.polr summary(womenlf.polr)Re-fitting to get HessianCall:polr(formula = work ~ income + sons, data = womenlf, weights = ones)Coefficients:Value Std. Error t valueincome -0.05390064 0.01949011 -2.765538Prof. Lídia Montero Pàg. 5-29 Curs 2.006-2.007


FME Models Lineals Generalitzatssonspresent -1.97195697 0.28694830 -6.872168Intercepts:Value Std. Error t valuenot_work|parttime -1.8520 0.3863 -4.7943parttime|fulltime -0.9409 0.3699 -2.5435Residual Deviance: 441.663AIC: 449.663>> # on observem com els coeficients de les variables explicatives> # apareixen amb el signe invertit vers els apunts.>> # Models jerarquics:> # Not Work / Work> # Fulltime / Parttime>> work.bis fulltime.bis womenlf > # Model Work / Not Work:> attach(womenlf)> womenlf.work summary(womenlf.work)Call:glm(formula = work.bis ~ income + sons, family = binomial, data = womenlf)Deviance Residuals:Min 1Q Median 3Q Max-1.6767 -0.8652 -0.7768 0.9292 1.9970Coefficients:Estimate Std. Error z value Pr(>|z|)(Intercept) 1.33583 0.38376 3.481 0.0005 ***income -0.04231 0.01978 -2.139 0.0324 *sonspresent -1.57565 0.29226 -5.391 7e-08 ***Prof. Lídia Montero Pàg. 5-30 Curs 2.006-2.007


FME Models Lineals Generalitzats---Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1(Dispersion parameter for binomial family taken to be 1)Null deviance: 356.15 on 262 degrees of freedomResidual deviance: 319.73 on 260 degrees of freedomAIC: 325.73Number of Fisher Scoring iterations: 4>> # Model Fulltime / Parttime (dins de les que treballen):>> womenlf.fulltime summary(womenlf.fulltime)Call:glm(formula = fulltime.bis ~ income + sons, family = binomial,data = womenlf, subset = work != "not_work")Deviance Residuals:Min 1Q Median 3Q Max-2.4047 -0.8678 0.3949 0.6213 1.7641Coefficients:Estimate Std. Error z value Pr(>|z|)(Intercept) 3.47777 0.76711 4.534 5.80e-06 ***income -0.10727 0.03915 -2.740 0.00615 **sonspresent -2.65146 0.54108 -4.900 9.57e-07 ***---Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1(Dispersion parameter for binomial family taken to be 1)Null deviance: 144.34 on 107 degrees of freedomResidual deviance: 104.49 on 105 degrees of freedomAIC: 110.49Prof. Lídia Montero Pàg. 5-31 Curs 2.006-2.007


FME Models Lineals GeneralitzatsNumber of Fisher Scoring iterations: 5> # Questio: Quin tractament sembla mes adequat?>> # resposta ordinal?> # resposta nominal?> # models jerarquics?>> # Respondrem comparant les respostes observades i les esperades>> table(womenlf$work,predict(womenlf.polr))not_work parttime fulltimenot_work 133 0 22parttime 36 0 6fulltime 23 0 43> table(womenlf$work,predict(womenlf.mult))not_work parttime fulltimenot_work 136 0 19parttime 37 0 5fulltime 25 0 41>> table(womenlf$work,predict(womenlf.work)>0.5)FALSE TRUEnot_work 136 19parttime 37 5fulltime 26 40> table(womenlf$work[womenlf$work!="not_work"],predict(womenlf.fulltime)>0.5)FALSE TRUEnot_work 0 0parttime 36 6fulltime 20 46>> # Veiem com tractant la repsosta de manera politomica, tant> # nominal com ordinal, no aconseguim predir cap cas de donaProf. Lídia Montero Pàg. 5-32 Curs 2.006-2.007


FME Models Lineals Generalitzats> # que treballi parcialment.> # En canvi amb models jerarquics predim 56 dones a temps> # parcial de les quals 36 ho fan en realment.>> # Mirem AICs> anova(womenlf.work,test="Cp")Analysis of Deviance TableModel: binomial, link: logitResponse: work.bisTerms added sequentially (first to last)Df Deviance Resid. Df Resid. Dev CpNULL 262 356.15 358.15income 1 5.10 261 351.06 355.06sons 1 31.32 260 319.73 325.73> anova(womenlf.fulltime,test="Cp")Analysis of Deviance TableModel: binomial, link: logitResponse: fulltime.bisTerms added sequentially (first to last)Df Deviance Resid. Df Resid. Dev CpNULL 107 144.342 146.34income 1 7.711 106 136.631 140.63sons 1 32.136 105 104.495 110.49>> # Model jeràrquic: suma d'AICs = 325.73 + 110.49 = 436.22> # Ordinal: AIC: 449.663> # Multinomial: AIC: 434.8819 La millor opcióProf. Lídia Montero Pàg. 5-33 Curs 2.006-2.007


FME Models Lineals GeneralitzatsProf. Lídia Montero Pàg. 5-34 Curs 2.006-2.007


FME Models Lineals GeneralitzatsTEMA 5: RESP. POLITÓMICA. EJ. 6 (MADSEN-76, AGRESTI-90)5-3.2 Ejemplo 6: Condiciones de la Vivienda en CopenhagenDatos relativos al nivel de satisfacción (low, medium, high - referencia low) con la vivienda según el factorA -Housing -Tipo de Vivienda (tower, apartment, atrium, terrace – referencia i=1 tower), el factor C –Influence- Sensasión de Influencia en la gestión de la comunidad de vecinos (low, medium, high - referenciaj=1 low) y el Factor D –Contact- que es el grado de contacto con los otros residentes (low, high - referenciak=1 low). N=1681.5-3.2.1 Respuestas nominalesLa tabla contiene el análisis de la devianza para diversos modelos: no es exhaustiva. El modelo más adecuadoes el aditivo A+ C+D que emplea 14 grados de libertad y tiene una explicabilidad del 82%.MTB > Name c7 = 'NTRI1' c8 = 'EPROB1' c9 = 'EPROB2' c10 = 'EPROB3' &CONT> c11 = 'NOCC1' c12 = 'NOCC2' c13 = 'NOCC3'MTB > NLogistic 'satisfaction' = housing influence contact ;SUBC> Frequency 'n';SUBC> Factors 'housing' 'influence' 'contact';SUBC> Reference 'satisfaction' 'low' &CONT> housing 'tower' influence 'low' contact 'low';SUBC> Ntrials 'NTRI1';SUBC> Eprobability 'EPROB1'-'EPROB3';SUBC> Noccur 'NOCC1'-'NOCC3';SUBC> Brief 2.Nominal Logistic Regression: satisfaction versus housing; influence; ...Response InformationProf. Lídia Montero Pàg. 5-35 Curs 2.006-2.007


FME Models Lineals GeneralitzatsTEMA 5: RESP. POLITÓMICA. EJEMPLO 6 (MADSEN-76, AGRESTI-90)Variable Value Countsatisfac low 567 (Reference Event)medium 446high 668Total 1681 Frequency: nLogistic Regression TableOdds 95% CIPredictor Coef SE Coef Z P Ratio Lower UpperLogit 1: (medium/low)Constant -0,4192 0,1729 -2,42 0,015housingapartments -0,4357 0,1725 -2,53 0,012 0,65 0,46 0,91atrium 0,1314 0,2231 0,59 0,556 1,14 0,74 1,77terraced -0,6666 0,2063 -3,23 0,001 0,51 0,34 0,77influenchigh 0,6649 0,1863 3,57 0,000 1,94 1,35 2,80medium 0,4464 0,1416 3,15 0,002 1,56 1,18 2,06contacthigh 0,3609 0,1324 2,73 0,006 1,43 1,11 1,86Logit 2: (high/low)Constant -0,1387 0,1592 -0,87 0,384housingapartments -0,7356 0,1553 -4,74 0,000 0,48 0,35 0,65atrium -0,4080 0,2115 -1,93 0,054 0,66 0,44 1,01terraced -1,4123 0,2001 -7,06 0,000 0,24 0,16 0,36influenchigh 1,6126 0,1671 9,65 0,000 5,02 3,61 6,96medium 0,7349 0,1369 5,37 0,000 2,09 1,59 2,73contacthigh 0,4818 0,1241 3,88 0,000 1,62 1,27 2,07πlogππlogπLog-likelihood = -1735,042 Test that all slopes are zero: G = 178,794; DF = 12; P-Value = 0,000Goodness-of-Fit TestsMethod Chi-Square DF PPearson 38,910 34 0,258Deviance 38,662 34 0,267ijk 2ijk1α12ijk 3ijk1α= θ132= β+ α123= β13i2= γ= θ + αi3+ β12= γ13=+ β=j20j30+ γ+ γk 2k 3Prof. Lídia Montero Pàg. 5-36 Curs 2.006-2.007


FME Models Lineals GeneralitzatsTEMA 5: RESP. POLITÓMICA. EJEMPLO 6 (MADSEN-76, AGRESTI-90)Modelo p Devianza oLog-Verosimilitud0 1 2 ¿?Análisis de la Devianza∆ Devianza g.l.ContrasteComentariosH0 Accept.1 A+C 12 -1743.072 16.06 2 1 vs 4 No2 A+D 10 -1789.601 109.118 4 2 vs 4 No3 C+D 8 -1766.155 66.226 6 3 vs 4 No4 A+C+D 14 -1735.042 - - -5 D+A*C 26 -1723.764 22.556 12 4 vs 5 No estrict.6 C+A*D 20 -1729.839 10.406 6 4 vs 6 Si7 A+C*D 18 -1734.447 1.19 4 4 vs 7 SiProf. Lídia Montero Pàg. 5-37 Curs 2.006-2.007


FME Models Lineals GeneralitzatsTEMA 5: RESP. POLITÓMICA. EJEMPLO 6 (MADSEN-76, AGRESTI-90)5-3.2.2 Resolución con R: selección de comandos> copen summary(copen)id housing influence contact satisfactionMin. : 1.00 apartments:18 high :24 high:36 high :241st Qu.:18.75 atrium :18 low :24 low :36 low :24Median :36.50 terraced :18 medium:24 medium:24Mean :36.50 tower :183rd Qu.:54.25Max. :72.00nMin. : 3.001st Qu.:10.00Median :19.50Mean :23.353rd Qu.:31.75Max. :86.00> # Ordenar les categories>> copen$housing copen$influence copen$contact copen$satisfaction > summary(copen)id housing influence contact satisfactionMin. : 1.00 tower :18 low :24 low :36 low :241st Qu.:18.75 apartments:18 medium:24 high:36 medium:24Median :36.50 atrium :18 high :24 high :24Mean :36.50 terraced :183rd Qu.:54.25Max. :72.00nProf. Lídia Montero Pàg. 5-38 Curs 2.006-2.007


FME Models Lineals GeneralitzatsMin. : 3.001st Qu.:10.00Median :19.50Mean :23.353rd Qu.:31.75Max. :86.00> attach(copen)> save.image("E:/LIDIA/MLGz2000/Fox_data/copenhagen.RData")> library(MASS)> library(nnet)> copen.mult summary(copen.mult)Call:multinom(formula = satisfaction ~ housing + influence + contact,data = copen, weights = n)Coefficients:(Intercept) housingapartments housingatrium housingterracedmedium -0.4192316 -0.4356851 0.1313663 -0.6665728high -0.1387453 -0.7356261 -0.4079808 -1.4123333influencemedium influencehigh contacthighmedium 0.4464003 0.6649367 0.3608513high 0.7348626 1.6126294 0.4818236Std. Errors:(Intercept) housingapartments housingatrium housingterracedmedium 0.1729344 0.1725327 0.2231065 0.2062532high 0.1592295 0.1552714 0.2114965 0.2001496influencemedium influencehigh contacthighmedium 0.1415572 0.1863374 0.1323975high 0.1369380 0.1671316 0.1241371Residual Deviance: 3470.084Prof. Lídia Montero Pàg. 5-39 Curs 2.006-2.007


FME Models Lineals GeneralitzatsAIC: 3498.084Correlation of Coefficients:medium:(Intercept) medium:housingapartmentsmedium:housingapartments -0.6278094medium:housingatrium -0.4945782 0.5410689medium:housingterraced -0.5234559 0.5864688medium:influencemedium -0.4280331 -0.0075181medium:influencehigh -0.3230414 -0.0612844medium:contacthigh -0.3692088 -0.1183041high:(Intercept) 0.5017068 -0.3545327high:housingapartments -0.3650695 0.5497036high:housingatrium -0.2786257 0.2956732high:housingterraced -0.2782805 0.3152161high:influencemedium -0.1712950 -0.0111931high:influencehigh -0.1379783 -0.0389483high:contacthigh -0.1653178 -0.0638719medium:housingatrium medium:housingterracedmedium:housingapartmentsmedium:housingatriummedium:housingterraced 0.4585719medium:influencemedium 0.0338840 0.0149134medium:influencehigh -0.0192219 -0.0070747medium:contacthigh -0.1188743 -0.1486046high:(Intercept) -0.2793482 -0.2890365high:housingapartments 0.3123221 0.3400314high:housingatrium 0.5793699 0.2514582high:housingterraced 0.2456795 0.4636825high:influencemedium 0.0113806 -0.0059018high:influencehigh -0.0137380 -0.0165789high:contacthigh -0.0616409 -0.0844150medium:influencemedium medium:influencehighmedium:housingapartmentsmedium:housingatriummedium:housingterracedmedium:influencemediummedium:influencehigh 0.3734337medium:contacthigh 0.0599551 0.1201076Prof. Lídia Montero Pàg. 5-40 Curs 2.006-2.007


FME Models Lineals Generalitzatshigh:(Intercept) -0.1842800 -0.1391456high:housingapartments -0.0100382 -0.0427188high:housingatrium 0.0190241 -0.0034520high:housingterraced -0.0021041 -0.0190204high:influencemedium 0.4599583 0.1542386high:influencehigh 0.1658999 0.5525026high:contacthigh 0.0381105 0.0751120medium:contacthigh high:(Intercept)medium:housingapartmentsmedium:housingatriummedium:housingterracedmedium:influencemediummedium:influencehighmedium:contacthighhigh:(Intercept) -0.1706113high:housingapartments -0.0644545 -0.5824301high:housingatrium -0.0553003 -0.4361762high:housingterraced -0.0777308 -0.4461163high:influencemedium 0.0360953 -0.4678698high:influencehigh 0.0702133 -0.3792747high:contacthigh 0.4933571 -0.3791085high:housingapartments high:housingatriummedium:housingapartmentsmedium:housingatriummedium:housingterracedmedium:influencemediummedium:influencehighmedium:contacthighhigh:(Intercept)high:housingapartmentshigh:housingatrium 0.5063605high:housingterraced 0.5365003 0.3981812high:influencemedium -0.0184922 0.0238983high:influencehigh -0.0875831 -0.0322133high:contacthigh -0.1304702 -0.1260450high:housingterraced high:influencemediummedium:housingapartmentsmedium:housingatriumProf. Lídia Montero Pàg. 5-41 Curs 2.006-2.007


FME Models Lineals Generalitzatsmedium:housingterracedmedium:influencemediummedium:influencehighmedium:contacthighhigh:(Intercept)high:housingapartmentshigh:housingatriumhigh:housingterracedhigh:influencemedium -0.0015500high:influencehigh -0.0381805 0.4313330high:contacthigh -0.1487043 0.0614352high:influencehighmedium:housingapartmentsmedium:housingatriummedium:housingterracedmedium:influencemediummedium:influencehighmedium:contacthighhigh:(Intercept)high:housingapartmentshigh:housingatriumhigh:housingterracedhigh:influencemediumhigh:influencehighhigh:contacthigh 0.1411102>Prof. Lídia Montero Pàg. 5-42 Curs 2.006-2.007

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!