12.07.2015 Views

Apunte de clase - Instituto de Matemáticas y Física - Universidad de ...

Apunte de clase - Instituto de Matemáticas y Física - Universidad de ...

Apunte de clase - Instituto de Matemáticas y Física - Universidad de ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

XI Jornadas Nacionales <strong>de</strong> BioestadísticaIX Seminario Chileno <strong>de</strong> Estadística BayesianaIV Encuentro Odontológico – EstadísticoBioestadística Básica con Rcmdr<strong>Instituto</strong> <strong>de</strong> Matemática y FísicaFacultad <strong>de</strong> Ciencias <strong>de</strong> la SaludTalca, 12 - 14 <strong>de</strong> enero <strong>de</strong> 2011.<strong>Universidad</strong> <strong>de</strong> Talca – Campus Lircay – Auditorio FACE – http://inst-mat.utalca.cl/jornadasbioestadistica20111


AUSPICIANOrganizan: <strong>Instituto</strong> <strong>de</strong> Matemática y Física, Facultad <strong>de</strong> Ciencias <strong>de</strong> la Salud, <strong>Universidad</strong> <strong>de</strong> Talca. Patrocinan: TheInternational Biometric Society, International Society for Bayesian Analysis. Auspician: Dirección <strong>de</strong> Investigación,<strong>Universidad</strong> <strong>de</strong> Talca, Sociedad Chilena <strong>de</strong> Estadística, <strong>Universidad</strong> Católica <strong>de</strong>l Maule, <strong>Universidad</strong> <strong>de</strong> Santiago <strong>de</strong> Chile,<strong>Universidad</strong> <strong>de</strong> Concepción, Pontificia <strong>Universidad</strong> Católica <strong>de</strong> Chile, Proyecto MECESUP PUC0802, The University ofA<strong>de</strong>lai<strong>de</strong>, Oral-B, Colgate y Dentaid.2


BIOESTADÍSTICA BÁSICA CON R-Comman<strong>de</strong>r (Rcmdr)Juan Barrera y Alex Soto. <strong>Instituto</strong> <strong>de</strong> Matemática y Física. <strong>Universidad</strong> <strong>de</strong> Talca.CONTENIDO– Objetivo– Bibliografía– Introducción– Instalación <strong>de</strong> R-Comman<strong>de</strong>r– La organización <strong>de</strong> la información– Estadística <strong>de</strong>scriptivaOBJETIVOPresentar los aspectos fundamentales <strong>de</strong>l manejo, análisis y representación gráfica <strong>de</strong> datos en R a través <strong>de</strong> lainterfaz R-Comman<strong>de</strong>r (Rcmdr).BIBLIOGRAFÍAEstadística Básica con R y R-Comman<strong>de</strong>r. A. J. Arriaza Gómez, F. Fernán<strong>de</strong>z Palacín, M. A. López Sánchez,M. Muñoz Márquez, S. Pérez Plaza, A. Sánchez Navas. http://knuth.uca.es/moodle/course/view.php?id=37INTRODUCCION¿Qué es R?“R es un lenguaje y ambiente computacional para la realización <strong>de</strong> gráficos y análisis estadístico”.Usaremos R a través <strong>de</strong> su interfaz gráfica R-Comman<strong>de</strong>r, que se <strong>de</strong>notará abreviadamente como Rcmdr.– R fue <strong>de</strong>sarrollado por Dr. Ross Ihaka and Dr. Robert Gentleman (Dept. of Stats, Univ. Of Auckland) en1992.– La interfaz gráfica <strong>de</strong> usuario (GUI) Rcmdr preten<strong>de</strong>, en primera instancia, facilitar el manejo <strong>de</strong> R y, ensegundo lugar, servir como generador <strong>de</strong> instrucciones R.– R-cmdr es uno <strong>de</strong> los mejores y más po<strong>de</strong>rosos paquetes estadísticos.– R-cmdr es totalmente gratuito.3


¿Cuáles son los gran<strong>de</strong>s atractivos <strong>de</strong> Rcmdr?– Los gráficos <strong>de</strong> alta calidad.– La capacidad <strong>de</strong> combinar, análisis específicos para cada situación.– La capacidad <strong>de</strong> manipular y modificar datos y funciones.– Las actualizaciones son frecuentes.– En este momento se encuentra disponible la versión R 2.11.1 (29 junio 2010)¿Cuántos usan Rcmdr?No se pue<strong>de</strong> estimar directamente ya que es un software “gratuito” que se baja directamente <strong>de</strong> varios sitios enInternet.4


¿Qué libros en estadística usan R?¿Don<strong>de</strong> se encuentra información sobre R?• Los manuales en el directorio <strong>de</strong> instalación con documentación http://www.cran.r-project.org/ (manuals)- An introduction to R.- The R language <strong>de</strong>finition.- Writing R extensions.- R data import/export.- R installation and administration.- R Internals.- The R Reference In<strong>de</strong>x.• El sitio http://www.r-project.org/•Pue<strong>de</strong>n subscribirse a la lista <strong>de</strong> correo para actualizaciones <strong>de</strong> R (no Rcmdr)https://www.stat.math.ethz.ch/mailman/listinfo/r-help.• El Newsletter” <strong>de</strong> R: “Rnews”.5


INSTALACIÓN DE R-Comman<strong>de</strong>rLa <strong>de</strong>scarga <strong>de</strong> R en el equipo se efectúa <strong>de</strong>s<strong>de</strong>: http://knuth.uca.es/R/doku.php. Seleccionar el linkVersión 2.11.1 Paquete R-UCA para Windows. Luego se proce<strong>de</strong> con la ejecución, siguiendo las instrucciones.Si se cierra Rcmdr (sin cerrar R) y requiere volver a cargarlo, se <strong>de</strong>be ejecutar la instrucción Comman<strong>de</strong>r().LA ORGANIZACIÓN DE LA INFORMACIÓN• La estadística y la calidad <strong>de</strong> los datos (Bioestadística, Erica Taucher)“El estadístico ha <strong>de</strong>jado <strong>de</strong> ser un alquimista <strong>de</strong>l cual se espera produzca oro a partir <strong>de</strong> cualquier materialsin valor. Es más bien un químico capaz <strong>de</strong> <strong>de</strong>terminar exactamente cuánto contiene <strong>de</strong> valioso, y capaztambién <strong>de</strong> extraer esa cantidad y no más… Si es competente en su oficio, el valor <strong>de</strong> los resultados<strong>de</strong>pen<strong>de</strong>rá exclusivamente <strong>de</strong> la calidad <strong>de</strong>l material que se le ha entregado” (R.A. Fisher).• DefinicionesVali<strong>de</strong>z: se dice que una medida tiene vali<strong>de</strong>z si es indicativa <strong>de</strong>l estado que se preten<strong>de</strong> medir. En otraspalabras, <strong>de</strong>bería reflejar la verdad. Ejemplos: la fiebre pue<strong>de</strong> no ser in indicador válido (suficiente) <strong>de</strong>tifoi<strong>de</strong>a; la ausencia <strong>de</strong> hijos pue<strong>de</strong> no ser un indicador válido <strong>de</strong> esterilidad.Error: diferencia entre la medida asignada a un objeto y su valor verda<strong>de</strong>ro.Observador: persona que interviene en el proceso <strong>de</strong> obtención <strong>de</strong> información <strong>de</strong>s<strong>de</strong> la inspección,interrogación, examen o medición <strong>de</strong>l objeto, hasta el registro <strong>de</strong>l dato.Objeto o Unidad: es la menor división <strong>de</strong>l material en estudio sometido a observación. Es un objetoindividual que pue<strong>de</strong> ser materia <strong>de</strong> conocimiento por parte <strong>de</strong>l observador. Recibe diferentes<strong>de</strong>nominaciones: elemento, individuo, unidad experimental, unidad <strong>de</strong> observación, caso, objeto, unidadmuestral, etc. Cuando la unidad es una persona, lo referimos como sujeto.Variable: Característica <strong>de</strong>l sujeto que pue<strong>de</strong> tomar distintos valores en cada unidad. Por ejemplo, la estatura<strong>de</strong> una persona: asignamos un número a cada persona.Dato u Observación: Son los distintos estados en los que se pue<strong>de</strong> encontrar una característica <strong>de</strong> un sujeto.Estos pue<strong>de</strong>n ser cualitativos (hombre, mujer) o cuantitativos (161cm).6


Instrumento: es el medio utilizado para realizar la observación. Cuanto mayor sea el po<strong>de</strong>r discriminatorio<strong>de</strong>l instrumento, tanto más precisa será la observación. Hay tres tipos principales <strong>de</strong> instrumentos:- Aparatos: la medición se hace con un dispositivo mecánico. Ejemplo: básculas, termómetros.- Humano: la medición la hacen las personas, con escasa o nula utilización <strong>de</strong> aparatos. Ejemplo:auscultación <strong>de</strong>l corazón.- Combinación <strong>de</strong> humano y aparato: Ejemplo: interpretación <strong>de</strong> radiografías.• Tipos <strong>de</strong> VariablesUna variable es una característica que cambia (varía) <strong>de</strong> unidad en unidad. Existen dos categorías o tipo <strong>de</strong>variables:Cualitativas: Los valores son i<strong>de</strong>ntificados con palabras. Es aquella que expresa un atributo o característicacuyos posibles valores se refieren a una cualidad presente o ausente. Los posibles valores son excluyentes.Esta a su vez la po<strong>de</strong>mos subdividir en:◦ Nominal: Permite agrupar observaciones <strong>de</strong> acuerdo a una cualidad o atributo. No existe una relación <strong>de</strong>or<strong>de</strong>n.◦ Ordinal: Permite agrupar observaciones <strong>de</strong> acuerdo a una cualidad o atributo cuyos valores tienen unarelación <strong>de</strong> or<strong>de</strong>n.Cuantitativas: Es aquella que po<strong>de</strong>mos expresar numéricamente: edad, peso, nº <strong>de</strong> hijos, etc. Esta a su vez lapo<strong>de</strong>mos subdividir en:◦ Discreta: Es aquella que entre dos valores próximos pue<strong>de</strong> tomar a lo sumo un número finito <strong>de</strong> valoresenteros.◦ Continua: El número <strong>de</strong> valores posibles entre dos valores dados es infinito. Son el resultado <strong>de</strong> medir.7


ACTIVAR R-Comman<strong>de</strong>rInicio > Todos los programas > R > RAl activarse R-Comman<strong>de</strong>r mostrará tres ventanas:- Ventana <strong>de</strong> instrucciones- Ventana <strong>de</strong> resultados- Mensajes8


• Crear una base <strong>de</strong> datosDatos > Nuevo conjunto <strong>de</strong> datos…En ventana: Nuevo conjunto <strong>de</strong> datos > en Introducir el nombre <strong>de</strong>l conjunto <strong>de</strong>datos: “datos”. Solo caracteres (no numérico)En ventana Editor <strong>de</strong> datos > con el botón izquierdo <strong>de</strong>l mouse seleccione “var1”9


En ventana Editor <strong>de</strong> variables > en Nombre <strong>de</strong> variable > “nombrevar1” y seleccionar tipo(numeric ó carácter).10


• Importar una base <strong>de</strong> datosDatos > Importar datos > <strong>de</strong>s<strong>de</strong> conjunto <strong>de</strong> datos Excel, Access o dBase…En ventana: Importar datos <strong>de</strong>s<strong>de</strong> Excel, Access o dBase > en Introducir elnombre <strong>de</strong>l conjunto <strong>de</strong> datos: “datos”. Solo caracteres (no numérico)Si <strong>de</strong>sea solo mirar los datos seleccione el botón Visualizar conjunto <strong>de</strong> datos.11


R-Comman<strong>de</strong>r mostrará la plantilla <strong>de</strong> la siguiente manera:Si <strong>de</strong>sea editar los datos seleccione el botón Editar conjunto <strong>de</strong> datos.R-Comman<strong>de</strong>r mostrará la plantilla <strong>de</strong> la siguiente manera:Al importar los datos, R-Comman<strong>de</strong>r clasifica el tipo <strong>de</strong> variable automáticamente.12


• La plantilla (matriz) <strong>de</strong> datosSe <strong>de</strong>fine como la manera <strong>de</strong> organizar la información <strong>de</strong> un conjunto <strong>de</strong> n individuos <strong>de</strong> los cuales se obtienenuna serie <strong>de</strong> k características (variables) <strong>de</strong> igual o distinta naturaleza. Es importante tener en cuenta que lacalidad <strong>de</strong>l análisis que se realice, va a <strong>de</strong>pen<strong>de</strong>r <strong>de</strong> la habilidad suficiente para seleccionar las variablesnecesarias <strong>de</strong>l conjunto <strong>de</strong> individuos.Los datos obtenidos se organizarán en una matriz n×k, don<strong>de</strong> cada fila representa a un individuo o registro y lascolumnas a las características observadas o variables. Las columnas tendrán naturaleza homogénea, pudiendotratarse <strong>de</strong> variables nominales, dicotómicas o politómicas, presencias–ausencias, conteos, escalas <strong>de</strong> intervalo,razones, etc. En ocasiones se aña<strong>de</strong> una columna que se suele colocar en primer lugar y que asigna un nombre acada individuo; dicha columna recibe el nombre <strong>de</strong> variable etiqueta (Id).• Exportar datos <strong>de</strong> R a ExcelDatos > Conjunto <strong>de</strong> datos activo > Exportar el conjunto <strong>de</strong> datos activo…En ventana: Exportar el conjunto <strong>de</strong> datos activos > Aceptar13


Inicio > Todos los programas > Excel > Abrir14


ESTADÍSTICA DESCRIPTIVA• Validación <strong>de</strong> la matriz <strong>de</strong> datosHay veces en que por distintos motivos la matriz <strong>de</strong> datos presenta casillas vacías, ello se <strong>de</strong>be a que no se hapodido medir un dato o a que se ha perdido la observación. En otras ocasiones un dato presente en la matriz hasido <strong>de</strong>purado por presentar algún tipo <strong>de</strong> anomalía, como haber sido mal medido, mal transcrito a la matriz <strong>de</strong>datos, etc. La i<strong>de</strong>ntificación <strong>de</strong> estos elementos anómalos se realiza mediante un proceso <strong>de</strong> <strong>de</strong>tección <strong>de</strong>inconsistencias o <strong>de</strong> evaluación <strong>de</strong> valores extremos, muy gran<strong>de</strong>s o muy pequeños, que <strong>de</strong>terminará sirazonablemente pue<strong>de</strong>n pertenecer al conjunto <strong>de</strong> datos. A veces se sustituye el valor <strong>de</strong>purado <strong>de</strong> individuo poruno que sea congruente con el resto <strong>de</strong> caracteres <strong>de</strong>l mismo, mediante técnicas que se conocen como <strong>de</strong>imputación. Los espacios en blanco que <strong>de</strong>finitivamente que<strong>de</strong>n en la matriz se referirán como valores omitidoso, más comunmente, como valores missing. En R estos valores se representan con NA (Not Available). Enfunción <strong>de</strong>l tipo <strong>de</strong> análisis que se esté realizando, el procedimiento <strong>de</strong>sestimará sólo el dato o todo el registrocompleto.Estadísticos > Resúmenes > Número <strong>de</strong> observaciones ausentes17


Estadísticos > Resúmenes > Resúmenes numéricos18


Gráficas > Diagrama <strong>de</strong> dispersión…19


Datos > Modificar variables <strong>de</strong>l conjunto <strong>de</strong> datos activo > Calcular unanueva variable…20


Estadísticos > Resúmenes > Resúmenes numéricos21


Datos > Modificar variables <strong>de</strong>l conjunto <strong>de</strong> datos activo > RecodificardatosNota: el límite inferior correspon<strong>de</strong> al intervalo abierto y el superior al intervalo cerrado.23


Estadísticos > Resúmenes > Distribución <strong>de</strong> frecuencias…24


Gráficas > Gráfica <strong>de</strong> barras…26


Datos > Modificar variables <strong>de</strong>l conjunto <strong>de</strong> datos activo > Reor<strong>de</strong>narniveles <strong>de</strong> factor…31


Gráficas > Gráfica <strong>de</strong> sectores…33


Datos > Conjunto <strong>de</strong> datos activo > Filtrar el conjunto <strong>de</strong> datos activo…Datos > Conjunto <strong>de</strong> datos activo > Seleccionar el conjunto <strong>de</strong> datos activo34


Gráficas > Diagrama <strong>de</strong> caja…36


Gráficas > Gráfica XY…37


Estadísticos > Tablas <strong>de</strong> contingencia > Tabla <strong>de</strong> doble entrada…39


Gráficas > Gráfica <strong>de</strong> barras…40

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!