Introducción a la Estadística con R y RStudio
FULL TRANSCRIPT
En este vídeo vamos a aprender un poco
de estadística
y para ello vamos a trabajar con el
lenguaje de programación R
y uno de sus interfaces más importantes
que es R Studio.
Primero, ¿qué es la estadística?
Bueno, pues es una parte de las
matemáticas
que trabaja en el análisis de datos,
grandes cantidades de datos que pueden
ser analizadas para extraer
conclusiones,
por ejemplo, después de hacer un
experimento científico o si quieres
conocer lo que está ocurriendo en una
población.
Y para ello, pues haces un estudio de
una muestra y mediante inferencia
estadística puedes obtener datos de lo
que sería la población total.
Y esta rama de las matemáticas realmente
es importante
porque
se puede aplicar en medicina en
biología,
psicología,
también en la tecnología,
en lo que sería hoy en día inteligencia
artificial.
Eh, por tanto, es una cosa importante
conocer y R nos va a facilitar poder
trabajar con datos
eh estadísticos
y, por ejemplo, hacer una visualización
de ellos.
Entonces, lo primero sería descargarse e
instalar este lenguaje de programación
R. Entonces, habría que darle esta
dirección
y aquí tendríamos la plataforma.
para descargarlo sería esta
este link, aunque es más fácil
yendo directamente a la página de la
interfaz R Studio, le diéramos aquí
y llegaríamos
a esta zona. Esto esto es lo primero que
te pide instalar R. Es más fácil
instalarlo por aquí realmente. Si le
damos aquí puedes elegir tu sistema
operativo,
Windows sería el Ma normal también
Macos, incluso Linux si te hiciera
falta.
Y luego, una vez que ya tengas instalado
R,
habría que instalar R Studio,
¿vale? automáticamente sabe que mi
sistema operativo es del Mac, MacOS,
pero en vuestro caso si estáis usando
Windows, pues te aparecería por cierto
Windows. Entonces, una vez que está esto
instalado, le das a la aplicación, abres
el icono y saldría algo parecido a esto.
¿Vale? Esto de aquí es la consola. Esta
zona es donde están las variables
y aquí estarían los archivos y
directorios.
Entonces, antes de nada, lo que yo
recomiendo es que vayáis a herramientas,
Tools, Global Options y donde pone
general, aquí es donde tienes que
cambiar el directorio de trabajo,
¿vale? ese directorio de trabajo.
Vamos a verlo.
Por ejemplo, yo tengo este asignado,
pero tú puedes irte directamente al raíz
de Windows o del Mac y aquí puedes, por
ejemplo, crear un directorio llamado
datos. Entonces, podrías trabajar
con este directorio.
Te vas a Global Options y eliges ese
directorio, ¿vale?
Es un ejemplo, puedes elegir el que
quieras
y luego hay que darle a aplicar. Otra
cosa importante
sería la apariencia.
Yo he elegido esta
interfaz, este skin si quieres, pero
puedes elegir otros. Tiene muchos,
¿vale?
Escoge el que más te guste.
También puedes cambiar el tipo de letra,
etcétera. Y habría que darle aquí apply.
Eh, como veis, aquí hay una especie de
escoba. Esto es para limpiar. Vamos a
limpiar esta zona de aquí. También vamos
a limpiar todas las variables que tiene
almacenadas
en la memoria. Le damos aquí
y
vamos a irnos
al directorio que tengo por defecto, que
es
el de RDCs.
¿Vale? Entonces, este de aquí es donde
vamos a yo voy a trabajar. En vuestro
caso, pues sería el que hayáis asignado.
Y lo que vamos a hacer es cargar un
script. es un programa, fijaros que
acaba en R
donde tengo ya digamos los datos para ir
trabajando con este con este vídeo.
Una vez que hemos hecho ya lo de la
configuración,
para ver realmente en qué directorio
estamos trabajando,
pues podemos usar este comando
y te dice el directorio de trabajo de
working directory
y efectivamente en mi caso es reds.
Fijaros que hm he escrito aquí en la
consola
y esta consola puede servir de
calculadora. Es como una calculadora. Le
damos a 2 + 2, eh,
2 * 3, etcétera. Puedes hacer cálculos
matemáticos,
pero si tienes el script, puedes
ejecutar línea a línea. Por ejemplo, me
pongo aquí y le digo a run y me hace
este cálculo 5* 10.
me aparece la operación y el cálculo.
2 elevado 3, pues es 8.
También podemos, como en muchos
programas, muchos lenguajes de
programación
asignar variables. El caso es que en R
para poder asignar tenemos que usar esta
flecha invertida. Por ejemplo, yo este
número 50 quiero introducírselo a una
variable que la llamo mi variable.
Le voy a dar a ejecutar
y veis que en esta zona de variables
aparece mi variable 50. Y ahora ya puedo
trabajar como si fuera un número. Puedo
dividirla entre dos, por ejemplo,
y me aparece 25.
También podemos trabajar con texto, le
podemos decir que escriba esta frase o
la gente, etcétera. Es decir, es como
muchos lenguajes de programación.
Bien, pero lo importante de R y en este
caso la interfaz R Studio es que tú
puedes usarlo para lo que se llama
datasets o bases de datos en español.
Entonces vamos a ver, por ejemplo, los
que tiene almacenados ya por defecto con
este comando.
Y fijaros la cantidad que tiene ya
almacenada
en el paquete que se llama dataset.
tiene todas estas bases de datos,
por ejemplo, la calidad calidad del aire
en Nueva York o eh cosas de coches,
etcétera.
Pero eh R funciona con paquetes,
entonces tú puedes ir instalándole
paquetes para poder trabajar con
diversas aplicaciones que te hicieran
falta mediante librerías que se llama,
ahora veremos.
Entonces, todos los datasets que tiene
instalados, todas las bases de datos que
realmente tien instaladas, se puede
conocer con este comando. Le vamos a
dar.
Y fijaros
la cantidad
que tenemos,
¿vale? Son estos. Este es el dataset
que se llama así, dataset que tiene
todos estos, pero todos los que están ya
instalados son, fijaros, esta cantidad,
una cantidad gigantesca. Hay como 23,000
paquetes eh DR que puedes instalar para
diversas aplicaciones. Eh, cada persona
pues si necesita que trabajar, por
ejemplo, con epidemiología, con
epidemias o tiene que trabajar con
fármacos, pues puede usar esto, un
paquete concreto. Por ejemplo, vamos a
usar el paquete que viene ya instalado,
se llama eh Iris,
que es sobre flores, un tipo de flores.
Entonces vamos a ejecutar Iris. Voy a
cerrar estos de aquí.
Voy a borrar la variable esta, ya no nos
hace falta. Y vamos a ver este paquete.
Le damos a run.
Y fijaros que me ha impreso toda la
información que tiene en este paquete,
en este datasets, mejor dicho, en este
dataset que es sobre flores. Te habla de
la longitud del sépalo, del pétalo, la
anchura del pétalo y del sépalo y de qué
tipo de especie estamos hablando.
También se puede ejecutar con data y el
nombre del dataset. Le damos
y además aparece aquí en esta zona de
variables cuando lo hacemos de esta
manera. Si le damos un doble clic,
un solo clic, nos aparece cuántas
observaciones hay, sería cuántas filas
si quieres, y las cinco variables, cinco
columnas. Si lo queréis ver en forma de
tabla, le das un doble clic y así te
aparece aquí
toda esta información, ¿vale? Entonces,
digamos que con R lo que hacemos es
trabajar con datasets. Podemos extraer
de ahí información. Por ejemplo, vamos a
ver la cabecera de esta base de datos.
Le damos con head
y nos aparecen las primeras líneas, los
primeros registros de esa base de datos.
Si quieres ver los últimos registros es
con Tail,
te aparecen los últimos. Además hay una
un comando muy potente que es summary
que te dice, como solo indica, pues una
especie de resumen de toda la base de
datos. Vamos a darle para que lo veáis.
Y aquí es donde empieza ya la
estadística, porque fijaros, te aparece
cada una de las cinco variables
con su valor mínimo, su valor máximo.
Estos son variables cuantitativas
y también lo que es la media, la
mediana, primer cuartil, tercer cuartil,
etcétera. O sea, son datos interesantes
que pueden sernos útiles. Esta variable
como es cualitativa, categórica que se
llama, pues simplemente nos indica las
tres variedades dentro de esta variable,
que son las tres especies de de este
tipo de flores y la cantidad que hay.
Eh, podríamos ver la estructura de esta
base de datos
con este comando. Vamos a darle.
Y lo que nos dice es pues qué tipo de
variables hay. Bueno, el número de
observaciones, las variables y el tipo
de esta variable numérica también. Estas
cuatro son numéricas y esta es de tipo
categórico, es decir, de tipo no
cuantitativo, no?
Si quieres ver exactamente la variables
que le das a name con este comando
y te aparecen.
Y si quieres en concreto conocer
dentro de la
variables especies, puedes usar esta
notación que fijaros que es primero el
nombre del data frame, data frame
dataset, luego el símbolo del dólar y
esto el de la variable. Entonces nos
dice la cabecera de esta eh columna en
concreto. le vamos a dar y los cinco
primeros datos o seis, en este caso, los
seis primeros datos de esa columna que
efectivamente os fijáis
1 2 3 4 5 y 6 de la columna de especies
de la variable especies, la primera
información y hay un comando muy potente
que es plot y la pones el nombre de la
base de datos del dataset y te da una
información rápida, visual de en qué
consiste esto. Vamos a ejecutarlo para
que lo veáis. Fijaros la cantidad de
información que te da.
Esto sería hépalor longitud frente a
sépalor amplitud y te daría pues estas
diversas gráficas, ¿vale? Una frente a
otra de las variables posibles.
Bueno, vamos a ver otra manera de cargar
una base de datos. Y es, si nos vamos
aquí,
fijaros que
eh me he metido en el directorio script.
Entonces, si le doy aquí, subo un nivel
y aquí tengo varias carpetas, en
concreto la carpeta datos, tengo un
fichero que se llama Galton CSV. Ese
fichero contiene información que vamos a
cargar. Entonces, una manera de cargarlo
es con este comando. Lo que hacemos es
leer ese archivo CSV. La extensión CSV
significa un archivo de base de datos eh
de texto.
Lo va a leer y esa información la va a
meter dentro de la variable datos.
Vamos a hacerlo. Le damos a aquí a
ejecutar,
¿vale? Y fijaros que ha aparecido aquí
en la zona de variables datos. Si aquí
le doy, fijaros que la información nos
dice que tiene 928 filas observaciones
con tres variables. Le vamos a dar y nos
aparece aquí la tabla. Son 928, son
muchísimos
datos. Y esto en concreto, ¿qué es?
Bueno, pues esto digamos que es el
origen de
del comienzo de de la estadística
realmente como ciencia. una de los
orígenes y es un señor eh científico
Galton, que lo que hizo fue medir las
alturas de los padres y compararlo con
la altura de los hijos para ver si había
alguna relación.
Esta es una base muy una base de datos
muy simplificada, solamente pone la
altura media del padre y de la madre.
Hay otras que son más completas y te
pone eh la altura del padre, de la
madre, la del hijo y otras otra
información. Esta la he elegido porque
es mucho más sencillita de trabajar.
Entonces, vamos a hacer con el comando
head los primeros
registros. Y estos son los primeros
registros.
Podemos sacar la media de los niños.
Fijaros que para ello ponemos primero el
nombre de la base de datos, el símbolo
de dólar y la variable que queremos
analizar. Entonces, mediana es el
comando min. Vamos a darle.
y nos va a dar este valor. Esa sería la
media de todas las alturas de los niños.
La mediana, la mediana, recordar que es
un valor que nos dice el punto, eh, si
ordenáramos todas las alturas de, en
este caso, de los niños, digamos, el
valor que está junto justo en la mitad,
ese sería la mediana. Entonces, le vamos
a dar y nos da 68.2.
Esto sería la desviación
típica,
digamos, lo alejado que están los datos
de la media.
Y como recordáis, podemos hacer un
resumen de toda la información básica de
esta base de datos con summary.
Y aquí nos dice, pues la variable de
padre, la altura mínima, máxima,
etcétera, mediana, media, igual que con
el hijo. Esto es un número, no nos
interesa, es el número de la fila, o
sea, que no tiene interés para nosotros.
Si quieres saber algo sobre un comando,
le puedes poner la interrogación delante
y te informa. Le vamos a dar. Y fijaros
que en esta zona de aquí nos aparece
ayuda que te indica cómo usar ese tipo
de comandos, por ejemplo, y para qué
vale.
Bueno, vamos a entrar ahora en gráficos.
Fijaros todo este comando. Puedes parar
el vídeo y tomar notas si quieres o para
replicarlo. Esto sería eh ver un
histograma. Le vamos a dar.
Voy a seleccionar todo esto y le doy a
ejecutar.
Y fijaros, me aparece el histograma de
la altura de los hijos. He cogido la
variable de los hijos, altura de los
hijos, ¿vale? Que es esta, para que nos
dé este histograma. Histograma es un de
arma de barras. Y aquí hemos puesto con
el color azul clarito. Ese color se
puede cambiar, luego veremos. Podemos
hacer un gráfico también
este de aquí.
Vamos a verlo.
Y esto es lo que se llama una nube de
puntos. Una nube de puntos que te da una
cierta idea de la relación entre altura
de los padres y altura de los hijos. Si
observáis, se ve una cierta
tendencia al alza, es decir, una
relación directa que a mayor altura de
padres pues parece lógico que los hijos
también tengan mayor altura. Entonces,
esto se puede apreciar con lo que sea la
línea de regresión. Vamos a dibujarla.
en rojo y se ve esta línea de tendencia,
línea de regresión. Además, adelante
haré un vídeo relacionado con esto de la
regresión lineal.
Bueno, vamos a instalar ahora un paquete
para que veas cómo se hace. Un paquete
que es interesante tenerlo instalado que
se llama Tidy Bers, en el cual hay
muchas cosas, entre ellas pues cómo
dibujar gráficos más bonitos y para
manejar mejor los datos. Entonces, vamos
a ejecutar esto,
¿vale? Fijaros que se instala el paquete
y tú cuando tienes el paquete instalado
para poder usar tienes que usar lo que
se llama tienes que manejar la librería.
Entonces, para
cargar ese paquete, la memoria tenemos
que darle a library poner el nombre del
paquete. Le damos
y ahora se ha cargado la memoria. A
veces te dice que están en más cosas.
Hay un operador de dirección que se
llama pipe, que lo que te hace es
transformar desde una zona a otra los
datos. Entonces, eh este paquete
eh h
es el que nos permite manejar este
comando de pipe, ¿vale? Para de
redirigir. Lo que vamos a hacer es crear
una nueva columna. E, fijaros que ahora
mismo hay tres columnas. Vamos a crear
una nueva columna con
la dos columnas, mejor dicho, la altura
de los padres y del hijo de los hijos en
centímetros porque ahora mismo está en
pulgadas. Entonces con todo este comando
lo vamos a generar,
le damos
y fijaros que nos ha creado una nueva
base de datos que están ahora ya con
centímetros. Le damos aquí y tenemos dos
nuevas columnas con los datos
transformados en centímetros. Hemos
usado eh la variable paren paren eh
multiplicado por lo que es una pulgada
de centímetros y es lo mismo con la
variable hijo. Y con este comando hemos
incluido dos nuevas columnas
y eso lo hemos añadido
aquí. Y además hemos filtrado
con los datos de los hijos, vamos a
verlo,
que sean mayores a 180 cm. Le vamos a
dar,
hay que todo porque como es usando
la variable pipe,
entonces aquí nos van a aparecer,
fijaros que en vez de 928 hemos generado
eh solamente datos de los hijos que
superen 180,
con lo cual fijaros que solamente en
esta columna viene con 180. Eso es para
que veáis cómo funciona eh filter.
Podemos ver la cabecera de esta nueva
base de datos y nos aparecen los
primeros valores
de padre e hijo alturas en pulgadas y
también en centímetros. Pensar que esta
nueva base de datos la hemos filtrado
dejándole solamente altura de niños
mayor de 180. Bueno, pues eh uno de los
comandos útiles para hacer dibujos muy
chulos
es el GG Plot y es un poco complejo.
Aquí tenéis todo el comando, hay que
seleccionar todo para poderlo ver.
Y le vamos a dar a ejecutar.
Y lo que nos genera es más elegantemente
pues con los ejes, con las variables,
los nombres, aquí títulos, etcétera.
Luego trabajaremos con otro para que lo
veáis.
Bueno, con estos datos podemos hacer
cálculos, inferencias.
Por ejemplo,
aquí tengo preparado
unas preguntas. Esto sería toda la
información que he ido. Lo voy a ver, lo
vamos a ver un poco despacio.
¿Cómo manejar el directorio de trabajo?
Si queremos crear un directorio nuevo
desde la línea de comandos,
en la consola la las variables y los
cálculos, cómo crear una nuevo archivo,
eso os lo voy a explicar.
Tienes que darle aquí,
vamos a verlo. Aquí puedes generar un
nuevo archivo
y escribir lo que quieras y lo guardas
en el directorio de trabajo,
¿vale?
Todo esto ya lo hemos visto, cómo
instalar paquetes,
cómo leer una base de datos en formato
CSV
para hacer diversos cálculos
para dibujar,
cargar el paquete,
el paquete diverse tiene un comando que
es este también que nos permite pues
hacer el cálculo este que hemos hecho de
los centímetros y el operador pipe
y también tiene el jeg plot.
Bien, entonces con esta con este dibujo
podemos sacar una inferencia. Vamos a
ver qué información podemos sacar de
aquí. Por ejemplo, podemos calcular la
altura media de los padres, que eso lo
hicimos con el summary.
Podemos hacer el histograma, que también
lo hemos hecho, o podemos filtrar con
este comando la base de datos
para que nos dé solo los padres
que m pulgadas y nos diga cuántos hay.
Entonces, eso se puede hacer con este
comando.
Pensar que estamos trabajando ahora con
esta original, ¿vale? Que son en
pulgadas
datos. Entonces, le vamos a meter todo
esto
que nos va a filtrar los padres que
tengan una altura inferior. A ver, 65.
Y eso nos lo dé en una nueva base de
datos que se llame padres bajos. Lo
vamos a ejecutar.
¿Veis? Aparece aquí hay 37
observaciones.
Si damos un doble clip, efectivamente,
los padres aquí no superan los 65. ¿Y
cuántos había? Pues 37.
Es un método.
También se puede hacer con este comando
que te da justamente 37. Okay, aquí ya
se veía.
Estas son las soluciones para hacer la
media.
Este es el comando que habría que usar,
¿vale? Solo la media, si os acordáis con
summary,
vamos a ponerlo aquí para que lo veáis.
Summary
datos.
eh lo le podemos elegir,
le damos a ejecutar y la media
efectivamente
que estamos haciendo
de los padres
68.3
68.31
redondeado efectivamente
vale se puede hacer con el comando este
o si quieres ver todo con summary.
Bueno, vamos a hacer un dibujito, un
histograma.
que sería la pregunta dos, un histograma
de las alturas de los padres. Entonces
se hace con este comando, pero hm
vamos a ponerlo otro color. Le he metido
el color que es azul, perdón, el verde
verde marino oscuro. Azul, digamos,
verde marino oscuro. Sí, le vamos a dar.
Y esto sería el histograma con la altura
de los padres. De hecho, el color si le
te gusta otro diferente, aquí he puesto
la página web. Fijaros que los
comentarios es con almohadilla. Si yo
voy le borro la almohadilla, ya lo puedo
ejecutar esto
o lo puedo copiar
y lo puedo pegar en
aquí, por ejemplo,
y me daría pues todos los colores
disponibles,
todos estos un
entos de colores. Por ejemplo, vamos a
ponerle este mismo dar magenta.
Entonces, me vengo aquí a R
y le pongo Darma 80.
Fijaros que ya pone el propio color. Y
lo voy a ejecutar otra vez este comando
y me cambia el color. Incluso se puede
hacer con colores RGB, código RGB. Este
de aquí lo voy a copiar para que lo
veáis.
Vamos a cambiarlo.
Vale, vamos a ejecutar el comando a ver
qué color es.
Vaya, este era un color inválido.
Se ve que le se me ha olvidado ponerle,
perdón, el la almohadilla.
Le damos almohadilla. Ahora sí
vamos a ejecutar esto.
Y efectivamente sale este color azulado.
Esto también lo tenéis. Los códigos de
colores
RGB. Podéis ir aquí.
y lo podéis ver.
Por ejemplo, este se lo seleccionas aquí
te de códigos a decimal
y lo pegas y puedes cambiar color el que
quieras. Bueno, para la pregunta tres,
la pregunta tres era h lo de la el
filtro ya lo habíamos hecho,
¿vale?
Ya lo teníamos hecho. Eso
eran 37. Bueno, pues con esto es una
introducción a a la estadística usando R
y el el
interfaz R Studio. Espero que os haya
gustado y nos veremos en otro vídeo.
Seguiremos con la estadística en un
segundo vídeo. Hasta luego.
UNLOCK MORE
Sign up free to access premium features
INTERACTIVE VIEWER
Watch the video with synced subtitles, adjustable overlay, and full playback control.
AI SUMMARY
Get an instant AI-generated summary of the video content, key points, and takeaways.
TRANSLATE
Translate the transcript to 100+ languages with one click. Download in any format.
MIND MAP
Visualize the transcript as an interactive mind map. Understand structure at a glance.
CHAT WITH TRANSCRIPT
Ask questions about the video content. Get answers powered by AI directly from the transcript.
GET MORE FROM YOUR TRANSCRIPTS
Sign up for free and unlock interactive viewer, AI summaries, translations, mind maps, and more. No credit card required.