¿Qué son los EMBEDDINGS? | Grandes Modelos de Lenguaje
完整文本记录
los grandes modelos de lenguaje como gpt
4 o Bart en realidad no procesan el
texto como lo vemos Nosotros los seres
humanos Y en lugar de ello lo que hacen
es transformarlo a una representación
numérica que se conoce como en beddings
Así que internamente estos modelos lo
que hacen es procesar y generar en
beddings para posteriormente realizar
diferentes tareas de procesamiento del
lenguaje natural Entonces en este vídeo
vamos a entender qué son estos en
vedings y cómo se utilizan para
desarrollar diferentes tipos de
aplicaciones de procesamiento y
generación del lenguaje natural usando
estos grandes modelos de lenguaje Pero
antes de comenzar Los invito a visitar
codificando bits.com en donde
encontrarán la academia online con
cursos de Inteligencia artificial
ciencia de datos y Machine learning que
les permitirán construir su carrera en
estas áreas y todo por una suscripción
mensual de tan solo 10 dólares además se
podrán poner en contacto conmigo si
están interesados en asesorías para el
desarrollo de proyectos o cursos de
formación personalizada Así que listo
comen cemos
para entender Qué son los envendings
Comencemos con un ejemplo sencillo
supongamos que queremos describir la
apariencia de dos personas diferentes
usando algunas características podemos
decir por ejemplo que la primera persona
tiene una altura de unos 72 centímetros
el cabello corto y de color negro su
peso es 67 kilogramos y sus ojos son de
color café y la segunda persona tiene
una altura de un 83 centímetros el
cabello largo y de color castaño su peso
es 78 kilogramos y sus ojos son de color
verde Así que lo que hemos hecho ha sido
tomar el dato original es decir cada
persona y lo hemos representado a través
de cuatro características y si
organizamos estas cuatro características
en un listado lo que tendremos será un
vector de cuatro elementos ahora veamos
cómo lograríamos hacer algo similar pero
usando redes neuronales que son la base
de los grandes modelos de lenguaje Por
ejemplo si queremos hacer un sistema de
verificación de identidad lo que
necesitamos es comparar la imagen del
rostro de una persona con imágenes de
referencia en una base de datos para
determinar si la persona es o no quien
dice ser pues en estos sistemas
realmente no comparamos directamente las
imágenes en lugar de ello lo que se hace
es construir una red convolucional que
es un tipo de red neuronal que procesa
estas imágenes y que la salida genera
una representación vectorial de la
imagen de entrada y esta representación
vectorial que es simplemente un listado
o un arreglo de números es precisamente
lo que se conoce como un en bedding y la
idea es que imágenes con rostros
similares tendrán en beddings similares
e imágenes con rostros diferentes
tendrán en vez diferentes y este
principio nos permitirá construir
precisamente el sistema de verificación
de identidad
y este mismo principio lo podemos
aplicar para el procesamiento y análisis
del lenguaje natural Así que en resumen
y para lo que nos interesa en este vídeo
un en bedding Es una representación
vectorial del dato de entrada y que se
obtiene tras el entrenamiento de una red
neuronal
como acabamos de ver el texto también
puede ser procesado por algún tipo de
red neuronal para generar en beddings y
desarrollar aplicaciones Como por
ejemplo el análisis de sentimientos la
generación de texto o los chat Bots y un
enfoque utilizado hace algunos años era
generar en beddings a partir de palabras
Es decir que la idea era tomar cada
palabra dentro del texto generar un
token que es una representación numérica
inicial de esa palabra de esos toques
hablamos anteriormente en algún vídeo y
después tomar ese token y convertirlo
precisamente en un o una representación
vectorial de esa palabra con este tipo
de envendings usualmente palabras con
significados similares Como por ejemplo
manzana y pera tendrán en vez de
similares pero que a su vez son
diferentes de los envadings para las
palabras perro o gato que tienen un
significado diferente sin embargo en el
lenguaje natural las palabras no se
encuentran aisladas sino que se
encuentran en un contexto en una frase
por ejemplo y dependiendo de ese
contexto una palabra determinada podría
obtener diferentes significados por
ejemplo en las frases debo ir al banco a
retirar dinero y estoy sentado en el
banco la palabra banco tiene
significados completamente diferentes y
ese significado lo establecemos nosotros
los humanos a partir precisamente del
contexto leyendo la totalidad de la
frase esto quiere decir que el uso de
endings a nivel de palabra no es capaz
de capturar la información del contexto
y por tanto en las frases anteriores la
palabra banco tendría el mismo en
bedding en ambos casos lo cual no
resulta ideal Así que como alternativa
al uso de endengs a nivel de palabra los
grandes modelos de lenguaje existentes
actualmente hacen uso de las redes
Transformers que permiten generar en
vedings capaces de capturar la
información del contexto Es decir de la
totalidad del texto de estas redes
Transformers hablo en detalle en un
vídeo anterior pero para resumir la idea
principal podemos decir que una red
Transformer es un tipo de red neuronal
diseñada específica para procesar
secuencias como el texto y que incorpora
algo que se conoce como un mecanismo
atencional Al momento de decidir Cuál
será el envending para una palabra o una
frase lo hace analizando la relación
entre la palabra o la frase y los demás
elementos del texto a diferentes niveles
así que de alguna manera los envenens
usados por estos grandes modelos de
lenguaje intentan imitar la forma como
nosotros los seres humanos interpretamos
el texto con la diferencia de que estos
modelos generan internamente
representaciones vectoriales es decir
arreglos de números correspondientes a
esa palabra a esa frase o a ese texto
que se está procesando la ventaja de
esto es que con los engenerados frases o
textos que tengan significados similares
tendrán representaciones vectoriales
similares por ejemplo frases como me
gustaría conocer las tarifas de vuelos
entre Madrid y Milán o Quiero encontrar
tiquetes de primera clase ida y vuelta
de Nueva York a Miami tienen en beadings
similares pues ambas se refieren por
ejemplo el concepto de tiquetes de avión
mientras que frases como qué aerolíneas
vuelan de Los Ángeles a Tokio o de todas
las aerolíneas que llegan a Hong Kong
Cuál es la más económica se refieren a
un concepto relacionado con el anterior
pero que es ligeramente diferente pues
se enfoca más en la temática de
aerolíneas lo anterior quiere decir que
en vez que son numéricamente similares
equivalen a frases semánticamente
similares es decir con significados muy
parecidos
en la práctica los diferentes grandes
modelos de lenguaje disponibles utilizan
diferentes tamaños para esos en vedings
dependiendo de la forma como hayan sido
entrenados por ejemplo los últimos
modelos de opene usan en 1536 o 2048
elementos mientras otros como Llama por
ejemplo tienen en vez que oscilan entre
los 4.096 y los 8.192 elementos
bien como hemos visto hasta ahora los
envendings del texto son la materia
prima de los grandes modelos de lenguaje
y son lo que ha permitido el desarrollo
de muchas de las aplicaciones de
procesamiento del lenguaje natural que
hemos visto recientemente y los tipos de
aplicaciones que se pueden construir con
este concepto van más allá incluso de
las aplicaciones más conocidas como por
ejemplo chat gpt por ejemplo podemos
usarlos en vedings para realizar lo que