¿Qué es la VENTANA DE CONTEXTO de un Gran Modelo de Lenguaje?
TRANSCRIÇÃO COMPLETA
el término ventana de contexto es un
concepto muy muy importante en los
grandes modelos de lenguaje Pues en
últimas determina la cantidad de texto
que estos modelos pueden procesar y
generar Así que es fundamental entender
este concepto Si queremos desarrollar
aplicaciones usando estos grandes
modelos de lenguaje Entonces en este
video vamos a entender Qué es la ventana
de contexto qué ocurre cuando superamos
los límites establecidos por esta
ventana y qué alternativas tenemos
cuando queremos procesar texto que es
más extenso que el límite establecido
por esta ventana de contexto Pero antes
de comenzar Los invito a visitar
codificando bits.com en donde
encontrarán la academia online con
cursos de Inteligencia artificial
ciencia de datos y Machine learning que
les permitirán construir su carrera en
estas áreas y todo por una suscripción
mensual de tan solo 10 dólares Así que
listo Comencemos
para entender Qué son las ventanas de
contexto necesitamos primero entender
Qué significa el concepto de contexto
cuando hablamos de los grandes modelos
de lenguaje recordemos que en un vídeo
anterior vimos que estos grandes modelos
de lenguaje se basan en las redes
Transformers un tipo de red neuronal
especializada en el procesamiento de
secuencias como lo es precisamente el
texto y recordemos que al momento de
procesar el texto estas redes no
analizan cada palabra de manera
individual sino que por el contrario
tienen en cuenta la relación de cada
palabra con las otras palabras del texto
y dependiendo de esto codifican
numéricamente esta información para
luego realizar el procesamiento por
ejemplo en la frase el perro está
jugando Mientras que el gato acaba de
comer y ahora duerme plácidamente para
determinar A qué sujeto se refiere la
palabra duerme la red Transformer debe
analizar la totalidad del texto y las
relaciones entre palabras a diferentes
niveles para determinar en últimas que
el sujeto es el gato y no el perro Así
que en últimas el contexto es la
relación que existe entre las diferentes
palabras y que permite interpretar y
codificar adecuadamente la información
del texto analizado por el modelo
teniendo claro este sencillo concepto
Ahora sí podemos ver qué son las
ventanas de contexto
de forma sencilla podemos Definir la
ventana de contexto de un gran modelo de
lenguaje como la cantidad de tokens que
el modelo puede procesar Al momento de
interpretar una secuencia de texto
Y acá es necesario que veamos algunos
detalles de esta definición en primer
lugar Hablemos del término tokens al
cual le dedique un video anterior
recordemos que un gran modelo de
lenguaje antes de procesar el texto lo
divide en pequeños segmentos que pueden
corresponder a una palabra o a una
porción de una palabra
estos segmentos son precisamente los
tokens y la cantidad de tokens que se
obtendrá a partir de un texto depende
del idioma por ejemplo para gpt en
promedio un token equivale a siete
caracteres en inglés a9 en español y a
12 en chino
en segundo lugar el término
procesamiento se refiere a la cantidad
de tokens que el modelo puede recibir a
la entrada y generará la salida Así que
en últimas la ventana de contexto es el
número total de tokens que el modelo del
lenguaje podrá procesar en un momento
determinado
entendamos esto con un ejemplo el modelo
gpt 3.5 de Open Ey que es la base de la
aplicación chat gpt tiene una ventana de
contexto de 4097 tokens esto quiere
decir que si escribo una pregunta y
espero una respuesta de esta aplicación
al sumar el texto introducido y generado
este no podrá sobrepasar los 4.097
tokens que son poco menos de 37 mil
caracteres en español así que la ventana
de contexto nos impone un límite en la
cantidad de texto que podemos introducir
y esperar a la salida del modelo
Y esto es súper importante cuando
queremos desarrollar aplicaciones con
este tipo de modelos pues simplemente
nos indica que no podemos introducir una
cantidad arbitraria de texto y esperar
que mágicamente el modelo nos genere la
respuesta esperada
bien en este punto ya tenemos Claro que
es la ventana de contexto Pero qué
pasaría por ejemplo si en una aplicación
determinada introducimos al modelo un
texto que supere ese límite establecido
por la ventana de contexto pues
simplemente lo que ocurriría es que en
primer lugar el modelo no podría ni
siquiera procesar el texto de entrada y
mucho menos generar una respuesta por
ejemplo supongamos que queremos usar
chat gpt para que nos genere el resumen
del texto completo de Don Quijote de la
Mancha entonces copiamos y pegamos el
texto completo y le pedimos que haga el
resumen
y al hacer la solicitud de chat gpt
vemos que nos genera un mensaje de error
indicando que el texto introducido es
demasiado extenso es decir que ni
siquiera nos genera una respuesta Lo que
ocurre en este caso es que el texto
completo de Don Quijote de la Mancha
contiene más de 2 millones de caracteres
es decir más de 226.000 tokens y como la
ventana de contexto de gpt 3.5 el modelo
usado por charge pity es de 4096 tokens
pues simplemente no resulta posible
procesar esa cantidad de texto
y también lo que puede ocurrir
Generalmente es que cuando ese texto
supere el límite de la ventana de
contexto al ingresarlo al modelo pues
este va a truncar el texto es decir lo
va a recortar para garantizar que quepa
dentro de esa ventana de contexto y que
haya un espacio suficiente para generar
la respuesta sin embargo en este caso lo
más probable es que la respuesta del
modelo no sea la adecuada porque el
texto de entrada está incompleto
acabamos de ver que es clave que el
texto a procesar o a generar por parte
del modelo sea acorde con el tamaño de
la ventana de contexto pero también
puede ocurrir que tengamos un texto
demasiado extenso y que queramos
procesar ese texto con un modelo
determinado Así que el primer paso es
asegurarnos de que el modelo que vamos a
utilizar para procesar ese texto tenga
una ventana de contexto del tamaño
adecuado para la longitud del texto que
queremos procesar por ejemplo modelos
como gpt 3.5 y 4.0 tienen ventanas de
contexto que van de los 4.096 a los
32.768 tokens pero recientemente modelos
como Cloud de la empresa antropic tienen
ventanas de contexto de hasta 100.000
tokens Así que en principio existen
diferentes alternativas y tamaños de
ventanas de contexto que se podrían
ajustar a nuestras necesidades
sin embargo muchas veces el texto que
queremos procesar puede incluso
sobrepasar ese límite de los modelos
existentes Así que en este caso podemos
usar otras alternativas para intentar
hacer este procesamiento la primera de
ellas consiste simplemente en dividir el
texto en pequeños fragmentos lo que se
conoce como Shocking donde cada
fragmento no supera el tamaño de la
ventana del contexto del modelo que
estemos usando
otra alternativa es combinar el chunking
con la generación de resúmenes por cada
fragmento de texto se genera un breve
resumen y luego todos los resúmenes se
concatenan en un nuevo texto de menor
extensión que el original y que puede
caber en la ventana de contexto
y una tercera alternativa es el uso de
bases de datos vectoriales en un próximo
vídeo hablaré de este tipo de bases de
datos Pero la idea general es que lo que
se hace es tomar el texto extenso y
representarlo usando lo que se conoce
como en bedings que son simplemente
vectores o arreglos de números de estos
DESBLOQUEAR MAIS
Registe-se gratuitamente para aceder a funcionalidades premium
VISUALIZADOR INTERATIVO
Assista ao vídeo com legendas sincronizadas, sobreposição ajustável e controlo total da reprodução.
RESUMO DE IA
Obtenha um resumo instantâneo gerado por IA do conteúdo do vídeo, pontos-chave e conclusões.
TRADUZIR
Traduza a transcrição para mais de 100 idiomas com um clique. Baixe em qualquer formato.
MAPA MENTAL
Visualize a transcrição como um mapa mental interativo. Entenda a estrutura rapidamente.
CONVERSAR COM A TRANSCRIÇÃO
Faça perguntas sobre o conteúdo do vídeo. Obtenha respostas com tecnologia de IA diretamente da transcrição.
APROVEITE MAIS DE SUAS TRANSCRIÇÕES
Inscreva-se gratuitamente e desbloqueie o visualizador interativo, resumos de IA, traduções, mapas mentais e muito mais. Não é necessário cartão de crédito.