トランスクリプトSpanish

¿Qué son los EMBEDDINGS? | Grandes Modelos de Lenguaje

9m 58s1,714 単語274 segmentsSpanish

全トランスクリプト

0:00

los grandes modelos de lenguaje como gpt

0:02

4 o Bart en realidad no procesan el

0:04

texto como lo vemos Nosotros los seres

0:06

humanos Y en lugar de ello lo que hacen

0:08

es transformarlo a una representación

0:10

numérica que se conoce como en beddings

0:13

Así que internamente estos modelos lo

0:15

que hacen es procesar y generar en

0:17

beddings para posteriormente realizar

0:18

diferentes tareas de procesamiento del

0:21

lenguaje natural Entonces en este vídeo

0:23

vamos a entender qué son estos en

0:25

vedings y cómo se utilizan para

0:26

desarrollar diferentes tipos de

0:27

aplicaciones de procesamiento y

0:29

generación del lenguaje natural usando

0:31

estos grandes modelos de lenguaje Pero

0:34

antes de comenzar Los invito a visitar

0:36

codificando bits.com en donde

0:39

encontrarán la academia online con

0:40

cursos de Inteligencia artificial

0:42

ciencia de datos y Machine learning que

0:44

les permitirán construir su carrera en

0:46

estas áreas y todo por una suscripción

0:48

mensual de tan solo 10 dólares además se

0:51

podrán poner en contacto conmigo si

0:52

están interesados en asesorías para el

0:54

desarrollo de proyectos o cursos de

0:56

formación personalizada Así que listo

0:59

comen cemos

1:02

para entender Qué son los envendings

1:04

Comencemos con un ejemplo sencillo

1:06

supongamos que queremos describir la

1:08

apariencia de dos personas diferentes

1:09

usando algunas características podemos

1:12

decir por ejemplo que la primera persona

1:14

tiene una altura de unos 72 centímetros

1:16

el cabello corto y de color negro su

1:19

peso es 67 kilogramos y sus ojos son de

1:22

color café y la segunda persona tiene

1:24

una altura de un 83 centímetros el

1:27

cabello largo y de color castaño su peso

1:29

es 78 kilogramos y sus ojos son de color

1:32

verde Así que lo que hemos hecho ha sido

1:35

tomar el dato original es decir cada

1:36

persona y lo hemos representado a través

1:39

de cuatro características y si

1:42

organizamos estas cuatro características

1:43

en un listado lo que tendremos será un

1:46

vector de cuatro elementos ahora veamos

1:48

cómo lograríamos hacer algo similar pero

1:50

usando redes neuronales que son la base

1:53

de los grandes modelos de lenguaje Por

1:55

ejemplo si queremos hacer un sistema de

1:57

verificación de identidad lo que

1:59

necesitamos es comparar la imagen del

2:01

rostro de una persona con imágenes de

2:03

referencia en una base de datos para

2:06

determinar si la persona es o no quien

2:08

dice ser pues en estos sistemas

2:10

realmente no comparamos directamente las

2:12

imágenes en lugar de ello lo que se hace

2:15

es construir una red convolucional que

2:17

es un tipo de red neuronal que procesa

2:19

estas imágenes y que la salida genera

2:22

una representación vectorial de la

2:24

imagen de entrada y esta representación

2:26

vectorial que es simplemente un listado

2:28

o un arreglo de números es precisamente

2:31

lo que se conoce como un en bedding y la

2:34

idea es que imágenes con rostros

2:35

similares tendrán en beddings similares

2:38

e imágenes con rostros diferentes

2:40

tendrán en vez diferentes y este

2:43

principio nos permitirá construir

2:44

precisamente el sistema de verificación

2:46

de identidad

2:48

y este mismo principio lo podemos

2:50

aplicar para el procesamiento y análisis

2:52

del lenguaje natural Así que en resumen

2:54

y para lo que nos interesa en este vídeo

2:56

un en bedding Es una representación

2:58

vectorial del dato de entrada y que se

3:01

obtiene tras el entrenamiento de una red

3:03

neuronal

3:06

como acabamos de ver el texto también

3:08

puede ser procesado por algún tipo de

3:10

red neuronal para generar en beddings y

3:12

desarrollar aplicaciones Como por

3:13

ejemplo el análisis de sentimientos la

3:16

generación de texto o los chat Bots y un

3:18

enfoque utilizado hace algunos años era

3:20

generar en beddings a partir de palabras

3:22

Es decir que la idea era tomar cada

3:24

palabra dentro del texto generar un

3:26

token que es una representación numérica

3:28

inicial de esa palabra de esos toques

3:30

hablamos anteriormente en algún vídeo y

3:33

después tomar ese token y convertirlo

3:35

precisamente en un o una representación

3:37

vectorial de esa palabra con este tipo

3:40

de envendings usualmente palabras con

3:42

significados similares Como por ejemplo

3:44

manzana y pera tendrán en vez de

3:47

similares pero que a su vez son

3:49

diferentes de los envadings para las

3:51

palabras perro o gato que tienen un

3:53

significado diferente sin embargo en el

3:56

lenguaje natural las palabras no se

3:57

encuentran aisladas sino que se

3:59

encuentran en un contexto en una frase

4:01

por ejemplo y dependiendo de ese

4:04

contexto una palabra determinada podría

4:06

obtener diferentes significados por

4:09

ejemplo en las frases debo ir al banco a

4:11

retirar dinero y estoy sentado en el

4:14

banco la palabra banco tiene

4:16

significados completamente diferentes y

4:19

ese significado lo establecemos nosotros

4:21

los humanos a partir precisamente del

4:24

contexto leyendo la totalidad de la

4:26

frase esto quiere decir que el uso de

4:29

endings a nivel de palabra no es capaz

4:31

de capturar la información del contexto

4:33

y por tanto en las frases anteriores la

4:35

palabra banco tendría el mismo en

4:37

bedding en ambos casos lo cual no

4:39

resulta ideal Así que como alternativa

4:42

al uso de endengs a nivel de palabra los

4:44

grandes modelos de lenguaje existentes

4:46

actualmente hacen uso de las redes

4:48

Transformers que permiten generar en

4:50

vedings capaces de capturar la

4:52

información del contexto Es decir de la

4:54

totalidad del texto de estas redes

4:56

Transformers hablo en detalle en un

4:58

vídeo anterior pero para resumir la idea

5:00

principal podemos decir que una red

5:02

Transformer es un tipo de red neuronal

5:04

diseñada específica para procesar

5:07

secuencias como el texto y que incorpora

5:10

algo que se conoce como un mecanismo

5:11

atencional Al momento de decidir Cuál

5:14

será el envending para una palabra o una

5:16

frase lo hace analizando la relación

5:18

entre la palabra o la frase y los demás

5:21

elementos del texto a diferentes niveles

5:24

así que de alguna manera los envenens

5:26

usados por estos grandes modelos de

5:28

lenguaje intentan imitar la forma como

5:30

nosotros los seres humanos interpretamos

5:33

el texto con la diferencia de que estos

5:35

modelos generan internamente

5:36

representaciones vectoriales es decir

5:38

arreglos de números correspondientes a

5:40

esa palabra a esa frase o a ese texto

5:43

que se está procesando la ventaja de

5:45

esto es que con los engenerados frases o

5:48

textos que tengan significados similares

5:50

tendrán representaciones vectoriales

5:52

similares por ejemplo frases como me

5:54

gustaría conocer las tarifas de vuelos

5:56

entre Madrid y Milán o Quiero encontrar

5:59

tiquetes de primera clase ida y vuelta

6:01

de Nueva York a Miami tienen en beadings

6:04

similares pues ambas se refieren por

6:06

ejemplo el concepto de tiquetes de avión

6:08

mientras que frases como qué aerolíneas

6:11

vuelan de Los Ángeles a Tokio o de todas

6:14

las aerolíneas que llegan a Hong Kong

6:15

Cuál es la más económica se refieren a

6:18

un concepto relacionado con el anterior

6:20

pero que es ligeramente diferente pues

6:22

se enfoca más en la temática de

6:24

aerolíneas lo anterior quiere decir que

6:27

en vez que son numéricamente similares

6:29

equivalen a frases semánticamente

6:31

similares es decir con significados muy

6:34

parecidos

6:36

en la práctica los diferentes grandes

6:38

modelos de lenguaje disponibles utilizan

6:40

diferentes tamaños para esos en vedings

6:42

dependiendo de la forma como hayan sido

6:44

entrenados por ejemplo los últimos

6:46

modelos de opene usan en 1536 o 2048

6:51

elementos mientras otros como Llama por

6:53

ejemplo tienen en vez que oscilan entre

6:55

los 4.096 y los 8.192 elementos

7:03

bien como hemos visto hasta ahora los

7:05

envendings del texto son la materia

7:07

prima de los grandes modelos de lenguaje

7:09

y son lo que ha permitido el desarrollo

7:11

de muchas de las aplicaciones de

7:13

procesamiento del lenguaje natural que

7:15

hemos visto recientemente y los tipos de

7:18

aplicaciones que se pueden construir con

7:20

este concepto van más allá incluso de

7:22

las aplicaciones más conocidas como por

7:24

ejemplo chat gpt por ejemplo podemos

7:27

usarlos en vedings para realizar lo que

さらにアンロック

無料でサインアップしてプレミアム機能にアクセス

インタラクティブビューア

字幕を同期させ、オーバーレイを調整し、完全な再生コントロールでビデオを視聴できます。

無料でサインアップしてアンロック

AI要約

動画コンテンツ、キーポイント、および重要なポイントのAI生成された要約を即座に取得します。

無料でサインアップしてアンロック

翻訳

ワンクリックでトランスクリプトを100以上の言語に翻訳します。任意の形式でダウンロードできます。

無料でサインアップしてアンロック

マインドマップ

トランスクリプトをインタラクティブなマインドマップとして視覚化します。構造を一目で理解できます。

無料でサインアップしてアンロック

トランスクリプトとチャット

動画コンテンツについて質問します。AIを利用してトランスクリプトから直接回答を得られます。

無料でサインアップしてアンロック

トランスクリプトをもっと活用する

無料でサインアップして、インタラクティブビューア、AI要約、翻訳、マインドマップなどをアンロックしてください。クレジットカードは不要です。

YOUTUBETRANSCRIPT.DEVを試す無料で始める

¿Qué son los EMBEDDINGS? | Gra… - 全文書き起こし | YouTubeTranscript.dev