Ajuste fino de LLM'S
Cuando se habla de un ajuste fino de modelos, se hace referencia al entrenamiento de un modelo grande de lenguaje para la resolución de problemas específicos; la diferencia es que para el LLM se usa un conjunto de datos de gran tamaño sin etiquetar. Por otro lado en el ajuste fino se usa un conjunto más pequeño, resultando más fácil costearlo.
En el ajuste fino de modelos se usan datos etiquetados, para entrenar un LLM no.
Como referencia, el numero de GPUs necesarias para un ajuste fino de GPT-3 (175 billones de parámetros) es 4. Típicamente un modelo así requiere un conjunto de datos grande para que se note una mejora en su ajuste, pero existen otros factores que se deben considerar en los resultados, tales como la calidad de los datos usados para el entrenamiento o la elección adecuada de modelo respecto a la tarea que se quiere resolver.
Representaciones de datos
Cuando se trata de procesamiento de lenguaje natural es común ver conceptos como incrustaciones de palabras; son representaciones vectoriales de palabras, que sin profundizar el los detalles matemáticos sirven para saber la similitud y relación entre palabras. Existen métodos modernos que facilitan la creación de palabras en forma de números (por ser simplista), algunas de ellas son: Word2Vec, GloVe, fastText, BERT, etc.
Supongamos que se quiere saber que tanta relación tienen entre si las siguientes palabras : perro, gato, computador
Los valores representan la distancia entre cada par de palabras, cuanto mayor es el valor numérico, menor es la similitud entre las palabras. Que la distancia entre ellas sea poca, indica un alto parecido entre si; la diagonal es cero, porque es la distancia de una palabra consigo misma. En lo mostrado se tiene que "gato" y "perro" tiene una distancia de aproximadamente 23.07, la cual es baja si se compara por ejemplo con la de "gato" y "computadora' de aproximadamente 26.51. Tiene sentido, pues es más parecido un gato de un perro que de una computadora.
Conclusiones
Los modelos de lenguaje son un recurso de gran importancia actual, comprender algunos conceptos básicos detrás de lo referente a las populares inteligencias generativas es útil e interesante, pues más allá de respuestas a preguntas, existen grandes aplicaciones por usar y descubrir sin importar el sector de aplicación. Los agentes inteligentes, que serán la moda en el año en curso usan representaciones vectoriales del lenguaje para lograr lo que se ve en imagen, texto, voz etc.