Latribunedujellyrodger.com » Actualité Intelligence Artificielletitle_li=GTP 4title_li=LLaVA 1.5 » Incroyable ! Découvrez dès maintenant les alternatives open source à GPT-4 Vision dans la dernière mise à jour de LLaVA 1.5
llava 1
Actualité Intelligence Artificielle,  GTP 4,  LLaVA 1.5

Incroyable ! Découvrez dès maintenant les alternatives open source à GPT-4 Vision dans la dernière mise à jour de LLaVA 1.5

LLaVA 1.5 : Une alternative open source à GPT-4 Vision

Le domaine de l’intelligence artificielle générative connaît une véritable révolution avec l’émergence des grands modèles multimodaux (LMM), tels que GPT-4 Vision d’OpenAI. Ces modèles révolutionnent notre interaction avec les systèmes d’IA en intégrant à la fois du texte et des images.

Cependant, la nature fermée et commerciale de certaines de ces technologies peut limiter leur adoption universelle. C’est dans ce contexte que la communauté open source entre en jeu, en propulsant le modèle LLaVA 1.5 comme une alternative prometteuse à GPT-4 Vision.

La mécanique des LMM

Les LMM fonctionnent grâce à une architecture multicouche. Ils combinent un modèle pré-entraîné pour le codage des éléments visuels, un grand modèle de langage (LLM) pour comprendre et répondre aux instructions de l’utilisateur, ainsi qu’un connecteur multimodal pour relier la vision et le langage.

Leur formation se déroule en deux étapes : une première phase d’alignement entre la vision et le langage, suivie d’un ajustement fin pour répondre aux requêtes visuelles. Ce processus, bien qu’efficace, requiert souvent des ressources informatiques importantes et une base de données riche et précise.

Les atouts de LLaVA 1.5

LLaVA 1.5 se base sur le modèle CLIP pour le codage visuel et sur Vicuna pour le langage. Le modèle original, LLaVA, utilisait les versions textuelles de ChatGPT et GPT-4 pour l’ajustement visuel, générant ainsi 158 000 exemples d’entraînement.

LLaVA 1.5 va plus loin en connectant le modèle de langage et l’encodeur visuel grâce à un perceptron multicouche (MLP), enrichissant sa base de données d’entraînement avec des questions-réponses visuelles. Cette mise à jour, qui comprend environ 600 000 exemples, a permis à LLaVA 1.5 de surpasser d’autres LMM open source sur 11 des 12 benchmarks multimodaux.

L’avenir des LMM open source

La démonstration en ligne de LLaVA 1.5, accessible à tous, présente des résultats prometteurs, même avec un budget limité. Cependant, une limitation subsiste : l’utilisation des données générées par ChatGPT restreint son utilisation à des fins non commerciales.

Néanmoins, LLaVA 1.5 ouvre une porte sur l’avenir des LMM open source. Sa rentabilité, sa capacité à générer des données d’entraînement de manière évolutive et son efficacité dans l’ajustement des instructions visuelles en font un prélude aux innovations à venir.

LLaVA 1.5 n’est que le premier pas d’une mélodie qui résonnera au rythme des avancées de la communauté open source. En anticipant des modèles plus performants et accessibles, nous pouvons envisager un avenir où la technologie de l’IA générative sera accessible à tous, révélant ainsi le potentiel illimité de l’intelligence artificielle.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *