image

Llava

Llava est amusant à utiliser pour découvrir l'intelligence artificielle sur son Macintosh, car il permet de faire de la reconnaissance sur les images.

Vous pouvez demander à Llava de décrire le contenu d'une image (jpeg ou png), lui demander des précisions sur telle ou telle partie de l'image, lui demander de retranscrire du texte présent sur une image.

Imaginez par exemple que vous scanner tous les courriers que vous recevez par poste et que l'intelligence artificielle vous range automatiquement tous vos relevés de banque, vos factures à payer, etc.

Llava existe actuellement en 3 tailles, le 7b qui prend 4 Go de mémoire sur votre ordinateur, le 13b qui en prend 8 et le 32b qui en prend 20. Pour comprendre cette notion de 7b, il faut lire la page suivante : (mettre ici le lien)

LLaVA est un projet open-source qui collabore avec la communauté de recherche pour faire avancer l’état de l’art en IA.
Il représente le premier modèle multimodal de grande taille (LMM) formé de bout en bout qui réalise des capacités de chat impressionnantes imitant les esprits du GPT-4 multimodal.
Il combine les capacités de CLIP, un modèle d’IA renommé pour l’interprétation des images, avec LLaMA, un modèle open-source connu pour sa compétence textuelle.
LLaVA est une approche rentable pour construire un assistant multimodal à usage général.
Il a établi un nouvel état de l’art en précision sur Science QA.

Pour obtenir ce modèle rendez-vous sur le site de ollama.

Llava​

Llava