pense-bête de bruno sanchiz

Accueil > Linux > Programmation > IA mistral sous python

IA mistral sous python

Publié le 9 février 2026, dernière mise-à-jour le 17 février 2026, > 5 visites, >> 210829 visites totales.

Attention 15Go pour le modèle Mistral 7B

python3 -m venv /tmp/mistral_env
source /tmp/mistral_env/bin/activate
pip install transformers accelerate bitsandbytes
pip install torch --upgrade --force-reinstall --index-url https://download.pytorch.org/whl/cu118
git lfs install
git clone https://huggingface.co/mistralai/Mistral-7B-v0.1
python3 run_mistral.py

exemple de python :

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "./Mistral-7B-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)
# Pour réduire la taille et la consommation mémoire, utilise bitsandbytes :
# model = AutoModelForCausalLM.from_pretrained(model_name, load_in_8bit=True)
# Si tu as un GPU, ajoute .to("cuda") après le chargement du modèle
# Déplacer le modèle sur GPU si disponible
import torch
device = "cuda" if torch.cuda.is_available() else "cpu"
model.to(device)

while True:
    user_input = input("Toi : ")
    if user_input.lower() in ["quit", "exit", "q"]:
        break
    inputs = tokenizer(user_input, return_tensors="pt").to(device)
    outputs = model.generate(**inputs, max_new_tokens=100)
    print("Mistral :", tokenizer.decode(outputs[0], skip_special_tokens=True))

exemple de python :

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "/media/neutrino/IA/MISTRAL/MODELS/Mistral-7B-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)
# Pour réduire la taille et la consommation mémoire, utilise bitsandbytes :
# model = AutoModelForCausalLM.from_pretrained(model_name, load_in_8bit=True)
# Si tu as un GPU, ajoute .to("cuda") après le chargement du modèle
# Déplacer le modèle sur GPU si disponible
import torch
device = "cpu"
#device = "cuda" if torch.cuda.is_available() else "cpu"
#model.to(device)


# Exemple de prompt pour forcer le français
prompt = """
Tu es un assistant utile. Réponds toujours en français, même si la question est en anglais.
Utilisateur: Bonjour, comment ça va ?
Assistant:"""

inputs = tokenizer(prompt, return_tensors="pt").to(device)
outputs = model.generate(**inputs, max_new_tokens=50, do_sample=True, temperature=0.7)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)

print(response)

while True:
	user_input = input("Toi : ")
	if user_input.lower() in ["quit", "exit", "q"]:
		break
	inputs = tokenizer(user_input, return_tensors="pt").to(device)
	#outputs = model.generate(**inputs, max_new_tokens=100)
	outputs = model.generate(**inputs, max_new_tokens=50, do_sample=True, temperature=0.7)

	prompt = "Réponds toujours en français, même si la question est en anglais."
	response = tokenizer.decode(outputs[0], skip_special_tokens=True)



	print("Mistral :", tokenizer.decode(outputs[0], skip_special_tokens=True))

git clone https://huggingface.co/mistralai/Mistral-7B-v0.1


On doit peut-être pouvoir aussi utiliser ollama

[bruno sanchiz]