Le prompt engineering : c’est quoi au juste ?

Article

Article

Data

Data

Rédigé par

Luna

Photo de couverture de l'article Le prompt Engineering, c'est quoi ?
Photo de couverture de l'article Le prompt Engineering, c'est quoi ?

Si vous avez déjà discuté avec une intelligence artificielle, vous avez sûrement vécu cette scène : vous posez une question, elle répond… mais pas vraiment comme vous l’espériez. Vous reformulez, elle s’améliore. Vous précisez… et là, miracle ! la réponse devient pertinente. 

Ce petit jeu du “dis-moi ce que tu veux vraiment” n’est pas un hasard : bienvenue dans l'univers fascinant du prompt engineering. Cette discipline transforme la manière dont nous communiquons avec les machines. 

Pour les développeurs, le prompt engineering n'est ni plus ni moins qu'une forme de Software Engineering adaptée à un nouveau paradigme.

Pour bien saisir ce que représente cette discipline, commençons par comprendre ce qui se passe réellement derrière nos interactions avec ChatGPT, Claude, Mistral et bien d'autres…

Fonctionnement des LLM et des Transformers 

Les termes IA (intelligence artificielle) et LLM (Large Language Model) sont souvent utilisés ; le premier étant le terme marketing grand public, le second, plus technique, désignant ces grands modèles de langage que nous utilisons pour interagir, que ce soit via ChatGPT, Claude, ou autres.

Pour une définition détaillée des LLM, consultez la documentation officielle par OpenAI. 

L’IA, c’est pas votre dada ?
L’IA, c’est pas votre dada ?

Les experts Amiltone vous accompagnent dans votre transformation digitale : de l’IA générative à l’analyse prédictive.

Les experts Amiltone vous accompagnent dans votre transformation digitale : de l’IA générative à l’analyse prédictive.

Comprendre l’architecture Transformer 

Pour comprendre le prompt engineering, il faut d’abord saisir comment fonctionnent les grands modèles de langage (LLM). Ces modèles reposent sur une architecture révolutionnaire appelée Transformer (pour aller plus loin, vous pouvez lire l’article fondateur Attention Is All You Need).

Plutôt que d’utiliser un unique réseau, cette architecture regroupe plusieurs réseaux de neurones entraînés sur une tâche simple : prédire le mot qui suit dans une séquence, en fonction des mots précédents.

Concrètement, le modèle calcule une distribution de probabilité pour déterminer quel mot a le plus de chances d'apparaître ensuite.

👉 Prenons un exemple simple : “Je vais au restaurant et je commande un…”. Le modèle, entraîné sur d'énormes quantités de données, retrouvera probablement le mot "burger" comme suite logique.


Avez-vous buggé lorsque vous avez lu les mots “réseaux de neurones” ? Pour comprendre les outils mathématiques des IA, c’est par ici.


Gif d'un transformer pour illustrer l'architecture Transformer pour comprendre le prompt engineering.

Le processus d’encodage-décodage

Le fonctionnement d’un Transformer suit un cycle précis. Mais souvent perçu comme abstrait, nous pouvons le vulgariser en imaginant une analogie simple : celle des villes et de leurs coordonnées GPS. 


  1. D’abord l’encodage séquentiel : chaque mot est encodé en tenant compte des mots précédents. Pour simplifier, imaginez un mot comme une ville, et son encodage comme ses coordonnées GPS : le modèle passe du nom de la ville à sa position sur la carte.

  1. Vient ensuite le décodage contextualisé : la traduction ou la génération se fait en cascade, chaque étape dépendant des précédentes. À partir de ces coordonnées, le modèle est capable de retrouver le “nom de la ville”. Mais il peut aussi “traduire” ces coordonnées dans une autre langue ou une autre forme, comme passer de Toulouse à Tolosa.


Avec cette analogie, on peut même dire que l’encodage permet de repérer quelles “villes” sont proches : en comparant leurs coordonnées numériques, le modèle détecte les mots qui se situent dans la même zone proche.

Cette architecture permet de paralléliser un très grand nombre d'opérations, démultipliant ainsi les capacités des IA. C'est précisément ce qui explique l'explosion récente autour de ChatGPT, Gemini et consorts.

Taille et complexité des modèles :

  • Small vs Large Language Models :

    • Small : ~1-2 milliards de paramètres (ex. : certains modèles open source).

    • Large : ~7 à 52 milliards de paramètres (ex. : Mistral 7B, GPT-4, NVIDIA 52B).

  • Plus de paramètres = plus de précision, mais aussi plus de ressources nécessaires.

Pour info :

Fiche technique GPT-4 / Documentation Mistral


Pourquoi le prompt engineering est indispensable ? Comprendre les limites des LLM

Le prompt engineering n’est pas une lubie de geeks ni un nouveau buzzword marketing. S’il existe, c’est parce qu’il répond surtout aux limites structurelles des modèles de langage.

Pour comprendre pourquoi un prompt fonctionne ou échoue (et éviter les réponses qui partent en freestyle), il faut d’abord comprendre les contraintes des LLM :

La fenêtre contextuelle (Context Window)

Les réseaux de neurones d'un LLM sont limités en termes de taille de contexte qu'ils peuvent traiter. Cette limite, appelée Context Window, définit la quantité de texte, mesurée en token. Un token représente généralement un morceau de mot, et sa longueur varie d’un terme à l’autre (en anglais, on tourne en moyenne de 3 à 4 caractères par token).

Cette limite impose une contrainte : il faut sélectionner, organiser et structurer ce que nous transmettons au modèle. 

Cependant, il est tout de même important de préciser qu’elle ne constitue pas vraiment une limite bloquante, c’est simplement qu'au-delà, le LLM oubliera des informations et/ou du texte.

Bonne nouvelle : cette limitation s'atténue rapidement. Dès 2023, certains LLM géraient des fenêtres contextuelles de plusieurs centaines de pages. Vous pouvez ainsi pratiquer ce qu'on appelle le Few-Shot Learning ou In-Context Learning : passer directement des informations au modèle dans votre prompt, qu'il apprendra "sur le champ" et exploitera lors de la génération.

Les défauts silencieux 

❌ Pas de messages d’erreur clairs.

Avec un langage de programmation classique, le compilateur ou l’interpréteur vous signale immédiatement une erreur. 

Avec un LLM ? Il tentera de s'accommoder à peu près à tout ce que vous lui passez. Si votre prompt ne donne pas satisfaction, vous devrez déboguer vous-même, dans votre tête, pour comprendre ce qui ne fonctionne pas. Aucun message d'exception ne viendra vous aider.

Non-déterminisme 

Les LLM ne comprennent pas la négation ou les instructions complexes comme "ne pas faire X". 

👉 Un exemple frappant ? Si vous demandez à un LLM : “Fais-moi une image, mais ne mets pas d’éléphant rose”, vous pouvez être pratiquement certain que vous vous retrouverez avec une image… et un éléphant rose !

Cette limitation est bien documentée dans la documentation officielle de ChatGPT, qui insiste sur l'importance de formuler ce que vous voulez obtenir plutôt que ce que vous ne voulez pas.

La programmation probabiliste

Un LLM évolue dans ce que la présentation compare à une machine à états finis probabiliste : à chaque étape, plusieurs chemins sont possibles, chacun avec une probabilité différente.
Si nous ne guidons pas suffisamment le modèle :

  • il explore des chemins inutiles,

  • il produit des réponses incohérentes,

  • ou il dérive vers des interprétations inattendues.


Les principes fondamentaux d’un bon prompt 

Un LLM, c’est un mélange surprenant : à la fois un expert, parce qu’il a été entraîné sur des tonnes de données, et un enfant qui veut bien faire

Il cherche toujours à produire la réponse qui vous satisfera, même quand il n’est pas certain, même quand il interprète à partir de signaux incomplets. Il ne contredit pas facilement, doute rarement, et comble souvent les blancs en choisissant la suite la plus probable.

C’est pour cela que le rôle de l’utilisateur est essentiel : pour que “l’enfant” réponde juste, il doit être guidé clairement. Un bon prompt doit être précis, structuré, cohérent et bienveillant. Plus vous êtes explicite dans ce que vous attendez, plus le modèle a de chances de fournir une réponse correcte et utile.


Structurer son prompt

  • Contexte clair : définir le sujet, le rôle (ex. : "Tu es un expert en reliure"), et les contraintes (ex. : "Réponds en français", "Format JSON"...).

  • Objectif précis : expliciter ce que l’on attend (ex. : "Liste les 5 meilleurs langages pour le calcul scientifique").

  • Exemples de structure :

    • Markdown/HTML/XML/JSON : pour une réponse formatée et exploitable. Spécification JSON officielle 

    • Role-playing : définir des personnages ou des rôles pour guider le modèle.

L’ordre, ça compte ! 

Tout ce qui est essentiel doit être placé au début. Cela force le modèle à encoder ces éléments avec une probabilité maximale, ce qui stabilise son comportement : 

  1. Poser le contexte : de quoi parle-t-on ? Quel est le contexte ? 

  2. Définir le rôle (optionnel) : si vous voulez un aspect “roleplay”. Par exemple, Rôle 1 : expert / Rôle 2 : utilisateur novice.

  3. Contraintes : format de sortie attendu (JSON/français, etc.). N’hésitez pas à être insistant !

  4. Description de la tâche : détailler précisément ce que le modèle doit faire.

  5. Espace réponse : réserver une zone vide que le modèle doit compléter.

  6. Formalisme attendu : spécifier la structure de sortie.

Utiliser la technique du “texte à trous” 

Comme dit précédemment, un LLM fonctionne comme un outil de compression statistique qui cherche à combler les trous. Plutôt que de formuler une question et attendre qu'il énonce la réponse, formatez directement la réponse en laissant un blanc à compléter. 

Exemple :

🔎Version classique : “Qu’est-ce qu’un LLM ?” / Résultat typique : une réponse correcte… mais parfois générique ou approximative selon le modèle.

🧩Version “texte à trous” : « Un Large Language Model (LLM) est un modèle d’intelligence artificielle qui sert à ________. » / Résultat : « … prédire le mot suivant dans une phrase en analysant une séquence de texte. »

Le pointage directionnel par mot-clé (Directional Stimulus Prompting)

L’ajout de mots-clés en début de prompt est très efficace pour orienter le LLM. 

👉 Comment ? C’est simple : il suffit de les lister au début, à la suite d’une section “keyword:” pour aider le LLM à se positionner contextuellement.

La mise en exposition des connaissances (Generality Knowledge Chunking)

Cette méthode revient à pousser le LLM à dévoiler d’abord ce qu’il sait, avant même de répondre. En l’amenant à décoder et formuler ses connaissances en amont, vous conditionnez et orientez le décodage de la réponse finale.

👉 Application pratique : générer automatiquement une série de questions intermédiaires auxquelles le modèle répond une par une avant de répondre à la question principale. Très efficace pour les sujets complexes.

Le chaînage de pensée (Chain-of-Thought)

Rappelez-vous de la technique du texte à trous ? Le Chain-of-Thought va plus loin : vous demandez au modèle de justifier sa réponse avant de la donner. 

Cette méthode améliore considérablement la qualité des réponses, particulièrement sur les problèmes complexes.

👉 Utiliser une instruction explicite : "Expliquez votre raisonnement, puis donnez votre réponse finale."

👉 Dans une structure JSON : ajoutez un champ reasoning ou justification avant le champ answer dans votre structure JSON.


Image mème pour illustrer le chaînage de pensée (Chain-Of-Thought), une architecture avancée du Prompt Engineering.

source : Devansh - Medium

Le chaînage de symboles (Chain-of-Symbol)

Dans le contexte de problèmes symboliques, la spécification de variables, de noms et de définitions dans le prompt est très utile. L'utilisation de symboles et de relations nommées augmente significativement la capacité du LLM à trouver la bonne réponse.


L’écosystème du prompt engineering 

Le besoin d’outils se fait sentir :  

  • bibliothèques de prompt, 

  • systèmes de suivi pour la qualité et la robustesse,

  • outils collaboratifs,

  • supports pour la scalabilité.

Certaines solutions existent déjà : 

  • Outlines.dev (par texto.co) : pour optimiser vos prompts grâce à la coalescence.

  • LM studio : pour tester et déployer des modèles localement.

  • Yahma : outil intégré à Llama 3 pour une utilisation simplifiée.

Créer ses propres solutions : possible selon les besoins (ex. : API internes pour les entreprises).


Le prompt engineering, une compétence clé pour l’avenir

Contrairement à certaines croyances, le prompt engineering n’est pas réservé aux développeurs. Que vous soyez un(e) pro du marketing, passionné(e) par l’IA, etc., maîtriser cette discipline vous permettra de tirer le meilleur de ces intelligences artificielles. 

Grâce à cet article, vous savez maintenant comment structurer vos requêtes et l’adapter à votre besoin. Utiliser les techniques avancées et éviter les pièges courants vous permettra de transformer vos interactions avec les LLM en véritables atouts pour votre productivité et créativité. 

Alors, prêt à devenir un as du prompt engineering ? 


FAQ : les questions les plus courantes sur le prompt engineering

  • Qu’est-ce qu’un LLM ?

Un LLM (Large Language Model) est un modèle de langage entraîné à prédire le mot suivant dans une phrase. C’est la technologie utilisée par ChatGPT, Mistral ou Gemini.

  • Pourquoi le prompt engineering est important ?

Parce que les LLM ont des limites : fenêtre de contexte, raisonnement probabiliste, absence de messages d’erreur et difficulté à gérer la négation. Un bon prompt permet d’obtenir des réponses plus fiables.

  • Pourquoi un LLM donne-t-il des réponses différentes ?

Parce qu’il n’est pas déterministe : chaque mot est choisi selon une probabilité. La même question peut donc produire plusieurs formulations.

  • Qu’est-ce qu’un prompt structuré ?

Un prompt organisé avec contexte, consignes et format de sortie (JSON, Markdown…). Il améliore la précision et la cohérence des réponses.

  • Comment améliorer la précision d’un prompt ?

En plaçant le contexte au début, en définissant clairement l’objectif, en évitant les négations et en imposant un format de réponse clair.

  • Pourquoi utiliser le JSON dans un prompt ?

Parce qu’il impose une structure claire et limite les dérives. Idéal pour obtenir une réponse exploitable et réutilisable.

  • Faut-il écrire ses prompts en anglais ?

Non, mais l’anglais peut être un atout pour les modèles entraînés sur des données anglophones. Les LLM modernes gèrent parfaitement le français et d’autres langues. Précisez simplement la langue dans votre prompt : "Réponds en français, avec un ton professionnel."

  • Comment éviter le contenu générique avec l’IA ?

Ajoutez des contraintes claires : "Évite les phrases génériques. Utilise des données récentes (2025) et des exemples concrets." / “Adapte le style à notre charte éditoriale : ton dynamique et innovant."

  • Le prompt engineering remplace-t-il un rédacteur SEO ?

Non, mais il booste sa productivité en automatisant les tâches répétitives (méta-descriptions, FAQ). L’expertise humaine reste essentielle pour valider la pertinence et adapter le contenu à la stratégie globale.

Partager cet article

Partager cet article

Partager cet article

Prêt à vous lancer ?

Prêt à vous lancer ?

Il vous suffit de nous joindre pour commencer à discuter de votre projet !

Il vous suffit de nous joindre pour commencer à discuter de votre projet !

Il vous suffit de nous joindre pour commencer à discuter de votre projet !