Bon, je me lance dans mes réflexions au sujet du contrôle. J'espère que ça sera clair, c'est un sujet qui me fait beaucoup réfléchir pour le moment. Ce qui va suivre est un mix des questions que je me pose, des expériences que je fais, et de ma compréhension / interprétation de mes cours et lectures des derniers mois. Parfois je pose ici des choses qui sont vraiment avérées (dans l'état actuel des connaissances). Cette fois-ci, c'est vraiment centré sur ce qui me travaille, donc même si j'ai pas tiré ça d'un Kinder surprise... Probablement que je me trompe / ai mal compris certaines choses.
Pourquoi ce sujet du contrôle ? D'abord, parce que c'est un sujet constant dans le monde équestre. Contrôler les pieds, contrôler les émotions, ... Je ne sais plus si j'ai déjà évoqué cette anecdote ici, mais au tout début où j'avais Pastor, j'ai pris quelques cours d'équitation éthologie et un jour, je raconte ça à un collègue qui n'y connaît rien. Pourquoi le contrôle apporte sécurité etc, le concept du confort / inconfort jusqu'à la bonne réponse. Il m'a répondu, avec un éclat de rire "mais t'es un bully (harceleuse) en fait !" J'ai pris un mur en pleine face, et c'est de là que part tout ce que je raconte ici depuis bientôt deux ans. Mais on parle toujours du contrôle
de l'humain sur le cheval et pas
du cheval sur lui-même (voir du cheval sur l'humain. Oui oui. Les chevaux les plus malins contrôlent leurs humains et les entraînent autant que l'inverse)
Pourquoi est ce que ça me travaille à nouveau
maintenant ? Dans les mieux behavioristes, on entend souvent dire "le contrôle c'est le renforçateur primaire le plus important" et autant l'idée m'a toujours paru sensée (qui n'aime pas faire ce qu'il veut, quand il le veut ?), autant j'avais jamais conceptualisé l'idée pour les animaux avant le cours avec Dr Friedman. Elle nous parlait du lien entre éthologie et théories de l'apprentissage, et en est arrivée à cette réflexion
Pourquoi nos comportements évoluent-ils ? Pourquoi les animaux ont-ils des comportements qui sont +/- innés à l'espèce mais que chaque individu agit de sa propre façon ? . On peut penser survie personnelle et de l'espèce mais si on prend les animaux domestiques... Bé pas grand chose est lié à leur survie directe. Un cheval apprend pas à faire le bisou pour avoir des carottes sous pression de son instinct de survie.
Sa réponse était (et c'est juste une opinion, ni les behavioristes, ni les éthologues n'ont apporté de "preuve" dans un sens ou dans l'autre, à ma connaissance)
parce que le propre de changer de comportement est d'avoir un contrôle sur les conséquences de nos actes. Cette réflexion m'a flambé le cerveau, parce que j'ai une forme de trouble d'opposition et j'ai passé BEAUCOUP DE TEMPS quand j'étais à l'unif à faire exactement l'inverse de ce que certains de mes profs attendaient juste parce que leur façon d'enseigner était basée sur la peur / le contrôle. Or, j'ai préféré me mettre dans le pétrin, juste
parce que je voulais montrer que j'étais maître de mes actes. Et ça continue dans ma vie professionnelle d'ailleurs (je remercie mon employeur qui a compris ça et par conséquent, me laisse de l'air pour éviter que je fasse ch*er par principe).
Fun fact je suis en train de lire "The Neuroscience of You" de Chantel Prat, dont un des chapitres se penche sur les préférences d'apprentissage (R+/R-) chez l'humain. C'est très intéressant, car il s'avère que certaines personnes ont des gênes qui gère l'influx de dopamine différemment lors de l'évitement d'une conséquence négative ou l'obtention d'une conséquence positive. Donc certaines personnes ont un cerveau qui aura tendance à prendre des risques pour obtenir une récompense (même si la probabilité est haute de recevoir une "punition") tandis que d'autres personnes vont préférer éviter l'inconfort potentiel et tanpis s'ils y perdent quelque chose. Dans ces études, la "punition" était un feedback négatif sur un écran, donc rien de physique. De mon point de vue, ça rendre dans la case
mais y avait aucun risque en fait. Il est possible de participer à cette étude sur le site de Prat, je l'ai donc faite (avant de lire le chapitre qui explique la procédure évidemment). C'est long et chiant, ça m'a frustrée de ouf, et le résultat est que ma préférence d'apprentissage
est à 100% en R+. Tout le monde est surpris, n'est-ce pas.
Bref, tout ça c'est pour l'humain, donc en quoi c'est pertinent ici ? Toutes ces fonctions basiques du cerveau sont apparemment assez similaires chez tous les mammifères et je crois qu'on a tous rencontré des chevaux qui vivent très différemment des apprentissages similaires, avec des méthodes similaires. Le seul point d'interrogation que je rajouterais dans la balance, c'est que l'humain rationnalise probablement beaucoup mieux le risque confort/inconfort quand il est face à la probabilité d'être récompensé ou puni et que même si nous sommes - comme le cheval - des animaux sociaux (ce qui rend la coopération nécessaire à notre survie), nous ne sommes pas des proies.
J'ai déjà lu plusieurs argumentations quant au fait que de part son éthologie, le cheval
s'éduque mieux en R-, parce que son but dans la vie c'est qu'on lui foute la paix et pas être dans l'inconfort. D'une certaine façon, je suis d'accord (sur l'idée générale, pas sur le fait qu'on devrait continuer de faire comme ça ;-) ). Le R- est efficace avec le cheval car la plupart des individus (et c'est là que l'éthologie a donc ses limites) vont préférer fuir / éviter un inconfort plutôt que de le combattre. C'est probablement pour cette même raison que les soigneurs de zoo travaillent majoritairement en R+, parce que le confort/inconfort avec un gorille ou une lionne, c'est un tantinet plus risqué.
Je reviens donc sur le sujet du
contrôle (de l'animal, sur sa propre vie, et non pas de l'humain sur l'animal). Le but d'un bon entraînement (en R- ou en R+), c'est que l'animal comprenne ce qu'on attend de lui et puisse exécuter la tâche attendue sereinement et rapidement. D'une certaine manière, ça lui donne donc du contrôle sur sa vie. Certes, il ne choisit pas où et quand il est entraîné, où il vit, ni ce qu'il mange, mais prenons un cheval qui a reçu une excellente éducation en équitation éthologique et qui est manipulé au quotidien par des gens qui ont une solide connaissance de la méthode : en pratique, ce cheval ne vivra pas souvent des inconforts. Simplement, parce qu'il a appris comment réagir pour les éviter.
En R+, la situation est inverse, mais on en revient au même point. La philosophie de la plupart des entraîneurs R+ étant basé sur le choix, on vise à éviter que la nourriture soit une forme de chantage. C'est pour cette raison qu'on commence par travailler une attitude par défaut qui sera toujours "récompensable" et qu'on travaille souvent deux comportements en parallèle. Quand c'est possible (surtout au début) on recommande aussi d'entraîner le cheval à proximité d'une source de nourriture en libre accès. Ainsi, le cheval a toujours des options pour obtenir une récompense même s'il "n'obéit pas" à proprement parler. Il contrôle donc les conséquences de ses actes.
Cependant, on peut encore compliquer la question (

si vous êtes toujours là) en parlant du continuum entre la motivation intrinsèque (ce que je veux faire) et la motivation extrinsèque (ce que je vais faire en fonction d'une conséquence). Il y a tout un tas de variation entre ces deux points, mais je ne vais pas aller dans les détails parce que je ne les maîtrise pas. Un apprentissage en R+/R- fait le plus souvent intervenir la motivation extrinsèque : on débarque pour enseigner au cheval un truc qui nous arrange, et on obtient sa participation en raison des différents renforcements qu'on a à disposition. Si on retire l'humain de l'équation, on peut dire : le cheval veut aller brouter l'herbe de l'autre côté de la clôture (motivation intrinsèque) mais il ne le fera pas pour éviter le choc électrique au contact du fil (la motivation extrinsèque a pris le pas).
Mais... Imaginons que j'enseigne l'immobilité:
Exemple 1: Mois de juillet, 30 degrés à midi, je travaille exclusivement en R-... Or Pompon, tout ce qu'il veut, c'est faire la sieste sans bouger un pied. L'apprentissage se fait-il sur base de l'inconfort, ou du fait que Pompon obtient ce qu'il veut
lui ? (Et donc en fait, c'est un R+ ?)
Exemple 2: Fin d'une grosse période de gel, Tempête n'a pas pu bouger suffisamment depuis deux semaines, et je travaille l'immobilité en R+ dans un beau grand manège au sol parfait. Est-ce que mon R+ ne devient pas coercitif étant donné qu'il va profondément à
l'encontre de ce que veut Tempête ? (Et donc en fait, c'est une punition négative du fait de courir / bouger ?)
(Utiliser ce qu'un animal veut pour le renforcer dans un apprentissage, ça s'appelle "Le principe de Premack")
Ces exemples font un peu une boucle sur le fait que R+ et R- ce ne sont pas des méthodes, car c'est profondément ancré dans la perception de l'apprenant. Avec des animaux non-verbaux, on peut pas forcément savoir avec 100% de certitude ce qui a renforcé l'apprentissage. On peut pas dire "gratouilles = R+" avec certitude, par exemple (sauf en observant les modifications de comportement dans le temps, en changeant les variables)
Ces réflexions m'amènent à une expérimentation que je fais depuis quelques semaines, à savoir travailler en R+ mais sans le marqueur. J'ai remarqué une différence d'attitude assez notable chez Pastor dans certaines situations où je ne veux pas nécessairement qu'il "fasse" quelque chose, mais où j'utilisais le click/récompense car il faisait un truc qui me plaît. Or, si je marque,
c'est moi qui prends le contrôle de la situation. Le marqueur crée un attente, cela signifie
si tu répètes le bon comportement maintenant, tu auras encore plus de bouffe. Ce qui est très contre-productif dans certaines situations. Alors que si je laisse tomber le marqueur, je peux "rajouter une couche" de positif sur quelque chose qu'il a décidé de faire
par lui-même... Ce qui rend sa décision encore plus cool. Mais c'est lui qui décide quand il la reproduit, je ne la conditionne pas à un code, donc il n'y a pas d'attentes.
(Note: je ne pense pas que ça fonctionnerait avec un cheval qui n'a pas l'habitude de travailler avec des récompenses, et pour qui le simple fait d'introduire la bouffe dans le travail crée déjà une attitude de recherche de "quoi faire pour en obtenir plus")
Si vous doutez de ce que je viens de dire plus haut, parmi les entraîneurs au clicker avec une certaine expérience, il est bien connu qu'il est possible de faire disparaître un comportement indésirable en "le mettant sur code". En pratique, ça signifie qu'on entraîne ce comportement comme si on souhaitait développer un nouvel apprentissage. Par exemple: une jument qui se cabrait n'importe quand par jeu, qui a été récompensée pour le cabrer, a appris à se cabrer sur demande, à qui on a ensuite demandé plein de fois de se cabrer sur demande... Et qui désormais, ne se cabre plus par elle-même.
Parce qu'en mettant le comportement "sur code", ce n'est plus sa motivation intrinsèque qui entrait en jeu, mais le fait de faire cela "pour l'humain". Personnellement, c'est le genre de trucs qui paraît absurdes (pourquoi est-ce qu'un cheval ne reproduirait pas encore plus un comportement indésirable si on le récompense pour ?) Pourtant, ça marche (pour autant que l'animal ne fasse pas quelque chose d'indésirable par peur, douleur physique, etc), et y a beaucoup d'exemples.
Le processus évoqué ci-dessus, ça s'appelle le
stimulus control à savoir : on veut qu'un animal ne produise un comportement que quand on a donné le code (y a d'autres "règles" dans la définition mais je les laisse volontairement de côté). Je parle beaucoup de R+ ci-dessus, mais le même principe existe en R- : on a des codes pour le reculer, pour partir au galop, etc. A priori, on ne veut pas que le cheval fasse ce qu'il veut, n'importe quand.
Mais je trouve personnellement intéressant de tenter d'aligner la motivation du cheval avec la nôtre. Une motivation intrinsèque peut devenir extrinsèque (comme explicité ci-dessus), mais a priori dans l'autre sens, ça fonctionne aussi (exemple humain : pratiquer la course à pied parce que c'est bon pour la santé et finir par y prendre goût et y aller juste pour le plaisir de courir). Un cheval bien travaillé, qui est en forme physiquement, a ses besoins de cheval rempli, peut-il prendre plaisir à piaffer car il se sublime, maîtrise son corps, se sent fort et puissant ? Je pense que oui, mais ça sous entend que nous, humains, devons abandonner notre désir de contrôler le cheval et lui rendre la liberté mentale de nous emmener là où il veut. Attention, je ne dis pas qu'il faut laisser les chevaux faire n'importe quoi, n'importe quand :-) Juste ouvrir la porte à poser la question
Ok, qu'est ce que toi tu veux faire maintenant ?
Et pour les sceptiques qui pensent "ouais enfin du coup, le canasson, il passerait sa vie à brouter et rien faire d'autre", je balance au final le concept du
contra-freeloading, qui a été étudié dans plusieurs espèces animales (et pas forcément les plus proches de l'homme, par exemple avec des rongeurs).
Ayant le choix entre de la nourriture à disposition et un puzzle / une tâche à résoudre pour obtenir la même nourriture, les animaux choisissent de résoudre la tâche pour obtenir leur récompense. J'ai l'exemple d'une jument, terriblement inhibée, qui pendant des mois de travail en R+ ne voulait rien faire si on lui laissait le choix et qui a totalement changé quand sa propriétaire a commencé à lui proposer des exercices où ne rien faire était une option aussi acceptée que faire des choses compliquées. Et qui a ignoré un seau de carottes à côté d'elle, et choisit de partir à l'aventure dans des barres au sol (dont elle était terrifiée), contourner des plots pour aller chercher d'autres carottes.
Et ça a TOUT changé dans son attitude par la suite. Juste parce qu'elle a eu le choix.
J'ai pas d'exemple similaire pour des cas de R- en revanche (j'ai pas encore pris le temps de réfléchir si ça me paraît cohérent / probable / possible - je viens juste de me faire la réflexion. Je vais juste dormir une heure en moins cette nuit probablement).