Discussion de l’étude ENSAE Junior Etudes

Détails: Créé le lundi 1 avril 2013 07:34

A la suite de la publication sur le site de M. Franck Ramus, chargé de recherches au CNRS laboratoire des Sciences Cognitives et Psycholinguistiques, le 22 octobre 2006, d’un texte signé par lui et par M. Rémi Brissiaud, maître de conférences à l’IUFM de Versailles, et cosigné par vingt-deux autres chercheurs en psychologie cognitive, neuropsychologie et sciences de l’éducation, nous lui avons adressé l’étude réalisée, pour le compte d’Enseignement et Liberté, par la Junior entreprise de l’Ecole Nationale de la Statistique et de l’Administration Economique.

Le texte du 22 octobre, qui fait suite à un texte de même nature, publié en mars 2006, réaffirme que « les études d’évaluation ne font pas ressortir de différences significatives d’efficacité entre ces différentes approches » (les approches synthétiques, c’est-à-dire alphabétiques ou syllabiques, et les approches analytiques, c’est-à-dire semi globales. Il en déduit qu’ «Il n’y a notamment pas lieu de leur imposer (aux maîtres) l’usage d’une méthode exclusivement synthétique (parfois appelée la méthode syllabique). »

L’étude d’ENSAE Junior Etudes avait pour objet de :

Vérifier la validité de la conclusion d’une étude du National Reading Panel, réalisée aux Etats-Unis, selon laquelle les performances des élèves ayant appris à lire par l’une ou l’autre approche ne sont pas différentes du point de vue du statisticien.

Vérifier la validité d’une étude menée en Ecosse, dans le comté de Clackmannan, qui conclut à la supériorité de l’approche synthétique sur l’approche analytique.

Les conclusions de l’étude ENSAE sont que :

Contrairement à l’interprétation que donne le NRP, il y a une différence significative au sens statistique à l’avantage de la voie synthétique.

La conclusion de l’étude Clackmannan, selon laquelle l’enseignement de la lecture par la voie synthétique est plus efficace que la voie analytique est fondée statistiquement.

L’opposition entre le point de vue des chercheurs précités et l’étude ENSAE tient à ce que :

Le NRP a utilisé pour comparer les résultats obtenus par les deux méthodes, un test, dit du risque de première espèce, qui le conduit à conclure qu’en affirmant que les résultats, à l’avantage de l’approche synthétique, mesurés dans un nombre limité de classes peuvent être généralisés, le risque de se tromper est supérieur à 5%. Cela est vrai et pourrait être utile si le choix de la méthode synthétique, la meilleure d’après les résultats mesurés, présentait des dangers pour la santé des enfants ou sous tout autre aspect

. Or, une telle éventualité n’a même pas été envisagée. C’est donc, à notre avis, le test utilisé par l’ENSAE, dit du risque de deuxième espèce, qui doit être employé pur comparer deux moyennes.

L’étude Clackmannan ne semble pas avoir été prise en considération par eux jusqu’au présent échange de correspondance.

En ce 21 janvier 2007, si le désaccord sur le fond demeure, la discussion a permis d’aboutir aux points d’accord et aux clarifications suivantes :

La position de M. Ramus et de ses collègues sur l’absence de différence dans les résultats des deux méthodes est bien fondée sur l’étude NRP. (Cf. 16 novembre 2006, § 1)

La formulation du décret du 24 mars peut bien être interprétée comme interdisant l’emploi d’une approche synthétique sans une approche analytique « complémentaire ».

Enseignement et Liberté ne prétend pas imposer une unique méthode d’enseignement le la lecture à quiconque, mais demande que soit reconnue la supériorité des résultats obtenus par l’approche synthétique et qu’on laisse chacun libre de la choisir, ce qui n’est pas le cas aujourd’hui.

Nous donnons ci-après, dans son intégralité, la correspondance échangée avec M. Ramus, correspondance qu’il publie lui-même sur son site : http://www.lscp.net/persons/ramus/lecture/lecture3.html

Le texte collectif, en date du 22 octobre, publié sur votre site, réaffirme que « Les études d’évaluation ne font pas ressortir de différences significatives d’efficacité entre ces différentes approches. »

L’étude ci-jointe, que vient de réaliser la junior entreprise de l’ENSAE, fait apparaître ces différences significatives en faveur de l’approche phonosynthétique.

Je serais heureux d’avoir votre opinion sur ces résultats.

PS : l’étude ENSAE va être mise sur notre site cette semaine. Nous autoriserons volontiers sa mise en place sur d’autres sites à ceux qui nous en feront la demande.

Le 13 novembre : de Franck Ramus à Enseignement et Liberté

Cette réponse a été publiée, enrichie d’une introduction et de notes, sur le site de Frank Ramus (voir ci-après, Analyse de Franck Ramus)

Le 16 novembre : de Franck Ramus à Enseignement et Liberté

Je vois que malgré mes réserves vous accordez un grand crédit au rapport de l'ENSAE et vous l'avez publié sur votre site. Je pense néanmoins que mon analyse serait utile à vos lecteurs pour se faire un point de vue indépendant. Si vous m'aviez demandé mon autorisation de la publier sur votre site, je vous l'aurais bien sûr donnée (je peux encore le faire).
Au cas où ce ne serait pas votre intention, je l'ai également postée sur mon propre site:
http://www.lscp.net/persons/ramus/lecture/lecture3.html
Bien entendu j'ai inclus tous les liens vers votre site et les arguments que vous développez, car pour moi il est essentiel que le débat soit contradictoire, c'est la condition de la liberté d'information de chacun. Puisque la liberté vous est visiblement très chère à vous aussi, je vous suggère donc de mettre en retour sur votre site un lien vers ma page, afin que tous vos adhérents puissent eux aussi avoir accès à la libre information et être en mesure de se faire leur propre opinion.

Analyse de Franck Ramus publiée sur son site :

Mise au point sur l'efficacité comparée des approches synthétiques et analytiques de l'enseignement du déchiffrage

Franck Ramus

16 novembre 2006

L'affirmation que des collègues et moi-même avons faite précédemment (ici et là), selon laquelle les études d'évaluation ne montrent pas de différence d'efficacité entre les approches synthétiques et analytiques de l'enseignement de la lecture, repose sur la méta-analyse du National Reading Panel, qui a trouvé entre les deux approches une différence de taille d'effet de 0.11 écart-type, statistiquement non significative. Bien entendu, l'absence de différence statistiquement significative dans cette méta-analyse ne prouve pas l'absence réelle de différence. Il était donc inévitable que cette absence de différence soit contestée.

C'est ce que fait l'association Enseignement et Liberté, sur la base d'une contre-expertise commandée à la junior-entreprise de l'ENSAE. Ce rapport m'a été envoyé pour avis par un membre de l'association, auquel j'ai renvoyé un certain nombre de commentaires, déconseillant la publication. Aujourd'hui l'association publie néanmoins le rapport sur son site, suivi de plusieurs analyses et déclarations (la 1ère, la 2ème, la 3ème, la 4ème). Pour permettre à chacun de se faire une idée sur la base de différents points de vue, je recopie donc ma réponse ci-dessous, augmentée de quelques notes explicatives.

J'ai bien lu le rapport que vous m'avez envoyé.
La première partie me parait être une tentative maladroite de faire passer pour statistiquement significatives des différences qui ne le sont pas. Pour aboutir à ce résultat, l'auteur propose en quelque sorte d'inverser la charge de la preuve et de se satisfaire d'une probabilité de 5% que la différence soit réelle pour accepter cette différence (1). D'un point de vue strictement mathématique ce n'est pas répréhensible, car tout critère statistique de significativité est arbitraire, et fait donc l'objet d'un choix délibéré. En revanche c'est une absurdité épistémologique. Ce n'est tout de même pas un hasard si tous les scientifiques du monde sont d'accord pour maintenir le critère de certitude à 95%. Il y a bien des désaccords, mais typiquement de la part de gens qui voudraient le porter à 99%, c'est-à-dire le rendre encore plus strict, pas le contraire. Il ne viendrait à l'esprit de qui que ce soit de sensé de vouloir le descendre à 5%! Cela reviendrait à prendre pour certain tout et n'importe quoi, et les "certitudes" n'en finiraient pas de se contredire les unes les autres! Si le législateur devait prendre ce critère de certitude pour informer ses décisions, alors il devrait modifier les lois toutes les semaines à la lumière de telle nouvelle étude apportant une "certitude" contredisant les précédentes. Vraiment, cette argumentation est ridicule, si vous l'utilisez vous allez vous mettre dans l'embarras.
Accessoirement je pense qu'il y a une erreur de calcul dans la reconstitution des écart-types du NRP, car à vue de nez ils sont trop faibles d'un ordre de grandeur pour être corrects (2). S'ils étaient ceux indiqués, alors les différences obtenues par le NRP seraient statistiquement significatives selon les critères usuels, or ce n'est pas le cas. Mais peu importe, car le problème est dans la définition du critère, pas dans les chiffres (3).

La deuxième partie est une présentation honnête de l'étude de Johnston & Watson 2004 (4) (dite "du Clackmannanshire"). Remarquez qu'ici l'auteur ne propose pas de changer de critère statistique, puisque le critère usuel suffit à aboutir au résultat espéré... Incontestablement cette étude produit des résultats en faveur de l'approche synthétique. Evidemment il est tentant de mettre en exergue cette étude, mais peut-on ignorer que d'autres études ont donné des résultats différents? C'est bien parce qu'il y a une grande variabilité et des contradictions entre les études, qu'une méta-analyse de plusieurs études est infiniment supérieure aux résultats d'une seule.
Comme l'a observé l'auteur du rapport, la méta-analyse du NRP n'était pas centrée sur la comparaison analytique-synthétique, et a pu exclure quelques études pertinentes, donc n'était pas idéale pour répondre à la question qui vous intéresse. Par ailleurs, publiée en 2000, elle n'inclue pas les études plus récentes, notamment celle de Johnston & Watson.
J'attire donc votre attention sur une nouvelle méta-analyse réalisée cette année à la demande du gouvernement britannique, et ayant parmi ses missions d'évaluer la question analytique-synthétique: http://www.dfes.gov.uk/research/data/uploadfiles/RR711_.pdf
Les auteurs ne trouvent que 3 études évaluant cette question rigoureusement, dont celle de Johnston & Watson, mais les deux autres aboutissent à des conclusions opposées. Au total la méta-analyse donne un avantage non significatif de 0.2 écart-type en faveur de la méthode synthétique, même conclusion que le NRP. Les auteurs ajoutent qu'avec 3 études seulement, le degré de confiance qu'on peut avoir dans cette conclusion est évidemment faible, et que d'autres études seraient nécessaires pour vraiment savoir s'il y a une différence d'efficacité.

La conclusion de tout ça, c'est que les données scientifiques actuelles n'indiquent pas de différence d'efficacité entre les approches analytiques et synthétiques. Mais elles sont en quantité insuffisante, et donc le débat n'est pas clos. Si vous voulez avoir le fin mot de l'histoire, il ne sert à rien de faire des contorsions statistiques pour déformer l'interprétation normale des données, il faut simplement encourager de nouvelles recherches rigoureuses et à grande échelle sur le sujet. Et tout particulièrement en France, en évaluant les méthodes en usage en France. Par exemple, les partisans des méthodes "naturelles" ne manqueront pas de souligner que les méthodes analytiques anglophones qui ont été évaluées n'incorporent pas les activités intensives d'écriture dont ils pensent qu'elles sont le meilleur moyen d'apprendre le code. Je ne sais pas s'ils ont raison, mais on ne pourra le savoir que si ces méthodes particulières sont évaluées, à côté des autres méthodes synthétiques, analytiques et mixtes en usage en France. Si vous avez l'oreille du ministre, ne manquez donc pas de lui souffler de mettre de l'argent de côté pour cela (dans l'Agence Nationale de la Recherche, par exemple).

1. Pour justifier ce critère, l'auteur utilise la métaphore d'une société pharmaceutique devant décider lequel de deux médicaments elle doit commercialiser. Mais cette question n'est pas comparable à celle qui nous est posée. Une entreprise peut, pour des raisons budgétaires, être contrainte de faire un choix entre deux alternatives, et dans ce cas faire le choix sur la base d'un critère de certitude de 5% n'est pas plus bête que de tirer à pile ou face ou de consulter un astrologue. Mais si l'on prend le point de vue de l'Afssaps qui délivre les autorisations de mise sur le marché, doit-elle refuser l'AMM à l'un des deux médicaments sous prétexte qu'il y a 5% de chances qu'il soit moins efficace qu'un autre (si tant est qu'il reste supérieur au placebo)? L'entreprise le produisant aurait beau jeu de crier au scandale, et à la discrimination injuste en l'absence de preuves scientifiques. Le ministère de l'éducation nationale est dans la même position que l'Afssaps: autoriser une diversité de méthodes qui sont toutes efficaces ne nuit pas. Pour en arriver à en interdire une par voie législative, il paraît légitime d'exiger le niveau de preuve scientifique usuel sur sa moindre efficacité.

2. A la relecture, la source de l'erreur me paraît être que l'auteur a confondu les intervalles de confiance à 95% de la moyenne de la distribution, avec l'intervalle contenant les 95% de l'effectif de la distribution.

3. Cette erreur de calcul a tout de même une importance par rapport aux arguments que l'on trouve sur le site d'Enseignement et Liberté, selon qui "il y a trois chances sur quatre que la phonosynthétique soit la meilleure". Cette affirmation est basée sur la probabilité de 26% calculée dans le rapport, or ce calcul repose sur les écart-types erronés. Avec les véritables écart-types il est clair que l'incertitude concernant la différence d'efficacité serait beaucoup plus grande. Elle n'est pas donnée dans le rapport du NRP, mais elle l'est dans le rapport britannique: 87% (de se tromper en affirmant que les deux approches ont une efficacité différente).

4. Johnston, R. S., & Watson, J. E. (2004). Accelerating the development of reading, spelling and phonemic awareness skills in initial readers. Reading and Writing, 17(4), 327-357.

Le 21 novembre 2006

: d’Enseignement et Liberté à Franck Ramus

En déplacement pendant quelques jours, j'ai eu votre message du 13 peu avant mon départ et j'ai trouvé celui du 16 à mon retour, hier soir.
Sans attendre de vous répondre sur le fond de notre différend, portant sur le bon usage de l'hypothèse nulle, et avant d'avoir reçu la réponse de la junior entreprise de l'ENSAE à vos observations sur ses calculs, je vous donne mon plein accord sur le principe d'un débat contradictoire. J'approuve vos suggestions sur le sujet et je vais demander que le lien avec votre site, qui figure à la page 2 du rapport ENSAE, soit affiché d'une manière plus visible. Je vous autorise bien volontiers à publier ce que je vous adresserai et à reprendre ce que je publierai ailleurs, en vous demandant de bien vouloir me confirmer votre accord de réciprocité. En ce qui concerne
les textes figurant sur notre site, je vous précise que nous reconnaissons comme nôtres ceux qui ne sont pas signés ou le sont par le recteur Pécheul, les opinions exprimées par des tiers, et publiées par nous en raison de l'intérêt qu'elles nous semblent présenter, n'engageant que leurs auteurs.
Je voudrais dès maintenant éviter une confusion sur nos objectifs :
Nous ne demandons pas l'interdiction de quelque méthode que ce soit, et plus précisément des phonoanalytiques, pour les raisons suivantes :
- A nos yeux toutes les libertés sont solidaires et inséparables; la liberté pédagogique des professeurs nous est donc aussi chère que la liberté de choix de l'école par les parents.
- Interdire les méthodes phonoanalytiques serait irréaliste dans les conditions actuelles de formation des maîtres.
Notre recours devant le Conseil d'Etat n'a donc pas pour objet de faire évoluer la législation à la parution de chaque nouvelle étude, mais d'obtenir une rectification d'un texte qui, en présentant les deux approches comme complémentaires, peut faire obstacle à l'emploi exclusif d'une méthode phonosynthétique par ceux qui le souhaitent, contrairement à l'intention exprimée par la circulaire du 3 janvier et conformément à l'opinion de ceux qui se sont réjouis d'un statu quo.
Enfin, pour permettre un débat serein, je vous propose que nous évitions les épithètes disgracieuses et les conseils intempestifs.
Je vous prie de croire à ma cordiale considération.
Philippe Gorre

Le 1^er décembre : de Franck Ramus à Enseignement et Liberté

"Notre recours devant le Conseil d'Etat n'a donc pas pour objet de faire évoluer la législation à la parution de chaque nouvelle étude, mais d'obtenir une rectification d'un texte qui, en présentant les deux approches comme complémentaires, peut faire obstacle à l'emploi exclusif d'une méthode phonosynthétique par ceux qui le souhaitent, contrairement à l'intention exprimée par la circulaire du 3 janvier et conformément à l'opinion de ceux qui se sont réjouis d'un statu quo."

Je comprends mieux votre position maintenant. C'est vrai qu'il y a dans l'arrêté une phrase qui peut être interprétée comme préconisant exclusivement les méthodes mixtes, par opposition aux analytiques pures et aux synthétiques pures. Je doute que ce soit l'intention des auteurs, mais c'est un fait. Et je comprends donc que vous militiez pour une interprétation plus large et une désambigüisation du texte.
En ce qui me concerne, puisqu'au vu des données actuelles je ne vois pas de raison de croire à la supériorité d'une méthode sur l'autre, évidemment l'argument va dans les deux sens: il n'y a pas plus de raison de vouloir interdire les méthodes synthétiques que les méthodes analytiques.

Le 22 janvier 2007

: d’Enseignement et Liberté à Franck Ramus

Qu’il s’agisse d’une ambiguïté accidentelle (votre message du 1^erdécembre) ou d’un amalgame délibéré, tout le monde devrait être d’accord pour clarifier l’arrêté du 24 mars ; et pourtant, il semble qu’il y ait des résistances.
Sur les autres points soulevés dans votre blog du 16 novembre.
Les affirmations en faveur de l’équivalence des résultats obtenus par les méthodes phonosynthétiques et phonoanalytiques ont pour justification scientifique principale, si ce n’est unique, le rapport du NRP et ces affirmations ne laissent pas de place au doute : « du moment que le déchiffrage est enseigné systématiquement, il importe peu que l’approche soit plutôt analytique ou synthétique ».
C’est pourquoi il nous a paru nécessaire d’émettre des réserves sur les critères de sélection des études retenus pour la méta analyse NRP et d’attirer l’attention sur le fait, qui est signalé dans le rapport mais n’a pas, à ma connaissance, été repris par la suite, que le refus de valider statistiquement la supériorité, constatée par le NRP, même s’il la qualifie de petite ⁽¹⁾, de l’approche synthétique est justifié par le fait que la reconnaissance de cette supériorité comporte une probabilité de se tromper supérieure à 5%.
La limite de 5%, ou une limite inférieure, est parfaitement justifiée, en raison des risques financiers et, dans certains cas, humains, attachés à la mise sur le marché d’un produit industriel ou d’un médicament non-conformes. Le choix est alors de lancer une fabrication ou de renoncer à la lancer.
Où est le risque dans le cas des méthodes de lecture ? Et le choix est-il entre enseigner ou ne pas enseigner ?
Le choix entre deux méthodes de lecture appartient à la catégorie des choix inéluctables devant lesquels chacun de nous se trouve placé en de nombreuses circonstances de la vie : choix d'un lycée pour ses enfants, d'un trajet pour se rendre à son travail, etc. Nous faisons ces choix sur la base d'informations statistiques souvent peu fiables, telles que les résultats au baccalauréat, les temps de trajet constatés, ou d’éléments subjectifs. Ce que nous choisissons, c’est la solution qui nous semble, explicitement ou implicitement, avoir plus d'une chance sur deux d'être la meilleure. Il n’y a pas de raisons, en effet, de limiter à 5% un risque qui n’existe pas.
La démarche de ENSAE Junior Etudes n’a pas consisté, comme vous le craignez, à accepter comme réelle une différence qui n’a qu’une probabilité de 5% de l’être, mais à évaluer cette probabilité, en calculant le risque de seconde espèce, ce que le NRP n’avait pas fait.
Elle a pu ainsi répondre d’une façon qui nous paraît satisfaisante à la question que nous lui avions posée, qui était : que peut-on dire en probabilité de la différence constatée dans la méta analyse du NRP entre les résultats obtenus par l’approche synthétique et ceux obtenus par l’approche analytique ? ENSAE Junior Etudes a procédé pour y répondre d’une façon classique, en testant l’hypothèse nulle, « Il n’ya pas de différence », puis l’hypothèse alternative, « Il y a une différence ».
Le NRP ayant fait le choix de ne pas se poser cette question, il n’est pas surprenant qu’il ait conclu en faveur d’un statu quo entre les deux approches.
Il y a quarante ans, il aurait conclu, au contraire, avec le même raisonnement, les mêmes résultats et les mêmes calculs, qu’il n’y avait pas lieu de mettre en cause le quasi monopole qu’exerçait alors le b.a.-ba.
Cependant, écrivez-vous, « Ce n'est tout de même pas un hasard si tous les scientifiques du monde sont d'accord pour maintenir le critère de certitude à 95%. Il y a bien des désaccords, mais typiquement de la part de gens qui voudraient le porter à 99%, c'est-à-dire le rendre encore plus strict, pas le contraire. »
Ce n’est pas un hasard, mais ce n’est pas non plus une preuve. N'est-il pas étonnant qu’il ait fallu attendre la fin du XX^esiècle pour que soit reconnue, dans le rapport du National Reading Panel, que l’enseignement systématique du déchiffrage est plus efficace que son enseignement non systématique ou absent, efficacité connue depuis l’antiquité ?
Et ce n’est sûrement pas sans de bonnes raisons que vous avez écrit, en préambule du Point de vue scientifique publié en mars dernier : « Tout d’abord, nous affirmons avec force que la question de l’efficacité comparée de différentes pratiques pédagogiques est une question qui peut et qui doit être abordée d’une manière scientifique. »
Les conditions d’application du test de l’hypothèse nulle suscitent d’ailleurs des critiques.
Les éditeurs de revues scientifiques, qui demandent des formules mathématiques et des calculs, seraient largement responsables de leur généralisation ! Elle aurait pour conséquences de très nombreuses erreurs et l’hypothèse alternative ne serait presque jamais examinée parce que difficilement évaluable. ⁽²⁾
L’auteur de l’étude ENSAE nous a indiqué que l’écart type pour les méthodes mixtes est bien de 0,1, comme vous le supposez, et non de 0,01, comme elle l’a écrit p. 8, mais que les calculs ont été faits avec 0,1. Par ailleurs l’exemple choisi dans l’industrie pharmaceutique, ce qui a pu prêter à confusion, porte sur des tests de dépistage et pas sur des médicaments, comme vous l’indiquez dans votre note 1 du 16 novembre.
Je vous remercie de m’avoir signalé la méta analyse Torgeson que je n’ai encore, ni lue, ni fait examiner. Je vous donnerai notre appréciation dès que possible et je souhaite avoir la vôtre.

⁽¹⁾Additional research would be useful for determining whether the small difference between the synthetic and large unit approaches is a reliable on. P; 2-119⁽²⁾ Entre autres :
http://www.ehess.fr/revue-msh/pdf/N167R900.pdf
http://www.ulg.ac.be/cogsci/clabiouse/statistical_significance.pdf