Les histogrammes présentés sur cette page comptent les pourcentages de mots respectant diverses contraintes littérales, dans plusieurs langues.
Le nombre de mots utilisables est certes corrélé à la dureté des contraintes, mais il faut prendre garde à ne pas les confondre. Certaines contraintes agissent en effet aussi sur les enchaînements de mots, en plus de restreindre le vocabulaire, et elles sont donc plus dures que ce que ces simples pourcentages laissent croire.
Par ailleurs, la dureté d'une contrainte dépend aussi beaucoup du type de mots disponibles, l'absence de mots-outils étant souvent plus pénible que la pauvreté du vocabulaire. Cette subtilité n'apparaît évidemment pas dans les figures ci-dessous.
La comparaison des résultats des différentes langues présente
aussi plusieurs pièges. Le premier est que ces figures donnent
des pourcentages de mots et non des nombres de
mots. Une langue au vocabulaire très riche, comme l'anglais,
fournit donc plus de mots utilisables pour un même pourcentage
affiché, donc conduit à une contrainte a priori moins
dure.
Le second piège est que les listes de mots utilisées
(provenant de l'excellent vérificateur d'orthographe
Excalibur pour Macintosh,
plus une ancienne version de
l'Officiel du Scrabble) n'ont pas du tout les
mêmes tailles. Elles sont notamment bien plus pauvres pour le
norvégien, l'indonésien et le créole haïtien que pour les autres
langues, et cela peut créer certains biais statistiques. La liste
de mots du créole haïtien est même si pauvre que cela conduit à
plusieurs bizarreries de ses histogrammes, auxquels on ne peut
donc pas faire une confiance aveugle.
Toutes les figures peuvent être agrandies à la taille de votre fenêtre en cliquant dessus. Notez que leur hauteur est chaque fois celle du plus grand pourcentage trouvé, qui peut varier considérablement d'une langue à une autre. Prenez donc garde à ne pas seulement comparer les couleurs et les hauteurs des rectangles, mais tenez compte aussi des valeurs numériques indiquées sur l'axe des ordonnées.
Le lipogramme le plus dur en français est en E, comme Perec le savait bien. Cette page de statistiques laisse entendre que la même voyelle E est aussi la plus fréquente en espagnol, quand on considère des textes et non une liste de mots. Cela semble remettre en question le choix des traducteurs du roman de Perec en espagnol, qui ont supprimé le A à la place du E. Mais l'histogramme ci-dessous prouve qu'ils ont très bien fait, car c'est en effet ce qui conduit au vocabulaire le plus restreint.
Le lipogramme en E est statistiquement plus dur en allemand et en danois. Cela confirme la réputation de tour de force de la traduction allemande de la Disparition par Eugen Helmlé.
Les lipogrammes sont statistiquement plus doux en anglais qu'en la plupart des autres langues — en pourcentages de mots, indépendamment du très riche vocabulaire anglais, qui implique donc encore davantage de mots disponibles. Ils semblent aussi plus doux en créole haïtien, mais la courte liste de mots utilisée pour cette langue biaise les résultats.
Les monovocalismes sont évidemment bien plus durs que les lipogrammes. En français, ceux en E sont environ dix fois moins nombreux que les lipogrammes en E.
Tous les monovocalismes sont plus doux en anglais qu'en français. Notez que l'échelle verticale n'est pas la même dans ces histogrammes.
Les monovocalismes en E sont relativement doux en allemand, néerlandais, danois & norvégien, et ceux en A en suédois & indonésien.
L'histogramme du créole haïtien est particulièrement bizarre, mais cela vient probablement de la trop courte liste de mots utilisée : les monovocalismes en E ou A sont à peu près aussi nombreux (8 %), idem pour ceux en I ou O (4 %), et encore idem pour ceux en U ou Y (0,5 %).
Les monoconsonantismes sont encore plus durs que les monovocalismes.
Ils sont un peu plus doux en norvégien, indonésien & créole haïtien que dans les autres langues, mais les listes de mots de ces trois langues sont chaque fois assez pauvres, donc il s'agit probablement d'un biais statistique.
Le tautogramme en S est particulièrement doux en italien (et en danois).
Les télotautogrammes sont généralement dominés par les marques de pluriel, c'est-à-dire S en français, anglais, espagnol, catalan, portugais, danois, suédois ; N en allemand & néerlandais ; E en norvégien ; et presque toutes les voyelles (OEIA) en italien — qui n'autorise presque jamais d'autre lettre finale.
Les mésotautogrammes les plus doux sont en I, E ou A selon la langue, mais ils donnent des pourcentages de mots autorisés du même ordre de grandeur. Les E centraux sont clairement privilégiés en allemand, néerlandais, danois, norvégien, et les A centraux en suédois & indonésien.
Cette contrainte (inventée par Nicolas Graner) atteint assez vite l'asymptote des mots hétérogrammatiques, c'est-à-dire n'utilisant aucune lettre plus d'une fois. Mais elle est bien plus dure que ces pourcentages ne le laissent croire, car elle doit être respectée partout, même entre les mots.
Elle est légèrement plus douce en anglais qu'en français (sans doute à cause des nombreux mots courts de l'anglais), mais surtout bien plus douce en espagnol & portugais pour D = 1, car les lettres répétées y sont très rares.
Cette contrainte devient abordable pour un écart alphabétique maximal D de l'ordre de 10.
Pour la même raison que pour la distanciation ci-dessus, elle est un peu plus dure en espagnol & portugais qu'en français (cf. D = 16).
Cette contrainte des mouvements conjoints devient bien plus douce si l'on considère un alphabet cyclique, où le A suit le Z.
Toujours pour la même raison que pour la distanciation ci-dessus, les mouvements disjoints sont un peu plus doux en espagnol & portugais pour D' = 1.
Les résultats ne changent quasiment pas lorsqu'on considère un alphabet cyclique, où le A suit le Z.
Comme cette contrainte dépend du clavier utilisé, elle n'est illustrée ci-dessous que pour le français, avec ce clavier français Macintosh :
Le premier histogramme autorise les sauts de touche en touche dans toutes les directions (« q » et « w » sont par exemple immédiatement voisines). Notez que les accents sont pris en compte dans cette contrainte, donc « a » et « e » ne sont pas immédiatement voisines, alors qu'« a » et « é » le sont. La barre d'espace permet d'aller plus vite d'un côté à l'autre du clavier, par exemple de « c » au point-virgule en seulement deux sauts.
Les deux autres histogrammes correspondent à des surcontraintes choisies par Jérémie Piscicelli : les mouvements horizontaux sont interdits (par exemple de « a » à « z »), et les passages via la barre d'espace sont également interdits dans le dernier histogramme. Il est bien sûr nécessaire de choisir un nombre de sauts N plus grand pour rendre ces variantes abordables.
Les histogrammes ci-dessous n'ont pas grand rapport avec la difficulté de cette contrainte. En effet, presque tous les mots sont autorisés pour N ≥ 2 ou 3, mais la difficulté est de respecter cette contrainte durant toute une phrase, ou un distique, voire une strophe ou un poème complet. Par ailleurs, obtenir des rimes sans réemployer les mêmes N-grammes complique encore l'écriture.
Les histogrammes du français illustrent que les doubles G, H et B d'Élisabeth Chamontin, en avril 2001, étaient particulièrement durs.
Rare exemple de contrainte plus dure en anglais qu'en français, lié au fait que l'anglais est riche en mots courts.
Même remarque que pour les triplets ci-dessus : il est plus difficile d'employer exactement quatre fois une même lettre dans un mot anglais qu'en français (dont les mots sont généralement plus longs).
Dans ces histogrammes (ainsi que les précédents), les lettres par ordre alphabétique inverse correspondent à un nombre de mots strictement nul.
Ce rapport est piqué sur la valeur 1 dans les langues latines (français, espagnol, catalan, italien, portugais, créole haïtien, ainsi que l'indonésien), et sur 2 en allemand, danois, norvégien & suédois. L'anglais et le néerlandais donnent à peu près la même proportion de C/V = 1 que C/V = 2 (et C/V = 3/2).
On peut aussi noter que le français est finalement plus riche en consonnes qu'en voyelles : comparez les rapports inverses les uns des autres, comme 1/2 et 2, 2/3 et 3/2, ou 4/5 et 5/4.
La contrainte de l'« aléa furtif » (réinventée par Robert Rapilly, après Éric Angelini & Daniel Lehman) privilégie énormément le S en anglais et en danois (qui dépasse même 9 % de mots en « s...s »). Le cas de l'italien est une conséquence de ses mots presque toujours terminés par A, E, I ou O — comme nous l'avons vu ci-dessus pour les télotautogrammes.
La valeur N = 1 correspond à la totalité des mots respectant la contrainte de l'« aléa furtif » ci-dessus. Le danois sort de l'ordinaire par son grand nombre de mots en « s...s ».
La valeur 0 correspond à la contrainte des semi-palindromes ci-dessus pour N = 1.
Les écarts alphabétiques sont ici orientés, c.-à-d. que pour N = 1, on autorise les mots en « a...b » mais pas ceux en « b...a ». Un alphabet cyclique est par ailleurs considéré, c'est-à-dire que les mots en « z...a » sont autorisés pour N = 1. Il faut en revanche N = 25 pour employer les mots en « b...a » et « a...z ».
La valeur N = 1 coïncide évidemment avec les semi-palindromes pour N = 1, c'est-à-dire avec la totalité des mots respectant la contrainte de l'« aléa furtif ». Le danois continue donc à sortir de l'ordinaire par son grand nombre de mots en « s...s ».
Par rapport aux autres langues, le catalan possède davantage de mots commençant et terminant par le même couple de lettres (dans le même ordre). Ses 2 % de mots de ce type sont dominés par ceux en « es...es » (0,87 %), « en...en » (0,66 %) et « em...em » (0,29 %).
Les bivocalismes sont plus doux en norvégien et en suédois qu'en français.
Les histogrammes ci-dessous n'illustrent que les 50 biconsonantismes les moins durs, qui ne sont pas les mêmes selon les langues.
Certains biconsonantismes sont 7 fois plus doux en norvégien qu'en allemand. Le français est intermédiaire.
Les histogrammes ci-dessous n'illustrent que les oligogrammes les moins durs, et pour seulement trois langues.
Noël Bernard a choisi de se restreindre à un alphabet de quatre lettres (troisième histogramme) dans ses « quatre-san-ku » de 2013.
Sans surprise, les oligogrammes français privilégient les lettres de la série ESARTIN... chère à Perec :
Oligogrammes en anglais des États-Unis :
Oligogrammes en espagnol :
Ci-dessous, chaque barre verticale correspond à la somme d'un histogramme complet de la précédente section.
Pour les petites valeurs de N, la contrainte est un peu moins dure en anglais qu'en français, en raison de la grande quantité de mots courts de l'anglais. Elle est aussi plus douce en norvégien, suédois et indonésien (ainsi qu'en créole haïtien, dont la brève liste de mots utilisée contient une majorité de mots très courts).
Les mots contenant 15 ou 16 lettres distinctes en français sont absents de l'Officiel du Scrabble parce qu'ils comptent plus de 15 lettres. Le record est par exemple « dactylographiques », en 17 lettres dont 16 distinctes.
La liste de mots américains utilisée en contient 9 employant au moins 15 lettres distinctes, mais ne figurant pas dans la liste de mots britanniques. Le record est « phenylthiocarbamides », en 20 lettres dont 16 distinctes.
L'allemand, dont certains mots peuvent être très longs, atteint 18 lettres distinctes dans « Zylinderkopfschraube » (vis à tête cylindrique), en un total de 20 lettres.
Le néerlandais atteint aussi 18 lettres distinctes dans « uitwijzingsproblematiek » (problème d'expulsion), en un total de 23 lettres, et « brandverzekeringsmaatschappij(en) » [compagnie(s) d'assurance incendie], en des totaux de 29 ou 31 lettres.
Cette contrainte a été proposée par Noël Bernard.
Dans les histogrammes de droite, une version « stricte » a été considérée, dans laquelle les mots emploient exactement N lettres consécutives de l'alphabet, mais pas davantage.
Le record en français (absent de la première liste de mots utilisée) est le passé simple « contreplaquâmes », qui contient les 10 lettres consécutives LMNOPQRSTU. On trouve aussi « électropneumatiques », « immunoélectrophorétiques » et « primodélinquant(e)s » dans le Grand Robert, qui emploient chacun ces mêmes dix lettres consécutives.
Le record en anglais est « quadruplications », qui contient les 8 lettres consécutives NOPQRSTU.
Le record en allemand est « Fallschirmjägerbrigade » (brigade de parachutistes), qui contient les 10 lettres consécutives ABCDEFGHIJ. Contrairement aux autres langues, l'allemand (avec le danois, cf. plus bas) contient à peu près autant de 2-bambochades strictes que de 3-bambochades strictes.
Le record en néerlandais est « aftapmogelijkheden », qui contient les 13 lettres consécutives DEFGHIJKLMNOP.
L'indonésien et le créole haïtien contiennent particulièrement peu de 3-bambochades strictes, comparativement aux autres langues.
Évolution de la contrainte dans mon sonnet progressivement lipogrammatique du 01/10/03 :
Paradoxalement, les plus grands pourcentages de mots correspondaient à des contraintes dures, car il était obligatoire de se servir de toutes les lettres autorisées. Il fallait donc construire des (quasi)-pangrammes pour les premiers vers. C'était aussi le cas dans les premières & dernières phrases de ma prose progressivement lipogrammatique du 05/02/17 :
Évolution de la contrainte dans les « diminutions vocaliques » des 09/09/19 & 24/09/19 de Gérard Le Goff :
Évolution de la contrainte dans mes sonnets biconsonantiques des 14/09/19 & 30/10/19 :
Voir aussi l'OuBiPo :
citations bibliques respectant involontairement diverses contraintes
Pages oulipiennes de Gef :
1,
2,
3,
4,
5,
6,
7,
8,
9,
10,
11,
12,
13,
14,
15,
16,
17,
18,
19,
20,
21,
22,
23,
24,
25,
26,
27,
28,
29,
30,
31,
32,
33,
34,
35,
36,
37,
38,
39,
40,
41,
42,
43,
44,
45,
46,
sélection
Vérificateurs de contraintes :
anagrammes,
belles absentes,
gématrie,
palindromes,
pangrammes & lipogrammes,
prisonniers,
sympathie
Gilles Esposito-Farèse <gef@iap.fr>