Tout à propos de l’utilisation des expressions régulières dans calibre

Les expressions régulières sont des fonctions utilisées à différents endroits dans calibre pour effectuer des manipulations élaborées sur le contenu et sur les métadonnées de vos livres numériques. Ce tutoriel est une introduction légère pour vous permettre de démarrer dans l’utilisation des expressions régulières de calibre.

Tout d’abord, un mot d’avertissement et un mot d’encouragement

Ceci est, inévitablement, en train de devenir quelque peu technique- après tout, les expressions régulières sont des outils techniques pour faire une chose technique. Je vais devoir utiliser un certain jargon et des concepts qui peuvent sembler compliqués ou alambiqués. Je vais essayer d’expliquer ces concepts aussi clairement que possible, mais je ne peux vraiment pas le faire sans les utiliser du tout… Donc, ne soyez pas découragé par un tel jargon, comme j’ai essayé d’expliquer tout ce qui est nouveau. Et alors que les expressions régulières en elles mêmes peuvent paraître comme une arcane, de la magie noire (ou, pour être plus prosaïque, une chaîne aléatoire d’un charabia de lettres et de signes). Je promets qu’elles n’ont pas toutes cette complexité. Même ceux qui comprennent bien les expressions régulières ont des difficultés à lire les plus complexes, mais les écrire n’est pas une difficulté- vous construisez l’expression pas à pas. Aussi, faites un pas et suivez-moi dans le trou du lapin.

Où pouvez-vous utiliser les expressions régulières dans calibre ?

Il y a dans calibre quelques endroits utilisant des expressions régulières. Il y en Rechercher & remplacer dans les options de conversion, dans la détection de métadonnées à partir des noms de fichiers dans les paramètres d’importation ainsi que dans Rechercher et remplacer lors de l’édition des métadonnées de livres par lot. L’éditeur de livre de calibre peut également utiliser des expressions régulières dans sa fonctionnalité rechercher et remplacer.

Que diable est une expression régulière ?

Une expression régulière est une manière de décrire des ensembles de chaînes. Une expression régulière simple peut correspondre à un nombre différent de chaînes. C’est ce qui rend les expressions régulières si puissantes – elles sont une manière concise de décrire un nombre potentiellement grand de variations.

Note

J’utilise ici le mot chaîne dans le sens où il est utilisé dans les langages de programmation : une chaîne d’un ou plusieurs caractères, caractères incluant des caractères habituels, des nombres, de la ponctuation et ce qu’on appelle les whitespace (retours de ligne, tabulations, etc…). Veuillez noter que généralement, les caractères majuscules et minuscules ne sont pas considérés les mêmes, donc « a » est un caractère différent de « A » et ainsi de suite. Dans calibre, les expressions régulières sont sensibles à la casse dans la Barre de recherche, mais pas dans les options de conversion. Il y a une manière pour rendre chaque expression régulière insensible à la casse, mais nous en discuterons plus tard. Ça devient compliqué parce que les expressions régulières tiennent compte des variations des chaînes qu’elles font correspondre, ainsi une expression peut correspondre à des chaînes multiples, ce qui est pourquoi les gens ne prennent pas la peine de les employer du tout. Plus sur cela dans un moment.

Prendre soin d’expliquer ?

Bien, c’est pourquoi nous sommes ici. D’abord, c’est le concept le plus important dans les expressions régulières : Une chaîne en-soi est une expression régulière qui correspond à elle même. Ceci est pour dire, si je voulais faire correspondre la chaîne "Hello, World!" en utilisant une expression régulière, l’expression régulière à utiliser devra être "Hello, World!". Et oui, c’est vraiment aussi simple. Vous noterez, cependant, que cela correspond uniquement à la chaîne exacte "Hello, World!", pas par ex. à "Hello, wOrld!" ou à "hello, world!" ou à n’importe quelle autre variation.

Cela ne semble pas trop mauvais. Ensuite ?

La suite est le commencement des choses vraiment intéressantes. Vous souvenez-vous quand j’ai dit que les expressions régulières peuvent correspondre à plusieurs chaînes ? C’est là où ça les rendait un peu plus compliquées. Disons, comme une sorte d’exercice plus pratique, que le livre numérique que vous vouliez convertir avait de méchantes notes de bas de page comptant les pages, comme « Page 5 de 423 ». Évidemment le nombre de pages devrait augmenter de 1 à 423, donc vous devriez avoir à faire correspondre 423 chaînes, juste ? Faux, en fait: les expressions régulières vous permettent de définir un ensemble de caractères qui correspond : Pour définir un ensemble, vous mettez tous les caractères que vous voulez y voir figurer entre crochets. Aussi, par exemple, l’ensemble [abc]``devra correspondre soit au caractère  "a", soit au "b" ou au "c". *Les ensembles correspondront toujours uniquement à un des caractères dans l'ensemble*, c'est à dire, si vous voulez faire correspondre tous les caractères minuscules, vous devrez utiliser l'ensemble ``[a-z] pour les caractères minuscules et majuscules vous devrez utiliser l’ensemble [a-zA-Z] et ainsi de suite. Vous voyez l’idée ? Ainsi, évidemment, en utilisant l’expression Page [0-9] de 423 vous serez capable de correspondre aux 9 premières pages, donc par conséquent les expressions en ont besoin de trois : la seconde expression Page [0-9][0-9] de 423 correspondra aux numéros de pages à deux chiffres, et je suis sûr que vous pouvez deviner à quoi ressemblera la troisième expression. Oui, allez-y. Mettez-la par écrit.

He, joli ! Cela commence à avoir du sens !

J’espère que vous vous dites cela. Mais accrochez vous, maintenant cela va devenir encore mieux ! Nous avons juste dit qu’en utilisant les ensembles, nous pouvons correspondre à un de plusieurs caractères en une fois. Mais vous pouvez même répéter un caractère ou un ensemble, réduisant le nombres d’expressions nécessaires pour gérer l’exemple numéro de page ci dessus à une. Oui, UNE ! Enthousiaste ? Vous devriez l’être ! Cela fonctionne comme ceci : certains caractères qu’on appelle spéciaux, « + », « ? » et « * », répète l’élément simple le précédant. (Élément signifie soit un caractère seul, un ensemble de caractères, une séquence d’échappement ou un groupe) (nous aborderons ces deux derniers plus tard)- en bref, n’importe quelle entité simple dans une expression régulière. Ces caractères sont appelés des caractères de remplacement ou des quantificateurs. Pour être plus précis, « ? » correspond à 0 ou 1 de l’élément précédant, « * » correspond à 0 ou plus de l’élément précédant et « + » correspond à 1 ou plus de l’élément précédant. Quelques exemples : l’expression a? correspondrait soit à «  » (qui est la chaîne vide, pas strictement utile dans ce cas) ou « a », l’expression « a* » correspondrait à «  », « a », « aa » ou n’importe quel nombre de a dans une ligne, finalement, l’expression « a+ » correspondrait à « a », « aa » ou n’importe quel nombre de a dans une ligne(Notez : il ne correspondra pas à une chaîne vide !). Même affaire avec les ensembles, l’expression [0-9]+ correspondra à chaque numéro entier qu’il y a ! Je sais à quoi vous êtes occupé à penser, et vous avez raison : si vous utilisez cela dans le cas ci-dessus de la correspondance du numéro de page, est-ce que cette simple expression ne pourrait pas correspondre à tous les numéros de page ? Oui, l’expression [0-9]+ de 423 correspondra à chaque numéro de page dans ce livre !

Note

Une note sur ces quantificateurs : Ils essaient généralement de correspondre au plus de texte possible, aussi soyez prudent lors de leur utilisation. Ceci est appelé « un comportement glouton »- Je suis sûr que vous comprenez pourquoi. Ils deviennent problématiques quand vous, disons, essayez de correspondre à une balise. Considérons, par exemple, la chaîne "<p class="calibre2">Titre ici</p>" et disons que vous voulez correspondre à la balise d’ouverture (la partie entre la première paire de chevrons, un peu plus sur les balises plus tard). Vous devez penser que l’expression <p.*> devrait correspondre à cette balise, mais actuellement, elle correspond à l’entièreté de la chaîne ! (Le caractère « . » est un autre caractère spécial. Il correspond à n’importe quoi excepté les sauts de ligne, aussi, essentiellement, l’expression .* devrait correspondre à n’importe quelle ligne à laquelle vous pensez.) A la place, essayez d’utiliser <p.*?> qui rend le quantificateur "*" non-glouton. Cette expression ne correspondrait qu’à la première balise d’ouverture, comme attendu. Il y a en fait une autre manière d’y parvenir : L’expression <p[^>]*> correspondra à la même balise d’ouverture - vous verrez pourquoi après la prochaine section. Notez juste qu’il y a assez fréquemment plus d’une manière d’écrire une expression régulière.

Bien, ces caractères spéciaux sont bien jolis et tout, mais qu’en est-il si je veux faire correspondre à un point ou à un point d’interrogation ?

Vous pouvez bien sûr faire cela : insérez juste une barre oblique inversée devant tout caractère spécial et il sera interprété comme un caractère littéral, sans aucune autre signification. Cette paire de barres obliques inversées suivie d’un caractère seul est appelée une séquence d’échappement, et l’action de mettre une barre oblique inversée devant un caractère spécial est appelée un échappant de ce caractère. Une séquence d’échappement est interprétée comme un élément seul. Il y a bien sûr des séquences d’échappement qui font plus que juste échapper des caractères spéciaux, par exemple "\t" signifie une tabulation. Nous verrons certaines des séquences d’échappement plus tard. Ah, et temps que nous y sommes, au sujet de ces caractères spéciaux: Considérez n’importe quel caractère dont nous discutons dans cette introduction comme ayant une certaine fonction pour être spéciaux et de ce fait devant être échappé si vous voulez le caractère littéral.

Bien, quels sont les ensembles les plus utiles ?

Je savais que vous demanderiez. Certains des ensembles utiles sont [0-9] correspondant à un nombre unique, [a-z] correspondant à un caractère minuscule unique, [A-Z] correspondant à un caractère majuscule unique, [a-zA-Z] correspondant à un caractère unique et [a-zA-Z0-9] correspondant à une lettre ou un nombre unique. Vous pouvez aussi utiliser une séquence d’échappement comme sténographie:

\d is equivalent to [0-9]
\w is equivalent to [a-zA-Z0-9_]
\s is equivalent to any whitespace

Note

« Whitespace » est un terme pour tout ce qui ne sera pas imprimé. Ces caractères incluent l’espace, la tabulation, le retour à la ligne, le saut de page et le retour chariot.

Comme dernière note sur les ensembles, vous pouvez aussi définir un ensemble de n’importe quel caractère*mais* ceux dans l’ensemble. Vous faites cela en incluant le caractère "^" comme le tout premier caractère dans l’ensemble. Donc, [^a] correspondra à n’importe quel caractère en excluant le « a ». C’est ce qu’on appelle complémenter l’ensemble. Ces sténographies de séquences d’échappement que nous avons vues plus tôt peuvent aussi être complémentées : "\D" signifie n’importe quel caractère qui n’est pas un nombre, donc étant équivalent à [^0-9]. Les autres sténographies peuvent être complémentées par, vous le devinez, l’utilisation de la majuscule respective à la place de la minuscule. Aussi, revenons à l’exemple <p[^>]*> de la section précédente, maintenant vous pouvez voir que le jeu de caractères utilise des essais pour correspondre à n’importe quel caractère excepté un chevron fermant.

Mais si j’avais quelques chaînes variables que je voudrais faire correspondre, les choses deviennent-elles compliquées ?

N’ayez pas peur, la vie est belle et facile. Considérons cet exemple : Le livre que vous convertissez a « Titre » écrit sur chaque page impaire et « Auteur » écrit sur chaque page paire. Harmonieux à l’impression, pas vrai ? Mais dans les livres numériques, c’est ennuyeux. Vous pouvez grouper ensemble les expressions dans des parenthèses normales et le caractère "|" vous permettra de correspondre soit à l’expression à sa droite ou à l’expression à sa gauche. Combinez les et vous avez fini. Trop rapide pour vous ? Ok, tout d’abord, nous groupons les expressions pour les pages paires et impaires, donc nous obtenons (Titre)(Auteur)` comme nos deux expressions nécessaires. Maintenant nous rendons les choses plus simples en utilisant la barre verticale ("|" est appelé le caractère barre verticale) : si vous utilisez l’expression (Titre|Auteur) vous obtiendrez une correspondance pour « Titre » (sur les pages impaires) ou vous correspondrez à « Auteur » (sur les pages paires). Bien, n’était-ce pas facile ?

Vous pouvez, bien sûr, utiliser la barre verticale sans utiliser les parenthèses de regroupement, aussi bien. Vous vous souvenez quand je disais que les caractères spéciaux répétaient l’élément le précédant, et bien pour le caractère barre verticale, c’est différent.L’expression « Titre|Auteur » permet de sélectionner soit auteur, soit titre, comme sur l’exemple précédent avec les parenthèses. Le caractère barre verticale sélectionne l’expression devant lui ou celle derrière lui. Donc si on veut sélectionner les chaînes « calibre » et « Calibre », il faudra utiliser l’expression (c|C)alibre, où le groupement assure qu’uniquement le « c » sera sélectionné. Si on avait utilisé c|Calibre, alors on aurait obtenu c ou Calibre, ce qui n’est pas ce qui était attendu. Donc en cas de doute, il est nécessaire de grouper avec les parenthèses.

Vous avez manqué…

… Attendez une minute, il y a une dernière chose, vraiment bien, que vous pouvez faire avec les groupes. A partir d’un groupe que vous avez déjà récupéré, vous pouvez utiliser une référence à ce groupe plus tard dans l’expression. Les groupes trouvés sont numérotés à partir de 1, et vous pouvez y faire référence en échappant le numéro du groupe auquel vous vous référencé, donc le cinquième groupe devra être référencé comme \5. Aussi si vous recherchiez après ([^ ]+) \1 dans la chaîne « Test Test », vous correspondriez à la chaîne entière !

Au début vous disiez qu’il y avait un moyen de rendre les expressions régulières insensibles à la casse ?

Oui, je l’ai fait, merci de votre attention et de me l’avoir rappelé. Vous pouvez dire à calibre comment vous voulez que certaines choses soient traitées en utilisant quelque chose appelée bannière. Vous incluez des bannières dans votre expression en utilisant la construction spéciale (?bannières vont ici) où, évidemment, vous devrez remplacer « bannières vont ici » avec les bannières spécifiques que vous voulez. Pour ignorer la casse, la bannière est le i, donc vous incluez test(?i) dans votre expression. Dès lors, (?i)test correspondra à Test, tEst, TEst et toutes les variations imaginables.

Une autre bannière utile laisse le point corresponde à n’importe quel caractère du tout, incluant le saut de ligne, la bannière s. Si vous voulez utiliser de multiples bannières dans une expression, mettez les juste dans la même déclaration : ('?is) ignorera la casse fera que le point correspondra à tout. Quelle bannière vous placez en premier n’est pas important, (?si) sera équivalent à celui ci-dessus.

Je pense que je commence à comprendre ces expressions régulières maintenant… comment dois-je les utiliser dans calibre?

Conversions

Commençons avec les paramètres de conversion, qui est vraiment bien. Dans la partie Rechercher & remplacer, on peut utiliser une regexp (abréviation pour expression régulière) qui décrit la chaîne qui sera remplacée pendant la conversion. La partie magique, c’est l’assistant. En cliquant sur l’assistant, on obtient la prévisualisation de ce que calibre « verra » pendant le processus de conversion. Défilez vers le bas jusqu’à la chaque vous voulez supprimer, sélectionnez-la et copiez-la, collez la dans le champ regexp au dessus de la fenêtre. S’ils ont des parties variables, comme les numéros de page ou autre, utilisez les ensembles et les quantificateurs pour couvrir ceux-ci, et pendant que vous y êtes, souvenez-vous d’échapper les caractères spéciaux, s’il y en a certains. Appuyez le bouton libellé Test et calibre mettra en évidence les parties qu’il devrait remplacer s’il utilisait la regexp. Une fois que vous êtes satisfait, appuyez OK et convertissez. Soyez prudent si votre source de conversion à des balises comme dans cet exemple:

Maybe, but the cops feel like you do, Anita. What's one more dead vampire?
New laws don't change that. </p>
<p class="calibre4"> <b class="calibre2">Generated by ABC Amber LIT Conv
<a href="http://www.processtext.com/abclit.html" class="calibre3">erter,
http://www.processtext.com/abclit.html</a></b></p>
<p class="calibre4"> It had only been two years since Addison v. Clark.
The court case gave us a revised version of what life was

(honteusement tiré de ce fil de discussion). Vous devriez également enlever certaines des balises . Dans cet exemple, je recommanderais de commencer par la balise <b class="calibre2">, maintenant vous devez terminé avec la balise fermante correspondante (les balises ouvrantes sont <balise>, les balises fermantes sont </tag>), qui est simplement le prochain </b> dans ce cas. (Référez-vous à un bon manuel HTML ou posez la question sur le forum si vous n’êtes pas au clair sur ce point). La balise ouvrante peut être décrite en utilisant <b.*?>, la balise fermante en utilisant </b>, donc nous pourrions retirer entièrement ce qui se trouve entre ces deux balises en utilisant <b.*?>.*?</b>. Mais utiliser cette expression serait une mauvaise idée, parce qu’elle retire tout ce qui se trouve encadré par des balises <b>- (qui, par ailleurs, rend le texte encadré en gras), et c’est un pari gagné que nous enlèverons des parties du livre de cette façon. À la place, inclure également le commencement de la chaîne encadrée, faisant l’expression régulière <b.*?>\s*Generated\s+by\s+ABC\s+Amber\s+LIT.*?</b> Le \s avec les quantificateurs sont inclus ici à la place d’utiliser explicitement les espaces comme considéré dans la chaîne pour saisir toutes les variations de la chaîne qui pourraient survenir. Souvenez-vous de vérifier qu’est ce que calibre retirera pour vous assurer que vous ne retirez pas des portions que vous voulez garder si vous testez une nouvelle expression. Si vous vérifiez uniquement une occurrence, vous pourriez manquer une disparité ailleurs dans le texte. Notez également que si vous enlevez accidentellement plus ou moins de balises que vous ne le vouliez réellement, calibre essaye de réparer le code endommagé après avoir fait le retrait.

Ajout de livres

Une autre chose pour laquelle vous pouvez utiliser les expressions régulières est l’extraction des métadonnées à partir des noms de fichier. Vous pouvez trouver cette fonctionnalité dans la partie Ajout de livres des préférences. Il y a une fonctionnalité spéciale ici : vous vous utiliser les noms de champ pour les champs de métadonnées, par exemple (?P<title>) indiquera que calibre utilise cette parie de la chaîne comme titre du livre. Les noms de champs permis sont listés dans la fenêtre, accompagné d’un autre joli champ de test. Un exemple : disons que vous voulez importer un tas de fichiers nommés Textes Classiques: La Divine Comédie par Dante Alighieri.mobi. (Evidemment, ceci est déjà dans votre bibliothèque, puisque nous aimons tous la poésie italienne classique) ou Les épiques de la Science Fiction : La Trilogie Fondation par Isaac Asimov.epub. Ceci est évidemment un schéma de nommage dont calibre ne peut extraire aucunes données significatives - son expression standard pour l’extraction de métadonnées est (?P<title>.+) - (?P<author>[^_]+). Une expression régulière qui fonctionnera ici devra être [a-zA-Z]+: (?P<title>.+) par (?P<author>.+). Merci de noter que, à l’intérieur du groupe pour le champ métadonnées , vous devez utiliser des expressions pour décrire ce à quoi le champ correspond réellement. Et notez également que, lors de l’utilisation de la zone de test de calibre, vous devez ajouter l’extension de fichier, sinon vous n’aurez pas de résultats du tout, malgré l’utilisation d’une expression correcte.

Edition des métadonnées par lot

La dernière partie est le rechercher et remplacer par expression régulière dans les champs de métadonnées. Vous pouvez accéder à ceci en sélectionnant de multiples livres dans la bibliothèque et en utilisant l’édition de métadonnées par lot. Soyez très prudent en utilisant cette dernière fonction, vu qu’elle peut faire de Très Vilaines Choses à votre bibliothèque. Vérifiez par deux fois que vos expressions font ce que vous attendez d’elles en utilisant les champs de test, et marquez uniquement les livres que vous voulez réellement changer ! Dans le mode recherche par expression régulière, vous pouvez rechercher dans un champ, remplacer le texte avec quelque chose et même écrire le résultat dans un autre champ. Un exemple pratique : disons que votre bibliothèque contient les livres de la série Dune de Frank Herbert, nommés selon le modèle Dune 1 - Dune, Dune 2 - Dune Messiah et ainsi de suite. Maintenant vous voulez obtenir Dune dans le champ série Vous pouvez faire cela en recherchant après (.*?) \d+ - .* dans le champ titre et en le remplaçant avec \1 dans le champ séries. Vous voyez ce que je veux dire ? C’est une référence au premier groupe avec lequel vous allez remplacer le champ série. Maintenant que vous avez toutes vos séries prêtes, vous avez uniquement besoin de faire une autre recherche de .*? - et le remplacer avec "" (une chaîne vide) encore dans le champ titre, et vos métadonnées sont toutes ordonnées et rangées. De cette manière, au lieu de remplacer le champ entier, vous pouvez également apposer ou ajouter au début au champ, ainsi, si vous voulez le titre de livre à ajouter au début avec des infos de séries, vous pourriez faire cela également. Comme vous l’avez suremment noté, il y a une case à cocher marquée Sensible à la casse, ainsi vous ne devrez pas employer des bannières pour sélectionner le comportement ici.

Voilà, c’est juste pour conclure cette très courte introduction aux expressions régulières. Si tout va bien je vous aurai montré assez que pour vous permettre au moins de démarrer et de vous donner l’envie de continuer d’apprendre par vous-même - un bon point de départ serait la Documentation Python pour les regexps.

Un dernier mot de l’avertissement, cependant : Les regexps sont puissantes, mais également vraiment facile à devenir erronées. calibre fournit des possibilités de vraiment grandes d’essai pour voir si vos expressions se comportent que vous vous y attendez à . Employez-les. Essayez de ne pas vous tirer dans le pied. (Dieu, j’aime cette expression…) Mais si vous vous, en dépit de l’avertissement, blessez votre pied (ou toutes autres parties du corps), essayez d’apprendre de celui-ci.

Crédits

Remerciements pour l’aide avec les astuces, les correction et analogues :

  • ldolse
  • kovidgoyal
  • chaley
  • dwanthny
  • kacir
  • Starson17
  • Orpheu

Pour plus d’informations à propos des regexps voir Le Manuel Utilisateur Python.