Allt om att använda reguljära uttryck i calibre

Reguljära uttryck är funktioner som används på många ställen i calibre för att utföra avancerad manipulation av e-bokens innehåll och metadata. Denna handledning är en mild introduktion till att få dig igång med att använda vanliga uttryck i calibre.

Först, ett varningens ord och ett modets ord

Detta kommer, oundvikligen, att vara något tekniska trots allt, reguljära uttryck är ett tekniskt verktyg för att göra tekniska saker. Jag kommer att behöva använda en del jargong och begrepp som kan verka komplicerat och invecklat. Jag ska försöka förklara dessa begrepp så tydligt som jag kan, men egentligen kan jag inte göra det utan att använda dem alla. Med detta sagt, förkasta inte detta på grund av all jargong, jag har försökt att förklara allt nytt. Och medan reguljära uttryck själva kan verka som en svårbegripliga, svart magi (eller för att vara mer prosaisk, en slumpmässig sträng av rappakalja bokstäver och tecken), jag lovar att det är inte så komplicerat. Även de som förstår vanliga uttryck riktigt bra kan ha problem med att läsa de mer komplexa, men att skriva dem är inte så svårt - du konstruerar uttrycket steg för steg. Så, ta ett steg och följa mig in i kaninhålet.

Var i calibre kan man använda reguljära uttryck?

Det finns ett fåtal platser calibre använder reguljära uttryck. Det finns Sök & ersätt i konverteringsalternativ, metadatadetektering från filnamn i importinställningar och Sök och ersätt när du redigerar metadata för böcker i grupp. calibre redigeraren kan även använda reguljära uttryck i sin ”sök och ersätt” funktion.

Vad i hela världen är ett reguljärt uttryck?

Ett reguljärt uttryck är ett sätt att beskriva en uppsättningar strängar. En enda reguljära uttryck kan matcha flera olika strängar. Det är det som gör reguljära uttryck så kraftfulla - de är ett kortfattad sätt att beskriva ett potentiellt stort antal varianter.

Observera

Jag använder sträng här i den mening den används i programspråk: en sträng av ett eller flera tecken, tecken inklusive faktiska tecken, siffror, skiljetecken och s.k. whitespace (radbrytningar, tabulatorer o.s.v.). Observera att i allmänhet anses inte stora och små bokstäver vara samma, alltså ”a” som en annan karaktär från ”A” och så vidare. I calibre, är reguljära uttryck skiftlägesokänslig i sökfältet, men inte i konverteringsalternativet. Det finns ett sätt att göra alla reguljära uttryck fall okänsligt, men vi kommer att diskutera det senare. Det blir komplicerat eftersom reguljära uttryck tillåter variationer i strängar som matchar, så ett uttryck kan matcha flera strängar, vilket är varför folk bryr sig att använda dem. Mer om det om ett tag.

Vill du förklara?

Tja, det är därför vi är här. För det första är detta det viktigaste konceptet i reguljära uttryck: En sträng i sig är ett reguljärt uttryck som matchar sig själv. Det vill säga, om jag ville matcha strängen `` ”Hej, värld!” `` genom att använda ett reguljärt uttryck, skulle det reguljära uttrycket för att använda vara Hej, värld!. Och ja, det är verkligen så enkelt. Du kommer att märka dock att detta bara matcha den exakta strängen `` ”Hej, värld!” ``, Inte t.ex. `` ”Hej världen!” `` Eller `` ”Hej, vÄrlden!” `` Eller någon annan sådan variation.

Det låter inte så illa. Vad händer nu?

Nästa är början på riktigt bra grejer. Kom ihåg var jag sa att reguljära uttryck kan matcha flera strängar? Det är här det blir lite mer komplicerat. Säg, som en något mer praktisk övning, e-boken du ville konvertera hade en otäck sidfot som räknar sidor, ”Sida 5 av 423”. Uppenbarligen skulle sidnumret stiga från 1 till 423, så du skulle behöva matcha 423 olika strängar, eller hur? Fel, faktiskt: reguljära uttryck tillåter dig definiera uppsättningar av tecken som matchar: För att definiera en uppsättning, lägger du alla de tecken du vill att ska vara i uppsättningen inom hakparenteser. Så, till exempel, uppsättningen `` [abc]`` skulle matcha antingen tecknet ”a”, ”b” eller ”c”. Uppsättningarna kommer alltid bara matcha en av karaktärerna i uppsättningen. De ”förstår” teckenformattering, det vill säga om du ville matcha mot alla små bokstäver, skulle du använda uppsättningen [az] för gemener och för versaler skulle du använda `` [a-zA-Z]`` o.s.v. Förstår du principen? Så, självklart, med hjälp av uttrycket Sida [0-9] av 423 skulle du kunna matcha de första nio sidorna, vilket minskar uttrycken som behövs för tre: Det andra uttrycket Sida [0-9] [0-9] av 423 skulle matcha alla tvåsiffriga sidnummer, och jag är säker på att du kan gissa hur det tredje uttryck skulle se ut. Ja, gå vidare. Skriv ner det.

Hej, snyggt! Detta börjar låta vettigt!

Jag hoppades att du skulle säga det. Men förvänta dig själv, nu blir det ännu bättre! Vi såg precis att du använder apparater, kunde vi matcha ett av flera tecken på en gång. Men du kan även upprepa ett tecken eller uppsättning, för att minska antalet uttryck som behövs för att hantera det ovan sidnummerexemplet till ett. Ja, ETT! Upphetsad? Du bör vara det! Det fungerar så här: En del så kallade specialtecken ”+”, ”?” och ”*”, * upprepa enda element som föregår dem*. (Element antingen ett enda tecken, en teckenuppsättning, en escape-sekvens eller en grupp (vi ska lära oss om de två sista senare) - kort sagt, en enda enhet i ett reguljärt uttryck) är Dessa tecken kallas jokertecken eller kvantifikatorer. För att vara mer exakt, ”?” matchar 0 eller 1 förekomster av det föregående elementet, ”*” matchar 0 eller flera för det föregående elementet och ”+” matchar 1 eller flera av det föregående elementet. Några exempel:? Uttrycket `` a `` skulle matcha antingen ”” (som är den tomma strängen, inte strikt användbar i detta fall) eller ”a”, uttrycket a* skulle matcha ””, ”a”,”aa” eller valfritt antal a: n i rad, och slutligen uttrycket` a+ skulle matcha ”a”,”aa” eller valfritt antal a: n i rad (Observera: det skulle inte matcha den tomma strängen!). Samma gäller för uppsättningar: Uttrycket ` [0-9]+ `` skulle matcha varje heltal finns det! Jag vet vad du tänker, och du har rätt: Om du använder det i ovanstående fall matcha sidnummer, skulle inte det vara det enda uttryck som matcha alla sidnummer? Ja, uttrycket `` Page [0-9]+ av 423`` skulle matcha varje sidnummer i boken!

Observera

En kommentar om dessa kvantifierare: De försöker i allmänhet att matcha så mycket text som möjligt, så var försiktig när du använder dem. Detta kallas ”girigt beteende” - Jag är säker på att du förstår varför. Det blir problematiskt när man, säg, försöker matcha en etikett. Tänk dig, till exempel strängen "<p class =" calibre2">Titel här</p>" och låt oss säga att du skulle vilja matcha öppningsetiketten (delen mellan det första paret vinkelfästen, lite mer om etiketter senare). Man skulle kunna tro att uttrycket <p.*> skulle matcha den etiketten men faktiskt, den matchar hela strängen! (Tecknet ”.” Är ett annat specialtecken. Den matchar något utom radbrytningar, så i grund och botten, uttrycket .* Skulle matcha vilken rad du än kan tänka dig.) Försök istället att använda <p.*?> som gör kvantifierare "*" ogiriga. Detta uttryck skulle endast matcha den första öppningsetiketten, som avsett. Det finns faktiskt ett annat sätt att åstadkomma detta: Uttrycket <p[^>]*> matchar denna öppningsetikett- du kommer se varför efter nästa avsnitt. Bara konstatera att det ganska ofta finns mer än ett sätt att skriva ett reguljärt uttryck.

Tja, dessa specialtecken är mycket snygga och allt, men vad händer om jag ville matcha en punkt eller ett frågetecken?

Du kan givetvis göra det: Bara sätt ett omvänt snedstreck (bakåtsnedstreck) framför någon speciell karaktär och det tolkas som bokstavskaraktär, utan någon speciell betydelse. Detta par av ett omvänt snedstreck följt av ett enda tecken kallas en escape-sekvens (flyktsekvensen), och handlingen att sätta ett omvänt snedstreck framför ett specialtecken kallas escape-tecknet (flykttecken). En flyktsekvensen tolkas som ett enda element. Det finns naturligtvis flyktsekvensener som gör mer än att bara flyr specialtecken, till exempel ``”t” ``: en tabulator. Vi kommer till en del av de kontrollsekvenser senare. Åh, och förresten, om dessa specialtecken: Tänk alla tecken som vi diskuterar i denna introduktion som har någon funktion att vara speciell och därför kan behöva flyktmarkeras om du vill ha bokstavskaraktären.

Så, vilka är de mest användbara uppsättningarna?

Visste att du skulle fråga. Några användbara uppsättningar är [0-9] matchar ett enda nummer, [az] matchar en enda liten bokstav, [AZ] matchar en enda versal [a-zA Z] matchar en enda bokstav och [a-zA-Z0-9] matchar en enda bokstav eller siffra. Du kan också använda en flyktsekvens (escape-sekvens) som stenografer:

\d is equivalent to [0-9]
\w is equivalent to [a-zA-Z0-9_]
\s is equivalent to any whitespace

Observera

”Whitespace” är en term för något som inte kommer att skrivas ut. Dessa tecken inkluderar utrymme, tabulator, radmatning, sidmatning och vagnretur.

Som en sista anmärkning om grupper, du kan också definiera en uppsättning som alla tecken men de i uppsättningen. Du gör det genom att inkludera tecknet "^" som det första tecknet i uppsättningen. Således `` [^ a] `` skulle matcha alla tecken utom ”a”. Det kallas att komplettera uppsättningen. Dessa flyktsekvens stenografier vi såg tidigare kan också kompletteras: "\D": vilket betyder någon icke-nummer karaktär, vilket är ekvivalent med [^0-9]. De andra stenografier kan kompletteras med, du uppskattade rätt, med hjälp av respektive versal istället för det gemena tecknet. Så, går tillbaka till exemplet ``<p[^>]*`>` från föregående avsnitt, nu kan du se till att teckenuppsättning det använder försöker matcha alla tecken med undantag för ett avslutande vinkelparentes.

Men om jag hade några olika strängar jag ville matcha, blir saker komplicerade?

Frukta inte, ändå är livet bra och lätt. Tänk på detta exempel: Boken du konverterar har ”Titel” skrivet på varje udda sida och ”författare” skrivet på varje jämn sida. Ser bra i tryck, eller hur? Men i e-böcker, är det irriterande. Du kan gruppen hela uttryck i normala parenteser och tecknet "|" låter dig matcha antingen uttrycket till höger eller det till vänster. Kombinera dessa och du är klar. För fort för dig? Okej, först ut, vi grupperar uttrycken för udda och jämna sidor och på så sätt få (titel)(författare) som våra två nödvändiga uttryck. Nu gör vi det enklare genom att använda det lodräta strecket ("|" kallas lodrätt strecktecken): Om du använder uttrycket ` (Titel|Författare)`` kommer du antingen få en matchning för ”Titel”(på udda sidor) eller du skulle matchar ”författare” (på jämna sidor). Tja, var inte så lätt?

Du kan naturligtvis använda det lodräta strecket utan att använda grupperingsparenteser, lika så. Kommer du ihåg när jag sa att kvantifierare upprepar elementet som föregår dem? Tja, det vertikala strecket fungerar lite annorlunda: Uttrycket ”Titel|Författare” kommer också att matcha antingen strängen ”Titel” eller strängen ”Författare”, precis som ovanstående exempel med hjälp av gruppering. Det vertikala strecket väljer mellan hela uttrycket före och efter den. Så, om du ville matcha strängarna ”Calibre” och ”calibre” och ville bara välja mellan det övre och små bokstäver ”c”, skulle du behöva använda uttrycket (c|C)alibre, där grupperingen säkerställer att endast ”c” kommer att väljas. Om du skulle använda c|Calibre, du skulle få en match på strängen ”c” eller på strängen ”Calibre”, vilket inte är vad vi ville ha. Kort sagt: Om du är osäker, använd gruppering tillsammans med det vertikala strecket.

Du missade…

… vänta lite, det finns en sista, riktigt snygg sak du kan göra med uppsättningar. Om du har en uppsättning som du tidigare matchade kan du använda referenser till uppsättningen senare i uttrycket: Uppsättningar är numrerade med början 1, och du refererar till dem genom att flyktnumret på den uppsättning som du vill referera till, alltså den femte gruppen skulle kallad \5. Så, om du sökte ([^]+)\1 i strängen ”Test Test”, skulle du matcha hela strängen!

I början sa du att det var ett sätt att göra ett reguljärt uttryck teckenskiftsokänsligt?

Ja, det gjorde jag, tack för att uppmärksammande och att du påminde mig. Du kan berätta för calibre hur du vill vissa saker hanteras med hjälp av något som kallas flaggor. Du inkluderar flaggor i ditt uttryck med hjälp av speciella konstruktionen (?flaggor finns här) där, naturligtvis, skulle du ersätta ”flaggor finns här” med de specifika flaggor du vill ha. För att ignorera teckenskiftläge finns flaggan i därmed inkluderar du (?i) i ditt uttryck. Således (?i)test skulle matcha ”Test”, ”tEst”, ”TEst”, och varje fall variation du kan tänka dig.

En annan användbar flagga tillåter att pricka in alla tecken, inklusive på ny rad, flaggan s. Om du vill använda flera flaggor i ett uttryck, bara sätta dem i samma gruppering: (?is) skulle ignorera teckenskiftläge och matcha alla. Det spelar ingen roll vilken flagga som du anger först, (?si) skulle motsvara den ovan.

Jag tror jag börjar förstå dessa reguljära uttryck nu… hur använder jag dem i calibre?

Konverteringar

Låt oss börja med konverteringsinställningarna, vilket är riktigt snyggt. I Sök- och ersättsdel, kan mata in en regexp (kort för reguljära uttryck) som beskriver den sträng som kommer att ersättas under konverteringen. Den nätta delen är guiden. Klicka på guiden och du får en förhandsvisning av vad calibre ”ser” under konverteringen. Bläddra ner till den sträng som du vill ta bort, välj och kopiera den, klistra in den i regexp fältet högst upp i fönstret. Om det finns variabla delar, t.ex. sidnummer eller så använder uppsättningar och kvantifierare för att täcka dem, och medan du ändå håller på, kom ihåg att undkomma specialtecken, om det finns några. Klicka på knappen Test och calibre belyser delarna som skulle ersättas om du använder regexp. När du är nöjd, klicka på OK och konvertera. Var försiktig om din konverteringskällan har etiketter som detta exempel:

Maybe, but the cops feel like you do, Anita. What's one more dead vampire?
New laws don't change that. </p>
<p class="calibre4"> <b class="calibre2">Generated by ABC Amber LIT Conv
<a href="http://www.processtext.com/abclit.html" class="calibre3">erter,
http://www.processtext.com/abclit.html</a></b></p>
<p class="calibre4"> It had only been two years since Addison v. Clark.
The court case gave us a revised version of what life was

(pinsamt utslitet från denna tråd). Du skulle behöva ta bort en del av etiketterna också. I detta exempel jag skulle rekommendera börjar med etiketten <b class="calibre2">, nu måste du sluta med motsvarande slutetikett (öppningsetiketter är <tag>, slutetikett är </tag>), vilket är helt enkelt nästa </b> i detta fall. (Se en bra HTML-handboken eller fråga i forumet om du är osäker på den här punkten.) öppningsetiketten kan vara beskrivas med <b.*?>, den avslutande etiketten med hjälp av </b>, vilket vi kunde ta bort allt mellan dessa etiketter med <b.*?>.*?</b>. Men att använda detta uttryck skulle vara en dålig idé, eftersom det tar bort allt omges av <b>- etiketter (som förresten, gör den medföljande texten i fetstil), och det är en rimlig satsning som vi tar bort delar av boken på detta sätt. Istället inkluderar början av den medföljande strängen också, vilket gör det reguljära uttrycket <b.*?>\s*Generera\s+genom\s+ABC\s+Amber\s+LIT.*?</b> Den \s med kvantifierare som ingår här i stället för explicit använda blanksteg som sedda i strängen för att fånga några varianter av strängen som kan uppstå. Kom ihåg att kontrollera vad calibre kommer att ta bort för att se till att du inte bort några delar som du vill behålla om du testar ett nytt uttryck. Om du bara kontrollera en händelse, kanske du missar en obalans någon annanstans i texten. Observera också att om du av misstag tar bort fler eller färre etiketter än du faktiskt ville försöker calibre för att reparera den skadade koden efter att ha gjort borttagningen.

Lägga till böcker

En annan sak du kan använda reguljära uttryck för är att utvinna metadata från filnamn. Du hittar den här funktionen ”Lägga till böcker” i en del av inställningarna. Det finns en speciell funktion här: Du kan använda fältnamn för metadatafält, till exempel (?P<titel>)` tyder på att calibre använder denna del av strängen som boktiteln. De tillåtna fält namn upptas i fönstren, tillsammans med en annan trevlig testfält. Ett exempel: Säg att du vill importera en hel massa filer namnges som `` Klassiska texter: Den gudomliga komedin av Dante Alighieri.mobi``. (Uppenbarligen är detta redan i ditt bibliotek, eftersom vi alla älskar klassisk italiensk poesi) eller `` science epos: Stiftelsen Trilogy av Isaac Asimov.epub``. Detta är naturligtvis ett namngivningssystem som calibre inte kommer att packa några meningsfulla uppgifter ur sitt standarduttryck för att extrahera metadata är (?P<title>.+) - (?P<author>[^_]+). Ett reguljärt uttryck som fungerar här skulle vara `[a-zA-Z]+: (?P<title>.+) by (?P<author>.+). Observera att inom gruppen för metadatafält, måste du använda uttryck för att beskriva vad fältet verkligen ska matcha. Och observera också att vid användning av testfältet calibre tillhandahåller, måste du lägga till filändelsen till ditt provfilnamn, annars kommer du inte få några matchningar alls, trots användningen av ett fungerande uttryck.

Massredigera metadata

Den sista delen är reguljära uttryck sök och ersätt i metadatafält. Du kan komma åt detta genom att välja flera böcker i biblioteket och genom massmetadataredigering. Var mycket försiktig när du använder denna sista funktion, eftersom det kan göra Mycket dåliga saker till ditt bibliotek! Dubbelkolla att dina uttryck verkligen gör vad du vill att de ska med hjälp av testfält, och bara välja de böcker du verkligen vill förändra! I det reguljära uttrycket sökläget kan du söka i ett fält, ersätta texten med något och till och med skriva in resultatet i ett annat fält. Ett praktiskt exempel: Anta ditt bibliotek innehöll böcker av Frank Herberts Dune-serien, uppkallad efter stilen `` Dune 1 - Dune``, `` Dune 2 - Dune Messiah`` o.s.v. Nu vill du få `` Dune`` in i serien fältet. Du kan göra det genom att söka efter \d+(*.?) -.* I titelfältet och ersätta den med \1 i serien fältet. Se vad jag gjorde där? Det är en referens till den första gruppen som du ersätter seriefält med. Nu när du har serien allt klart, bara måste du göra en ny sökning efter .*? - I titelfältet och ersätta den med "" (en tom sträng), en gång i titelfältet, och ditt metadata är allt snyggt och prydligt. Är inte det bra? Förresten, istället för att ersätta hela fältet, kan du också lägga till eller låta föregå fältet, så, om du ville att bok titeln ska infogas med serier information, kan du göra det också. Som ni nu har utan tvivel märkt, det finns en kryssruta märkt Skiftlägeskänslig, så att du inte behöver använda flaggor för att välja beteende här.

Tja, det nästan avslutar en mycket kort introduktion till reguljära uttryck. Förhoppningsvis kommer jag ha visat dig tillräckligt för att åtminstone komma igång och så att du kan fortsätta lära dig själv - en bra utgångspunkt skulle vara Python dokumentationen för reguljära uttryck.

Ett sista ord av varning, emellertid: Regexps är kraftfulla, men också riktigt lätt få fel. calibre ger riktigt bra testmöjligheter för att se om dina uttryck beter sig som du förväntar dig. Använd dem. Försök att inte skjuta dig själv i foten. (Gud, jag älskar det uttrycket…) Men om du trots varningen, skadar foten (eller andra kroppsdelar), försök att lära av det.

Förtjänst

Tack för hjälp med tips, rättningar och liknande:

  • ldolse
  • kovidgoyal
  • chaley
  • dwanthny
  • kacir
  • Starson17
  • Orpheu

För mer om reguljära uttryck se `The Python User Manual https://docs.python.org/2/library/re.html>`_.