Все про використання формальних виразів в calibre

Формальні вирази використовуються у багатьох частинах calibre для виконання витонченої обробки вмісту та метаданих електронної книги. Ця частина підручника є лише початковими настановами, які допоможуть вам розпочати роботу із використанням формальних виразів у calibre.

Спочатку, декілька попереджень і декілька заохочень

Пояснення, і цього не уникнути, будуть дещо технічними. Щоб там не було, але формальні вирази є технічним інструментом для виконання технічних завдань. Буде використано певний жаргон та поняття, які можуть здатися складними або заплутаними. Ми спробуємо надати якомога прозоріші пояснення, але без цього жаргону і відповідних понять не обійтися. Втім, не лякайтеся жаргону, ми спробуємо пояснити усі нові речі. І хоча самі формальні вирази можуть здатися загадковими закляттями (або, якщо прозаїчніше, рядками з випадкових символів, дивною сумішшю літер із знаків), ми вам обіцяємо — все не так уже і складно. Навіть ті, хто добре знається на формальних виразах, іноді не одразу розуміють призначення складних формальних виразів, але написати формальний вираз не так уже і складно — він конструюється покроково. Отже, почнімо і зробимо перший крок до цієї кролячої нори.

Де в calibre ви можете використовувати формальні вирази?

Формальні вирази використовуються у calibre у декількох місцях. Це, зокрема, засіб пошуку із заміною у параметрах перетворення книг, засіб визначення метаданих за назвами файлів у параметрах імпортування та засіб пошуку із заміною у інструменті пакетного редагування метаданих книг. У засобі пошуку із заміною редактора книг calibre також можна використовувати формальні вирази.

Що ж таке ці «формальні вирази»?

Формальний вираз — це спосіб описати певний набір рядків. Один формальний вираз може відповідати декільком різним рядкам. Це саме те, що робить формальні вирази такими потужними — вони є способом коротко описати велику кількість можливих варіантів рядка.

Примітка

Тут термін «рядок» використано у сенсі, у якому його використовують у мовах програмування. Це упорядкована сукупність одного або декількох символів. Символами вважаються літери, цифри, символи пунктуації, а також так звані пробіли (символи розриву рядків, табуляції тощо). Будь ласка, зауважте, що, загалом кажучи, літери верхнього регістру (великі літери) і літери нижнього регістру (малі літери) вважаються різними знаками. Отже «a» — це не та сама літера, що «A». У calibre регістр символів не береться до уваги на панелі пошуку, але враховується у параметрах перетворення книг. Існує спосіб зробити будь-який формальний вираз таким, що обробляється без врахування регістру символів, але цей спосіб ми обговоримо пізніше. Неврахування регістру символів дещо ускладнює ситуацію, оскільки формальні вирази уможливлюють варіації відповідників, отже одному формальному виразу відповідає одразу декілька рядків. Ось чому дехто взагалі не бажає користуватися формальними виразами. Докладніше про це трохи згодом.

Трохи пояснень

Ну, гаразд, для цього ми і почали це обговорення. По-перше, ось найважливіша концепція у формальних виразах: рядок є формальним виразом, який відповідає самому собі. Тобто, якщо ви хочете знайти рядок «Привіт, світе!» за допомогою формального виразу, формальним виразом, яким ви маєте скористатися є рядок «Привіт, світе!». Так, це справді дуже просто. Втім, варто зауважити, що під час пошуку за цим рядком буде знайдено лише рядок «Привіт, світе!», а не, наприклад, рядки «Привіт, сВіте!» чи «привіт, світе!».

Звучить непогано. Що далі?

Далі, ми розпочнемо знайомитися зі справді корисними речами. Пам’ятаєте, ми згадували про те, що один формальний вираз може відповідати декільком рядкам? Тут ми обговоримо трохи складніші речі. Припустімо для нашого дещо практичнішого прикладу, що у електронній книзі, яку ви хочете перетворити є небажані рядки у нижньому колонтитулі, які вказують на номер сторінки, наприклад «Сторінка 5 з 423». Очевидно, номери сторінок мають зростати від 1 до 423, отже, нам доведеться створити відповідники 423 різних рядків, чи не так? Ні, не так: формальний вираз надасть нам змогу визначити усі можливі набори символів для відповідності. Щоб визначити набір, слід вказати усі його символи у квадратних дужках. Наприклад, набір [abc] відповідає літері «a», «b» або «c». Наборам завжди відповідає один із символів набору. Передбачено можливість вказування діапазонів символів, наприклад, якщо вам потрібно вказати усі латинські літери нижнього регістру, вам слід скористатися набором [a-z], для латинських літер нижнього і верхнього регістрів — набором [a-zA-Z] тощо. Вловили ідею? Отже, очевидно, використавши вираз Сторінка [0-9] з 423, ми зможемо встановити відповідність першим дев’ятьом сторінкам, таким чином зменшивши кількість потрібних для встановлення відповідності виразів до трьох: другим виразом буде Сторінка [0-9][0-9] з 423 (він відповідатиме двоцифровим номерам сторінок), а про третій ви можете здогадатися самі. Так, вгадайте його і запишіть.

Ого, чудово! Це може бути корисним!

Ми сподівалися, що ви скажете саме це. Але зачекайте, зараз буде ще краще! Щойно ми використали набори для встановлення відповідності одного з декількох символів. Але можна повторити символ або набір і заощадити кількість виразів потрібних для обробки номерів сторінок у наведеному вище прикладі. Так, достатньо усього одного виразу! Вражені? Ну, звичайно ж! Це працює ось так: передбачено так звані спеціальні символи, «+», «?» і «*», для повторення одинарного елемента, який безпосередньо передує цим символам. (Елементом може бути окремий символ, набір символів, керівна послідовність символів або група (опис останніх двох наведено нижче) — якщо коротко, елементом може бути будь-який окремий об’єкт у формальному виразі). Ці символи називаються замінниками або кванторами. Якщо бути точнішим, «?» відповідає 0 або 1 попередньому елементу, «*» відповідає 0 або більшій кількості попереднього елемента, а «+» відповідає 1 або більшій кількості попереднього елемента. Декілька прикладів: вираз a? буде відповідати «» (тобто порожньому рядку, що не дуже корисно у нашому прикладі) або «a»; вираз a* відповідає «», «a», «aa» або будь-якій кількості послідовних літер «a», і, нарешті, вираз a+ відповідає «a», «aa» або будь-якій кількості послідовних літер «a» (Зауваження: останній вираз не відповідає порожньому рядку!). Те саме стосується і наборів: вираз [0-9]+ відповідатиме будь-якому цілому числу! Знаємо, про що ви подумали, і ви праві: якщо ми розглядатимемо наведений вище приклад із номерами сторінок, чи не буде це саме той єдиний вираз, який відповідає усім номерам сторінок? Так, вираз Сторінка [0-9]+ з 423 відповідатиме будь-якій сторінці у книзі!

Примітка

Зауваження щодо цих кванторів: загалом кажучи, при використанні кванторів програма намагатиметься використати найбільший із можливих відповідників, отже, вам слід бути обережними з використанням кванторів. Така поведінка називається «жадібністю», думаємо, ви зрозуміли чому. Вона може призводити до певних проблем, зокрема під час пошуку теґів. Розгляньмо, наприклад, рядок "<p class="calibre2">Заголовок</p>". Скажімо, вам потрібно знайти у ньому початковий теґ (частину між першою паролю кутових дужок, докладніше про теґи нижче). Можна припустити, що вираз <p.*> відповідатиме теґові, але насправді він відповідає усьому рядку! (Символ «.» є ще одним спеціальним символом. Він відповідає будь-якому символу окрім символів розриву рядка, отже, загалом, вираз .* відповідає будь-якому окремому рядку.) Замість цього виразу слід скористатися виразом <p.*?>, який робить квантор * нежадібним. Такий вираз відповідає лише першому початковому теґу, як і планувалося. Насправді, існує інший спосіб досягти потрібного результату: вираз <p[^>]*> також відповідає початковому теґу. Чому так? Про це ви дізнаєтеся із наступного розділу. Зауважте лише, що зазвичай існує принаймні декілька способів запису логіки одного формального виразу.

Добре, ці спеціальні символи корисні і усе таке, але що, якщо потрібно знайти крапку або знак питання?

Звичайно ж, існує спосіб зробити це: достатньо поставити символ зворотної похилої риски перед спеціальним символом, і він стане звичайним символом без додаткових значень. Пара символів зворотної похилої риски із наступним символом називається керівною послідовністю, а додавання символу зворотної похилої риски перед спеціальним символом називається екрануванням символу. Екранована послідовність символів вважається єдиним елементом формального виразу. Звичайно ж, існують керівні послідовності, які означають більше ніж просте екранування спеціальних символів, наприклад, \t означає символ табуляції. Деякі з таких керівних послідовностей ми розглянемо нижче. О, і до речі, щодо спеціальних символів: усі символи, які ми обговорювали у цьому вступі як такі, що мають особливе призначення, потребують екранування, якщо ви хочете скористатися ними як звичайними символами.

Отже, якими є найкорисніші набори?

Ми знали, що ви про це запитаєте. Серед корисних наборів символів є набір [0-9], який відповідає будь-якій цифрі, набір [a-z], який відповідає будь-якій латинській літері нижнього регістру, набір [A-Z], який відповідає будь-якій латинській літері верхнього регістру, набір [a-zA-Z], який відповідає будь-якій латинській літері, та набір [a-zA-Z0-9], який відповідає будь-якій латинській літері або цифрі. Ви також можете використовувати такі екрановані послідовності:

\d is equivalent to [0-9]
\w is equivalent to [a-zA-Z0-9_]
\s is equivalent to any whitespace

Примітка

«Пробілами» вважаються будь-які символи, які не можна надрукувати. Такими символами є звичайні пробіли, символи табуляції, символи заповнення рядка, заповнення форми та символи повернення каретки.

На завершення розмови про набори, — ви також можете визначити набір як будь-який символ, окрім символів у вказаному наборі. Для цього слід додати символ ^ як найперший символ у наборі. Таким чином, [^a] відповідає будь-якому символу, окрім символу «a». Така дія називається доповненням набору. Керівні послідовності, які ми розглядали вище, також можна використовувати для доповнення: \D відповідає будь-якому нецифровому символу, отже, є еквівалентом [^0-9]. Інші скорочені форми доповнень, як ви вже могли здогадатися, створюються використанням літери верхнього регістру замість літери нижнього регістру. Отже, повертаючись до прикладу із <p[^>]*> з попереднього розділу, можемо бачити, що набір символів, який у ньому використано, відповідає будь-якому символу, окрім кінцевої кутової дужки.

Що якщо потрібно знайти якийсь із декількох рядків? Все значно ускладниться?

Не бійтеся, життя є простим і прекрасним. Розгляньмо приклад: на сторінках книги, перетворення якої ви хочете виконати, назву книги написано у верхньому колонтитулі кожної непарної сторінки, а імена авторів — у верхньому колонтитулі парних сторінок. Друкована книга виглядає чудово, але для електронної книги усі ці дані є зайвими. Ви можете згрупувати вирази для колонтитулів у звичайних круглих дужках і скористатися символом | для встановлення відповідності будь-якому з виразів, які розташовано з обох боків від цього символу. Поєднайте рядки для парних і непарних сторінок, і справу буде зроблено. Надто швидко для вас, не зрозуміли? Гаразд, спочатку ми згрупуємо вирази для непарних і парних сторінок, отримавши (Назва)(Автор) для двох відповідних виразів. Далі, спростимо речі, скориставшись символом вертикальної риски (| називається символом вертикальної риски): якщо буде використано вираз (Назва|Автор) під час пошуку відповідність встановлюватиметься або для рядка «Назва» (на непарних сторінках) або для рядка «Автор» (на парних сторінках). Гаразд, хіба це не просто?

Звичайно ж, ви можете скористатися вертикальною рискою без групування за допомогою дужок. Пам’ятаєте, ми згадували, що квантори повторюють елемент, який їм передує? Гаразд, вертикальна риска працює трохи інакше: вираз «Назва|Автор» також відповідає або рядку «Назва», або рядку «Автор», як і у наведеному вище прикладі із групуванням. За допомогою вертикальної риски можна зробити варіантами для вибору вираз, який передує їй і вираз, який розташовано після вертикальної риски. Отже, якщо ви хочете знайти рядок «Calibre» і рядок «calibre», де змінюється лише регістр початкової літери «c», варто скористатися виразом (c|C)alibre, де групування забезпечує вибір лише між різними регістрами літери «c». Якщо б ви використали вираз c|Calibre, варіантами б були рядки «c» і «Calibre», тобто не ті рядки, які нам потрібні. Якщо коротко: не бійтеся використовувати групування для того, щоб уникнути двозначності у виразі.

Ви пропустили…

…зачекайте, ще одна остання дуже цікава річ, пов’язана із групами. Якщо у виразі є група, з якою встановлюється відповідність рядка пошуку, ви можете посилатися на цю групу далі у виразі. Групи нумеруються, починаючи з 1, а посилаються на них додаючи символ екранування до номера групи. Отже, на п’яту групу посилаються за допомогою послідовності \5. Таким чином, якщо виконуватиметься пошук за виразом ([^ ]+) \1 у рядку «Тест Тест», буде встановлено відповідність формального виразу усьому рядку!

На початку була згадка про те, що формальні вирази можна зробити незалежними від регістру символів. Як це зробити?

Так, ми про це згадували. Дякуємо, що були уважними і нагадали про це. Ви можете повідомити calibre про те, як обробляти певні речі, за допомогою так званих прапорців. Включити прапорці до вашого виразу можна за допомогою спеціальної конструкції (?тут вказують прапорці), у якій, звичайно ж, вам слід замінити рядок «тут вказують прапорці» на потрібний вам вираз прапорців. Якщо слід ігнорувати регістр символів, маємо вказати прапорець i, тобто включити (?i) до вашого виразу. Таким чином, за допомогою виразу (?i)тест можна знайти рядки «Тест», «тЕст», «ТЕст» та усі інші рядки, які утворюються зміною регістру символів з рядка «тест».

Ще один корисний прапорець надає змогу наказати програмі вважати крапку будь-яким символом, включно із символом розриву рядка. Це прапорець s. Якщо ви хочете використати у виразі декілька прапорців, просто напишіть їх поряд у одній інструкції: використання (?is) призведе до ігнорування регістру символів і заміни крапки будь-яким символом. Не має значення, який із прапорців ви вказали першим — вираз (?si) є рівнозначним до виразу (?is).

Здається, починаю розуміти для чого усі ці формальні вирази… Але як ними скористатися у calibre?

Перетворення

Почнімо з параметрів перетворення, які є добре продуманими. На панелі пошуку з заміною ви можете ввести формальний вираз, який описує рядок, який буде замінено під час перетворення. Найпродуманішою частиною діалогового вікна є майстер перетворення. Після натискання кнопки майстра ви зможете переглянути, як для calibre «виглядає» процедура перетворення. Погортайте текст до рядка, який ви хочете вилучити, позначте його і скопіюйте. Вставте його до поля формального виразу у верхній частині вікна. Якщо у ньому мають бути змінні частини, наприклад номери сторінок, скористайтеся наборами та кванторами для заміни цих частин. Роблячи це, не забувайте про екранування спеціальних символів, якщо вони є у виразі. Натисніть кнопку з міткою Тест, і calibre позначить фрагменти тексту, які було б замінено, якби було використано формальний вираз. Якщо все гаразд, натисніть кнопку Гаразд і виконайте перетворення. Будьте обережні, якщо у початковому тексті містяться мітки, як у цьому прикладі:

Maybe, but the cops feel like you do, Anita. What's one more dead vampire?
New laws don't change that. </p>
<p class="calibre4"> <b class="calibre2">Generated by ABC Amber LIT Conv
<a href="http://www.processtext.com/abclit.html" class="calibre3">erter,
http://www.processtext.com/abclit.html</a></b></p>
<p class="calibre4"> It had only been two years since Addison v. Clark.
The court case gave us a revised version of what life was

(безсовісно запозичено з цього обговорення). Вам варто також вилучити і ці теґи. У цьому прикладі рекомендуємо почати з теґу <b class="calibre2">. Далі, вам слід розібратися із відповідним кінцевим теґом (початковими теґами є теґи <теґ>, а кінцевими теґами є теґи </теґ>), яким у нашому прикладі є теґи </b>. (Зверніться до підручника з HTML або запитайте на форумі, якщо маєте якісь питання щодо теґів.) Початковий теґ можна описати як <b.*?>, а кінцевий теґ — </b>. Таким чином, ми можемо вилучити усі дані між цими двома теґами за допомогою виразу <b.*?>.*?</b>. Але не варто користуватися цим виразом, оскільки його використання призведе до вилучення усіх даних у теґах <b> (який, до речі, використовується для позначення тексту напівжирною гарнітурою). Можна закладатися, що таким чином ми вилучимо частину тексту книги. Замість цього, варто включити початок рядка у тезі, створивши формальний вираз <b.*?>\s*Generated\s+by\s+ABC\s+Amber\s+LIT.*?</b> Керівну послідовність \s із кванторами використано замість явного використання пробілів, щоб знайти усі варіанти рядка, які може бути використано у тексті книги. Не забудьте, перевірити, що саме calibre вилучить, щоб переконатися, що не буде вилучено нічого зайвого, виконавши тестування виразу. Якщо ви перевірите лише один відповідник формального виразу, може так статися, що небажаний ефект все ж трапиться у якомусь іншому місці тексту. Також зауважте, що якщо випадково буде вилучено більше або менше теґів, ніж ви хотіли б вилучити, calibre спробує виправити некоректний код після вилучення.

Додавання книг

Ще одним випадком використання формальних виразів є видобування метаданих з назв файлів. Доступ до цієї можливості здійснюється за допомогою розділу «Додавання книг» параметрів програми. Тут є особлива можливість: ви можете скористатися назвами полів метаданих, наприклад, (?P<title>) позначає, що calibre має використати цю частину рядка як назву (заголовок) книги. Доступні назви полів показано у списку разом із ще одним чудовим полем для тестування. Приклад: припустімо, ви хочете імпортувати багато файлів із назвами, які подібні до Класика: Божественна комедія написана Данте Аліг’єрі.mobi (звичайно ж, ця книга вже є у вашій бібліотеці, оскільки усі ми закохані у італійську поезію) або Класика наукової фантастики: Трилогія Фундація написана Айзек Азімов.epub. Очевидно, така схема найменування не дасть типовій програмі calibre видобути корисні дані — стандартним є такий вираз для видобування метаданих: (?P<title>.+) - (?P<author>[^_]+). Формальним виразом, який спрацює є такий: [а-яґіїєА-ЯҐІЇЄ]+: (?P<title>.+) написана (?P<author>.+). Будь ласка, зауважте, що всередині групи для поля метаданих вам слід скористатися виразами для опису відповідного поля. Також зауважте, що при використанні поля тестування calibre вам слід додати суфікс назви файла до тестової назви, інакше відповідників не буде знайдено взагалі, хоча вираз і буде працездатним.

Пакетне редагування метаданих

Останнім розглянемо використання формальних виразів для пошуку із заміною у полях метаданих. Отримати доступ до цього інструмента можна позначивши декілька книг у списку бібліотеки і натиснувши кнопку пакетного редагування метаданих. Будьте обережні з використанням пакетного редагування, оскільки помилки у ньому можуть призвести до дуже поганих наслідків для вашої бібліотеки! Двічі перевірте, чи правильно працюють ваші вирази, за допомогою полів тестування. Позначайте лише ті книги, які дійсно потребують змін! У режимі пошуку за формальними виразами ви можете виконувати пошук у одному полі, замінювати чимось текст і навіть записувати результат заміни до іншого поля. Приклад з практики: припустімо, у вашій бібліотеці є книги з циклу «Дюна» Френка Герберта, як названо так: Дюна 1 - Дюна, Дюна 2 - Месія Дюни тощо. Вам потрібно записати у поле циклу рядок Дюна. Зробити це можна, виконавши пошук (.*?) \d+ - .* у полі назви книги із заміною вмісту поля циклу на \1. Зрозуміли, як усе зроблено? Ми замінюємо вміст поля циклу на посилання на першу групу з поля назви. Тепер, коли дані записано до поля циклу, можна виконати ще один пошук .*? - у полі назви і замінити знайдену назву циклу на "" (порожній рядок). Після цього метадані ваших книг набудуть послідовного та компактного вигляду. Хіба це не чудово? До речі, замість заміни усього поля, ви можете дописати до його поточного вмісту дані на початку або наприкінці. Отже, якщо ви хочете дописати перед назвою книги назву циклу, це також можна зробити. Як ви вже, поза всяким сумнівом, знаєте, у вікні є пункт З урахуванням регістру, отже для зміни поведінки засобу обробки формальних виразів немає потреби у використанні прапорців.

Гаразд, на цьому можна і завершити дуже короткий вступ щодо формальних виразів. Сподіваємося, ми показали вам достатньо, щоб принаймні створити початкові враження і уможливити ваше подальше самостійне навчання. Продовжити вивчення формальних виразів можна за допомогою документації з формальних виразів у Python.

Втім, наостанок маємо вас попередити: формальні вирази є потужним, але дуже примхливим інструментом. У calibre передбачено справді чудові можливості для перегляду результатів роботи ваших виразів. Скористайтеся ними. Намагайтеся не прострелити собі ногу (Боже, як мені подобається цей вираз…) Якщо ж, попри це попередження, трапляться якісь неприємності, лікуйте вашу ногу (або інші частини тіла), намагайтеся вивчити навчитися і з невдач.

Подяки

Дякуємо за підказки, виправлення та настанови:

  • ldolse
  • kovidgoyal
  • chaley
  • dwanthny
  • kacir
  • Starson17
  • Orpheu

Докладніше про формальні вирази можна дізнатися з Підручника користувача Python.