XPath教程¶

在本教程中，将对`XPath <https://en.wikipedia.org/wiki/XPath>`_进行简要介绍，这是一种查询语言，在cllibre中可用于选择`HTML<https://en.wikipedia.org/wiki/HTML>`_文档的任意部分。 XPath是一种广泛使用的标准，并且对其进行谷歌搜索将产生大量信息。但是，本教程重点介绍如何将XPath用于与电子书相关的任务，例如在非结构化HTML文档中查找章节标题。

按标记名选取 ¶

最简单的选择形式是按名称选择标记。例如，假设您要选择文档中的所有``<h2>``标签。针对此的XPath查询简单地为：

//h:h2        (Selects all <h2> tags)

前缀`//` 表示“在文档的任何级别搜索”。现在假设您要搜索``<a>``标记内的``<span>`` 标记。这可以通过以下方式实现：

//h:a/h:span    (Selects <span> tags inside <a> tags)

如果要搜索文档中特定级别的标记，请更改前缀：

/h:body/h:div/h:p (Selects <p> tags that are children of <div> tags that are
             children of the <body> tag)

这将仅与"样本_电子书"中的“<p>A非常简短的电子书来演示XPath。</p>的使用”匹配，而不与其他任何“<p>” 标记匹配。上面示例中的“h:”前缀需要匹配XHTML标签。这是因为在内部，Calibre将所有内容表示为XHTML。在XHTML标签中，有一个*命名空间*，而且“h:”是HTML标签的命名空间前缀。

现在假设您要同时选择“<h1>”和“<h2>” 标记。为此，我们需要一个称为*谓词*的XPath结构。A：“谓词”只是一个用于选择标签的测试。测试可以是任意强大的，随着本教程的进行，您将看到更强大的示例。谓词是通过将测试表达式括在方括号中创建的：

//*[name()='h1' or name()='h2']

此XPath表达式中有几个新功能。第一个是通配符“*”的使用。它的意思是*匹配任何标签*。现在看一下测试表达式“name()='h1'或name()='h2'”。“名称()”是一个*内置函数*的例子。它只是评估标签的名称。因此通过使用它，我们可以选择名称为“h1”或“h2”的标签。注意：“名称()”函数忽略命名空间，因此不需要“h:”前缀。XPath有几个有用的内置函数。本教程还将介绍更多内容。

按属性选择 ¶

要根据属性选择标签，需要使用谓词：

//*[@style]              (Select all tags that have a style attribute)
//*[@class="chapter"]    (Select all tags that have class="chapter")
//h:h1[@class="bookTitle"] (Select all h1 tags that have class="bookTitle")

这里的“@”操作符指的是标签的属性。您可以使用某些“XPath内置函数”_对属性值执行更复杂的匹配。

按标签内容选择 ¶

使用XPath，您甚至可以根据标签中包含的文本选择标签。最好的方法是通过内置函数“re:test()”使用*正则表达式*的功能：

//h:h2[re:test(., 'chapter|section', 'i')] (Selects <h2> tags that contain the words chapter or
                                          section)

这里的``.``运算符指代标签的内容，就像``@``运算符指代标签的属性一样。

电子书样本 ¶

<html>
    <head>
        <title>A very short e-book</title>
        <meta name="charset" value="utf-8" />
    </head>
    <body>
        <h1 class="bookTitle">A very short e-book</h1>
        <p style="text-align:right">Written by Kovid Goyal</p>
        <div class="introduction">
            <p>A very short e-book to demonstrate the use of XPath.</p>
        </div>

        <h2 class="chapter">Chapter One</h2>
        <p>This is a truly fascinating chapter.</p>

        <h2 class="chapter">Chapter Two</h2>
        <p>A worthy continuation of a fine tradition.</p>
    </body>
</html>

XPath内置函数 ¶

名称()¶: 当前标记的名称。
包含（）¶: 如果s1包含s2，contains(s1, s2) 返回 true
re:test()¶: 如果字符串`src`与正则表达式`pattern`匹配，则``re:test(src, pattern, flags)``返回true。一个特别有用的标志是``i``，它使匹配不区分大小写。有关正则表达式语法的入门知识，请参见“正则表达式语法<https://docs.python.org/library/re.html>”_。

XPath教程¶

按标记名选取¶

按属性选择¶

按标签内容选择¶

电子书样本¶

XPath内置函数¶

按标记名选取 ¶

按属性选择 ¶

按标签内容选择 ¶

电子书样本 ¶

XPath内置函数 ¶