Lägg till din favorit nyhetswebbplats

calibre har en kraftfull, flexibel och lätt att använda ramverk för att hämtar nyheter från Internet och konvertera dem till en e-bok. Följande kommer att visa dig, med hjälp av exempel, hur man får nyheter från olika webbplatser.

För att få en förståelse för hur man använder ramverket, följ exemplen i den ordning som anges nedan:

Helt automatisk hämtning

Om din nyhetskälla är enkel nog, skulle calibre mycket väl kunna hämta det helt automatiskt, allt du behöver göra att ge webbadressen. calibre samlar all information som behövs för att hämtar en nyhetskälla i ett recept. För att berätta för calibre om en nyhetskälla, måste du skapa ett recept för det. Låt oss se några exempel:

calibre-bloggen

calibre blogg är en blogg av inlägg som beskriver många användbara calibre funktioner på ett enkelt och lättillgängligt sätt för nya calibre användare. För att hämtar den här bloggen till en e-bok, förlitar vi oss på RSS flödet av bloggen:

http://blog.calibre-ebook.com/feeds/posts/default

Jag fick RSS-adressen genom att titta under “Prenumerera” längst ner på bloggsidan och välja Posts → Atom. För att få calibre att hämtar flöden och konvertera dem till en e-bok, bör du högerklicka på knappen Hämta nyheter och sedan på menyalternativet Lägg till en anpassad nyhetskälla och sedan knappen Nytt recept. En dialogruta liknande den som visas nedan bör öppnas.

_images/custom_news.png

Ange först Calibre Blog i fältet Recepttitel. Detta kommer att vara titeln på e-boken som kommer att skapas från artiklarna i ovanstående flöden.

De nästa två fälten (Äldsta artikel och Högsta antal artiklar) tillåter dig viss kontroll över hur många artiklar som ska hämtats från varje flöde, och de är ganska självförklarande.

För att lägga till flöde till receptet, mata in flödestitel och flöde-URL och klicka på knappen Lägg till flöde. När du har lagt till flöde, klicka på knappen Spara och du är klar! Stäng dialogrutan.

Så här testar du nya recept klicka på knappen Hämta nyheter och i undermenyn Anpassad nyhetskälla klicka på Calibre Blog. Efter ett par minuter, kommer den nyligen hämtade e-boken av blogginlägg visas i huvudbiblioteksvyn (om du har din läsenhet ansluten kommer den att läggas till på läsenheten istället för in i biblioteket). Välj det och tryck på knappen Visa för att läsa!

Anledningen till att detta fungerat så bra, med så liten ansträngning är att bloggen ger fullt innehåll RSS flöden, det vill säga, artikelns innehåll är inbäddat i själva flödet. För de flesta nyhetskällor som tillhandahåller nyheter på detta sätt, med fullt innehåll flöden, du behöver inte någon mer ansträngning för att konvertera dem till e-böcker. Nu ska vi titta på en nyhetskälla som inte ger fullständigt innehållsflöde. I sådana flöden är hela artikeln en webbplats och flödet innehåller bara en länk till webbplatsen med en kort sammanfattning av artikeln.

bbc.co.uk

Låt oss prova följande två flöden från BBC:

Följ proceduren som beskrivs i calibre-bloggen ovan för att skapa ett recept på BBC (med hjälp av flöde ovan). Om man tittar på den hämtade e-boken, ser vi att claibre har gjort ett förtjänstfullt arbete för att utvinna bara innehållet som du bryr dig om från varje artikel webbplats. Emellertid är extraktionsprocessen inte perfekt. Ibland lämnar oönskade innehåll som menyer och navigeringshjälpmedel, eller det tar bort innehåll som borde lämnas i fred, som artikelrubriker. För att få perfekt innehållsutvinning, måste vi anpassa hämta processen, som beskrivs i nästa avsnitt.

Anpassa hämtningsprocessen

När du vill att fullända hämtningsprocessen, eller hämtar innehåll från en särskilt komplicerad webbplats kan du använda dig av all den kraft och flexibilitet i ramen av recept. För att kunna göra det, i Lägg till anpassad nyhetskälla dialog, genom att klicka på knappen Växla till avancerat läge.

Den enklaste och ofta mest produktiva anpassningen är att använda utskriftsversioner av artiklar på nätet. Utskriftsversionen har vanligtvis mycket mindre skräp och översätter mycket smidigare till en e-bok. Låt oss försöka använda utskriftsversionen av artiklarna från BBC.

Använda den tryckta versionen av bbc.co.uk

Det första steget är att titta på e-boken som vi hämtat tidigare från bbc.co.uk . Vid slutet av varje artikel, i e-boken finns en liten baksidetext som talar om när artikeln hämtats från. Kopiera och klistra in denna webbadress i en webbläsare. Nu på artikelwebbplatsen leta efter en länk som hänvisar till ”Utskriftbar version”. Klicka på den för att se den tryckta versionen av artikeln. Det ser mycket snyggare! Jämför nu de två webbadresser. För mig var de:

Så det ser ut att få den tryckta versionen måste vi prefix varje artikel URL med:

newsvote.bbc.co.uk/mpapps/pagetools/print/

Nu i Avancerat läge för Anpassad nyhetskällor dialogrutan ska du se något liknande (kom ihåg att välja BBC-receptet innan du växlar till avancerat läge):

_images/bbc_advanced.png

Du kan se att fälten från Grundläge har omräknats med Python-kod på ett enkelt sätt. Vi måste lägga till instruktioner för att detta recept för att använda den tryckta versionen av artiklarna. Allt som behövs är att lägga till följande två rader:

def print_version(self, url):
  return url.replace('https://', 'https://newsvote.bbc.co.uk/mpapps/pagetools/print/')

Detta är Python, så indenteringen (indrag) är viktigt. När du har lagt raderna ska det se ut:

_images/bbc_altered.png

I ovanstående, def print_version(self, url) definieras en metod som anropas av calibre för varje artikel. url är webbadressen till den ursprungliga artikeln. Vad print_version gör är att den tar webbadressen och ersätter den med den nya webbadressen som hänvisar till den tryckta versionen av artikeln. Om du vill veta om Python se tutorial.

Nu klickar du på knappen Lägg till/uppdatera recept och dina ändringar sparas. Hämta e-boken igen. Du bör nu ha en mycket förbättrad e-bok. Ett av problemen med den nya versionen är att typsnitten på utskriftsversion är för små. Detta är automatiskt justerat vid konvertering till en e-bok, men även efter justeringsprocessen, blir teckenstorleken för menyer och navigeringsfältet för stora i förhållande till artikeltexten. För att åtgärda detta, kommer vi att göra lite mer anpassning, i nästa avsnitt.

Ersätta artikelformat

I föregående avsnitt såg vi att teckenstorleken efter artiklar från den tryckta versionen av BBC var för liten. I de flesta webbplatser, ingår BBC, denna teckenstorlek är inställd med hjälp av CSS-formatmallar. Vi kan inaktivera hämtning av sådana formatmallar genom att lägga till raden:

no_stylesheets = True

Receptet ser nu ut:

_images/bbc_altered1.png

Den nya versionen ser ganska bra ut. Om du är en perfektionist, vill du nog läsa nästa avsnitt, som handlar faktiskt om att modifiera hämtat material.

Skivning och styckning i tärningar

calibre innehåller mycket kraftfulla och flexibla färdigheter när det gäller att manipulera hämtat material. För att visa upp ett par av dessa, låt oss titta på vår gamle vän för BBC receptet igen. Om man tittar på källkoden (HTML) i ett par artiklar (utskriftsversion), ser vi att de har en sidfot som innehåller någon användbar information, som finns i

<div class="footer">
...
</div>

Detta kan tas bort genom att lägga till:

remove_tags  = [dict(name='div', attrs={'class':'footer'})]

till receptet. Slutligen, låt oss ersätta några av CSS som vi inaktiverade tidigare med vår egen CSS som är lämplig för konvertering till en e-bok:

extra_css   = '.headline {font-size: x-large;} \n .fact { padding-top: 10pt }'

Med dessa tillägg har vårt recept blivit ”produktionskvalitet”, ja det är mycket nära till den faktiska receptet används av calibre för BBC, som visas nedan:

##
# Title:    BBC News, Sport, and Blog Calibre Recipe
# Contact:   mattst - jmstanfield@gmail.com
##
# License:   GNU General Public License v3 - https://www.gnu.org/copyleft/gpl.html
# Copyright:  mattst - jmstanfield@gmail.com
##
# Written:   November 2011
# Last Edited: 2011-11-19
##

__license__ = 'GNU General Public License v3 - https://www.gnu.org/copyleft/gpl.html'
__copyright__ = 'mattst - jmstanfield@gmail.com'


'''
BBC News, Sport, and Blog Calibre Recipe
'''

# Import the regular expressions module.
import re

# Import the BasicNewsRecipe class which this class extends.
from calibre.web.feeds.recipes import BasicNewsRecipe


def classes(classes):
  q = frozenset(classes.split(' '))
  return dict(attrs={
    'class': lambda x: x and frozenset(x.split()).intersection(q)})


class BBCNews(BasicNewsRecipe):

  #
  #  **** IMPORTANT USERS READ ME ****
  #
  # First select the feeds you want then scroll down below the feeds list
  # and select the values you want for the other user preferences, like
  # oldest_article and such like.
  #
  #
  # Select the BBC rss feeds which you want in your ebook.
  # Selected feed have NO '#' at their start, de-selected feeds begin with a '#'.
  #
  # Eg. ("News Home", "https://feeds.bbci.co.uk/... - include feed.
  # Eg. #("News Home", "https://feeds.bbci.co.uk/... - do not include feed.
  #
  # There are 68 feeds below which constitute the bulk of the available rss
  # feeds on the BBC web site. These include 5 blogs by editors and
  # correspondents, 16 sports feeds, 15 'sub' regional feeds (Eg. North West
  # Wales, Scotland Business), and 7 Welsh language feeds.
  #
  # Some of the feeds are low volume (Eg. blogs), or very low volume (Eg. Click)
  # so if "oldest_article = 1.5" (only articles published in the last 36 hours)
  # you may get some 'empty feeds' which will not then be included in the ebook.
  #
  # The 15 feeds currently selected below are simply my default ones.
  #
  # Note: With all 68 feeds selected, oldest_article set to 2,
  # max_articles_per_feed set to 100, and simultaneous_downloads set to 10,
  # the ebook creation took 29 minutes on my speedy 100 mbps net connection,
  # fairly high-end desktop PC running Linux (Ubuntu Lucid-Lynx).
  # More realistically with 15 feeds selected, oldest_article set to 1.5,
  # max_articles_per_feed set to 100, and simultaneous_downloads set to 20,
  # it took 6 minutes. If that's too slow increase 'simultaneous_downloads'.
  #
  # Select / de-select the feeds you want in your ebook.
  #
  feeds = [
    ("News Home", "https://feeds.bbci.co.uk/news/rss.xml"),
    ("UK", "https://feeds.bbci.co.uk/news/uk/rss.xml"),
    ("World", "https://feeds.bbci.co.uk/news/world/rss.xml"),
    # ("England", "https://feeds.bbci.co.uk/news/england/rss.xml"),
    # ("Scotland", "https://feeds.bbci.co.uk/news/scotland/rss.xml"),
    # ("Wales", "https://feeds.bbci.co.uk/news/wales/rss.xml"),
    # ("N. Ireland", "https://feeds.bbci.co.uk/news/northern_ireland/rss.xml"),
    # ("Africa", "https://feeds.bbci.co.uk/news/world/africa/rss.xml"),
    # ("Asia", "https://feeds.bbci.co.uk/news/world/asia/rss.xml"),
    # ("Europe", "https://feeds.bbci.co.uk/news/world/europe/rss.xml"),
    # ("Latin America", "https://feeds.bbci.co.uk/news/world/latin_america/rss.xml"),
    # ("Middle East", "https://feeds.bbci.co.uk/news/world/middle_east/rss.xml"),
    ("US & Canada", "https://feeds.bbci.co.uk/news/world/us_and_canada/rss.xml"),
    ("Politics", "https://feeds.bbci.co.uk/news/politics/rss.xml"),
    ("Science/Environment",
     "https://feeds.bbci.co.uk/news/science_and_environment/rss.xml"),
    ("Technology", "https://feeds.bbci.co.uk/news/technology/rss.xml"),
    ("Magazine", "https://feeds.bbci.co.uk/news/magazine/rss.xml"),
    ("Entertainment/Arts",
     "https://feeds.bbci.co.uk/news/entertainment_and_arts/rss.xml"),
    # ("Health", "https://feeds.bbci.co.uk/news/health/rss.xml"),
    # ("Education/Family", "https://feeds.bbci.co.uk/news/education/rss.xml"),
    ("Business", "https://feeds.bbci.co.uk/news/business/rss.xml"),
    ("Special Reports", "https://feeds.bbci.co.uk/news/special_reports/rss.xml"),
    ("Also in the News", "https://feeds.bbci.co.uk/news/also_in_the_news/rss.xml"),
    # ("Newsbeat", "https://www.bbc.co.uk/newsbeat/rss.xml"),
    # ("Click", "https://newsrss.bbc.co.uk/rss/newsonline_uk_edition/programmes/click_online/rss.xml"),
    # ("Blog: Mark D'Arcy (Parliamentary Correspondent)", "https://feeds.bbci.co.uk/news/correspondents/markdarcy/rss.sxml"),
    # ("Blog: Robert Peston (Business Editor)", "https://feeds.bbci.co.uk/news/correspondents/robertpeston/rss.sxml"),
    # ("Blog: Stephanie Flanders (Economics Editor)", "https://feeds.bbci.co.uk/news/correspondents/stephanieflanders/rss.sxml"),
    ("Sport Front Page",
     "https://newsrss.bbc.co.uk/rss/sportonline_uk_edition/front_page/rss.xml"),
    # ("Football", "https://newsrss.bbc.co.uk/rss/sportonline_uk_edition/football/rss.xml"),
    # ("Cricket", "https://newsrss.bbc.co.uk/rss/sportonline_uk_edition/cricket/rss.xml"),
    # ("Rugby Union", "https://newsrss.bbc.co.uk/rss/sportonline_uk_edition/rugby_union/rss.xml"),
    # ("Rugby League", "https://newsrss.bbc.co.uk/rss/sportonline_uk_edition/rugby_league/rss.xml"),
    # ("Tennis", "https://newsrss.bbc.co.uk/rss/sportonline_uk_edition/tennis/rss.xml"),
    # ("Golf", "https://newsrss.bbc.co.uk/rss/sportonline_uk_edition/golf/rss.xml"),
    # ("Motorsport", "https://newsrss.bbc.co.uk/rss/sportonline_uk_edition/motorsport/rss.xml"),
    # ("Boxing", "https://newsrss.bbc.co.uk/rss/sportonline_uk_edition/boxing/rss.xml"),
    # ("Athletics", "https://newsrss.bbc.co.uk/rss/sportonline_uk_edition/athletics/rss.xml"),
    # ("Snooker", "https://newsrss.bbc.co.uk/rss/sportonline_uk_edition/other_sports/snooker/rss.xml"),
    # ("Horse Racing", "https://newsrss.bbc.co.uk/rss/sportonline_uk_edition/other_sports/horse_racing/rss.xml"),
    # ("Cycling", "https://newsrss.bbc.co.uk/rss/sportonline_uk_edition/other_sports/cycling/rss.xml"),
    # ("Disability Sport", "https://newsrss.bbc.co.uk/rss/sportonline_uk_edition/other_sports/disability_sport/rss.xml"),
    # ("Other Sport", "https://newsrss.bbc.co.uk/rss/sportonline_uk_edition/other_sports/rss.xml"),
    # ("Olympics 2012", "https://newsrss.bbc.co.uk/rss/sportonline_uk_edition/other_sports/olympics_2012/rss.xml"),
    # ("N. Ireland Politics", "https://feeds.bbci.co.uk/news/northern_ireland/northern_ireland_politics/rss.xml"),
    # ("Scotland Politics", "https://feeds.bbci.co.uk/news/scotland/scotland_politics/rss.xml"),
    # ("Scotland Business", "https://feeds.bbci.co.uk/news/scotland/scotland_business/rss.xml"),
    # ("E. Scotland, Edinburgh & Fife", "https://feeds.bbci.co.uk/news/scotland/edinburgh_east_and_fife/rss.xml"),
    # ("W. Scotland & Glasgow", "https://feeds.bbci.co.uk/news/scotland/glasgow_and_west/rss.xml"),
    # ("Highlands & Islands", "https://feeds.bbci.co.uk/news/scotland/highlands_and_islands/rss.xml"),
    # ("NE. Scotland, Orkney & Shetland", "https://feeds.bbci.co.uk/news/scotland/north_east_orkney_and_shetland/rss.xml"),
    # ("South Scotland", "https://feeds.bbci.co.uk/news/scotland/south_scotland/rss.xml"),
    # ("Central Scotland & Tayside", "https://feeds.bbci.co.uk/news/scotland/tayside_and_central/rss.xml"),
    # ("Wales Politics", "https://feeds.bbci.co.uk/news/wales/wales_politics/rss.xml"),
    # ("NW. Wales", "https://feeds.bbci.co.uk/news/wales/north_west_wales/rss.xml"),
    # ("NE. Wales", "https://feeds.bbci.co.uk/news/wales/north_east_wales/rss.xml"),
    # ("Mid. Wales", "https://feeds.bbci.co.uk/news/wales/mid_wales/rss.xml"),
    # ("SW. Wales", "https://feeds.bbci.co.uk/news/wales/south_west_wales/rss.xml"),
    # ("SE. Wales", "https://feeds.bbci.co.uk/news/wales/south_east_wales/rss.xml"),
    # ("Newyddion - News in Welsh", "https://feeds.bbci.co.uk/newyddion/rss.xml"),
    # ("Gwleidyddiaeth", "https://feeds.bbci.co.uk/newyddion/gwleidyddiaeth/rss.xml"),
    # ("Gogledd-Ddwyrain", "https://feeds.bbci.co.uk/newyddion/gogledd-ddwyrain/rss.xml"),
    # ("Gogledd-Orllewin", "https://feeds.bbci.co.uk/newyddion/gogledd-orllewin/rss.xml"),
    # ("Canolbarth", "https://feeds.bbci.co.uk/newyddion/canolbarth/rss.xml"),
    # ("De-Ddwyrain", "https://feeds.bbci.co.uk/newyddion/de-ddwyrain/rss.xml"),
    # ("De-Orllewin", "https://feeds.bbci.co.uk/newyddion/de-orllewin/rss.xml"),
  ]

  #  **** SELECT YOUR USER PREFERENCES ****

  # Title to use for the ebook.
  #
  title = 'BBC News'

  # A brief description for the ebook.
  #
  description = u'BBC web site ebook created using rss feeds.'

  # The max number of articles which may be downloaded from each feed.
  # I've never seen more than about 70 articles in a single feed in the
  # BBC feeds.
  #
  max_articles_per_feed = 100

  # The max age of articles which may be downloaded from each feed. This is
  # specified in days - note fractions of days are allowed, Eg. 2.5 (2 and a
  # half days). My default of 1.5 days is the last 36 hours, the point at
  # which I've decided 'news' becomes 'old news', but be warned this is not
  # so good for the blogs, technology, magazine, etc., and sports feeds.
  # You may wish to extend this to 2-5 but watch out ebook creation time will
  # increase as well. Setting this to 30 will get everything (AFAICT) as long
  # as max_articles_per_feed remains set high (except for 'Click' which is
  # v. low volume and its currently oldest article is 4th Feb 2011).
  #
  oldest_article = 1.5

  # Number of simultaneous downloads. 20 is consistantly working fine on the
  # BBC News feeds with no problems. Speeds things up from the defualt of 5.
  # If you have a lot of feeds and/or have increased oldest_article above 2
  # then you may wish to try increasing simultaneous_downloads to 25-30,
  # Or, of course, if you are in a hurry. [I've not tried beyond 20.]
  #
  simultaneous_downloads = 20

  # Timeout for fetching files from the server in seconds. The default of
  # 120 seconds, seems somewhat excessive.
  #
  timeout = 30

  # The format string for the date shown on the ebook's first page.
  # List of all values: https://docs.python.org/library/time.html
  # Default in news.py has a leading space so that's mirrored here.
  # As with 'feeds' select/de-select by adding/removing the initial '#',
  # only one timefmt should be selected, here's a few to choose from.
  #
  # [Fri, 14 Nov 2011] (Calibre default)
  timefmt = ' [%a, %d %b %Y]'
  # timefmt = ' [%a, %d %b %Y %H:%M]'    # [Fri, 14 Nov 2011 18:30]
  # timefmt = ' [%a, %d %b %Y %I:%M %p]'  # [Fri, 14 Nov 2011 06:30 PM]
  # timefmt = ' [%d %b %Y]'         # [14 Nov 2011]
  # timefmt = ' [%d %b %Y %H:%M]'      # [14 Nov 2011 18.30]
  # timefmt = ' [%Y-%m-%d]'         # [2011-11-14]
  # timefmt = ' [%Y-%m-%d-%H-%M]'      # [2011-11-14-18-30]

  #
  #  **** IMPORTANT ****
  #
  #  DO NOT EDIT BELOW HERE UNLESS YOU KNOW WHAT YOU ARE DOING.
  #
  #  DO NOT EDIT BELOW HERE UNLESS YOU KNOW WHAT YOU ARE DOING.
  #
  #  I MEAN IT, YES I DO, ABSOLUTELY, AT YOU OWN RISK. :)
  #
  #  **** IMPORTANT ****
  #

  # Author of this recipe.
  __author__ = 'mattst'

  # Specify English as the language of the RSS feeds (ISO-639 code).
  language = 'en_GB'

  # Set tags.
  tags = 'news, sport, blog'

  # Set publisher and publication type.
  publisher = 'BBC'
  publication_type = 'newspaper'

  # Disable stylesheets from site.
  no_stylesheets = True

  # Specifies an override encoding for sites that have an incorrect charset
  # specified. Default of 'None' says to auto-detect. Some other BBC recipes
  # use 'utf8', which works fine (so use that if necessary) but auto-detecting
  # with None is working fine, so stick with that for robustness.
  encoding = None

  # Sets whether a feed has full articles embedded in it. The BBC feeds do
  # not.
  use_embedded_content = False

  # Removes empty feeds - why keep them!?
  remove_empty_feeds = True
  ignore_duplicate_articles = {'title', 'url'}
  resolve_internal_links = True

  # Create a custom title which fits nicely in the Kindle title list.
  # Requires "import time" above class declaration, and replacing
  # title with custom_title in conversion_options (right column only).
  # Example of string below: "BBC News - 14 Nov 2011"
  #
  # custom_title = "BBC News - " + time.strftime('%d %b %Y')

  # Conversion options for advanced users. Avoid setting 'linearize_tables'
  # as that plays havoc with the 'old style' table based pages.
  conversion_options = {
    # 'title'    : title,
    # 'comments'  : description,
    # 'tags'    : tags,
    # 'language'  : language,
    # 'publisher'  : publisher,
    # 'authors'   : publisher,
    'smarten_punctuation' : True
  }

  # Specify extra CSS - overrides ALL other CSS (IE. Added last).
  extra_css = 'body { font-family: verdana, helvetica, sans-serif; } \
         .introduction, .first { font-weight: bold; } \
         .cross-head { font-weight: bold; font-size: 125%; } \
         .cap, .caption { display: block; font-size: 80%; font-style: italic; } \
         .cap, .caption, .caption img, .caption span { display: block; text-align: center; margin: 5px auto; } \
         .byl, .byd, .byline img, .byline-name, .byline-title, .author-name, .author-position, \
          .correspondent-portrait img, .byline-lead-in, .name, .bbc-role { display: block; \
          text-align: center; font-size: 80%; font-style: italic; margin: 1px auto; } \
         .story-date, .published { font-size: 80%; } \
         table { width: 100%; } \
         td img { display: block; margin: 5px auto; } \
         ul { padding-top: 10px; } \
         ol { padding-top: 10px; } \
         li { padding-top: 5px; padding-bottom: 5px; } \
         h1 { text-align: center; font-size: 175%; font-weight: bold; } \
         h2 { text-align: center; font-size: 150%; font-weight: bold; } \
         h3 { text-align: center; font-size: 125%; font-weight: bold; } \
         h4, h5, h6 { text-align: center; font-size: 100%; font-weight: bold; }'

  # Remove various tag attributes to improve the look of the ebook pages.
  remove_attributes = ['border', 'cellspacing', 'align', 'cellpadding', 'colspan',
             'valign', 'vspace', 'hspace', 'alt', 'width', 'height']

  # Remove the (admittedly rarely used) line breaks, "<br />", which sometimes
  # cause a section of the ebook to start in an unsightly fashion or, more
  # frequently, a "<br />" will muck up the formatting of a correspondant's byline.
  # "<br />" and "<br clear/>" are far more frequently used on the table formatted
  # style of pages, and really spoil the look of the ebook pages.
  preprocess_regexps = [(re.compile(r'<br[ ]*/>', re.IGNORECASE), lambda m: ''),
             (re.compile(r'<br[ ]*clear.*/>', re.IGNORECASE), lambda m: '')]

  # Create regular expressions for tag keeping and removal to make the matches more
  # robust against minor changes and errors in the HTML, Eg. double spaces, leading
  # and trailing spaces, missing hyphens, and such like.
  # Python regular expression ('re' class) page:
  # https://docs.python.org/library/re.html

  # ***************************************
  # Regular expressions for keep_only_tags:
  # ***************************************

  # The BBC News HTML pages use variants of 'storybody' to denote the section of a HTML
  # page which contains the main text of the article. Match storybody variants: 'storybody',
  # 'story-body', 'story body','storybody ', etc.
  storybody_reg_exp = '^.*story[_ -]*body.*$'

  # The BBC sport and 'newsbeat' (features) HTML pages use 'blq_content' to hold the title
  # and published date. This is one level above the usual news pages which have the title
  # and date within 'story-body'. This is annoying since 'blq_content' must also be kept,
  # resulting in a lot of extra things to be removed by remove_tags.
  blq_content_reg_exp = '^.*blq[_ -]*content.*$'

  # The BBC has an alternative page design structure, which I suspect is an out-of-date
  # design but which is still used in some articles, Eg. 'Click' (technology), 'FastTrack'
  # (travel), and in some sport pages. These alternative pages are table based (which is
  # why I think they are an out-of-date design) and account for -I'm guesstimaking- less
  # than 1% of all articles. They use a table class 'storycontent' to hold the article
  # and like blq_content (above) have required lots of extra removal by
  # remove_tags.
  story_content_reg_exp = '^.*story[_ -]*content.*$'

  # Keep the sections of the HTML which match the list below. The HTML page created by
  # Calibre will fill <body> with those sections which are matched. Note that the
  # blq_content_reg_exp must be listed before storybody_reg_exp in keep_only_tags due to
  # it being the parent of storybody_reg_exp, that is to say the div class/id 'story-body'
  # will be inside div class/id 'blq_content' in the HTML (if 'blq_content' is there at
  # all). If they are the other way around in keep_only_tags then blq_content_reg_exp
  # will end up being discarded.
  keep_only_tags = [dict(name='table', attrs={'class': re.compile(story_content_reg_exp, re.IGNORECASE)}),
           dict(name='div',  attrs={'class': re.compile(
              blq_content_reg_exp, re.IGNORECASE)}),
           dict(name='div',  attrs={'id': re.compile(
              blq_content_reg_exp, re.IGNORECASE)}),
           dict(name='div',  attrs={'class': re.compile(
              storybody_reg_exp, re.IGNORECASE)}),
           dict(name='div',  attrs={'id': re.compile(storybody_reg_exp, re.IGNORECASE)})]

  # ************************************
  # Regular expressions for remove_tags:
  # ************************************

  # Regular expression to remove share-help and variant tags. The share-help class
  # is used by the site for a variety of 'sharing' type links, Eg. Facebook, delicious,
  # twitter, email. Removed to avoid page clutter.
  share_help_reg_exp = '^.*share[_ -]*help.*$'

  # Regular expression to remove embedded-hyper and variant tags. This class is used to
  # display links to other BBC News articles on the same/similar subject.
  embedded_hyper_reg_exp = '^.*embed*ed[_ -]*hyper.*$'

  # Regular expression to remove hypertabs and variant tags. This class is used to
  # display a tab bar at the top of an article which allows the user to switch to
  # an article (viewed on the same page) providing further info., 'in depth' analysis,
  # an editorial, a correspondant's blog entry, and such like. The ability to handle
  # a tab bar of this nature is currently beyond the scope of this recipe and
  # possibly of Calibre itself (not sure about that - TO DO - check!).
  hypertabs_reg_exp = '^.*hyper[_ -]*tabs.*$'

  # Regular expression to remove story-feature and variant tags. Eg. 'story-feature',
  # 'story-feature related narrow', 'story-feature wide', 'story-feature narrow'.
  # This class is used to add additional info. boxes, or small lists, outside of
  # the main story. TO DO: Work out a way to incorporate these neatly.
  story_feature_reg_exp = '^.*story[_ -]*feature.*$'

  # Regular expression to remove video and variant tags, Eg. 'videoInStoryB',
  # 'videoInStoryC'. This class is used to embed video.
  video_reg_exp = '^.*video.*$'

  # Regular expression to remove audio and variant tags, Eg. 'audioInStoryD'.
  # This class is used to embed audio.
  audio_reg_exp = '^.*audio.*$'

  # Regular expression to remove pictureGallery and variant tags, Eg. 'pictureGallery'.
  # This class is used to embed a photo slideshow. See also 'slideshow'
  # below.
  picture_gallery_reg_exp = '^.*picture.*$'

  # Regular expression to remove slideshow and variant tags, Eg. 'dslideshow-enclosure'.
  # This class is used to embed a slideshow (not necessarily photo) but both
  # 'slideshow' and 'pictureGallery' are used for slideshows.
  slideshow_reg_exp = '^.*slide[_ -]*show.*$'

  # Regular expression to remove social-links and variant tags. This class is used to
  # display links to a BBC bloggers main page, used in various columnist's blogs
  # (Eg. Nick Robinson, Robert Preston).
  social_links_reg_exp = '^.*social[_ -]*links.*$'

  # Regular expression to remove quote and (multi) variant tags, Eg. 'quote',
  # 'endquote', 'quote-credit', 'quote-credit-title', etc. These are usually
  # removed by 'story-feature' removal (as they are usually within them), but
  # not always. The quotation removed is always (AFAICT) in the article text
  # as well but a 2nd copy is placed in a quote tag to draw attention to it.
  # The quote class tags may or may not appear in div's.
  quote_reg_exp = '^.*quote.*$'

  # Regular expression to remove hidden and variant tags, Eg. 'hidden'.
  # The purpose of these is unclear, they seem to be an internal link to a
  # section within the article, but the text of the link (Eg. 'Continue reading
  # the main story') never seems to be displayed anyway. Removed to avoid clutter.
  # The hidden class tags may or may not appear in div's.
  hidden_reg_exp = '^.*hidden.*$'

  # Regular expression to remove comment and variant tags, Eg. 'comment-introduction'.
  # Used on the site to display text about registered users entering
  # comments.
  comment_reg_exp = '^.*comment.*$'

  # Regular expression to remove form and variant tags, Eg. 'comment-form'.
  # Used on the site to allow registered BBC users to fill in forms, typically
  # for entering comments about an article.
  form_reg_exp = '^.*form.*$'

  # Extra things to remove due to the addition of 'blq_content' in
  # keep_only_tags.

  # <div class="story-actions"> Used on sports pages for 'email' and 'print'.
  story_actions_reg_exp = '^.*story[_ -]*actions.*$'

  # <div class="bookmark-list"> Used on sports pages instead of 'share-help' (for
  # social networking links).
  bookmark_list_reg_exp = '^.*bookmark[_ -]*list.*$'

  # <div id="secondary-content" class="content-group">
  # NOTE: Don't remove class="content-group" that is needed.
  # Used on sports pages to link to 'similar stories'.
  secondary_content_reg_exp = '^.*secondary[_ -]*content.*$'

  # <div id="featured-content" class="content-group">
  # NOTE: Don't remove class="content-group" that is needed.
  # Used on sports pages to link to pages like 'tables', 'fixtures', etc.
  featured_content_reg_exp = '^.*featured[_ -]*content.*$'

  # <div id="navigation">
  # Used on sports pages to link to pages like 'tables', 'fixtures', etc.
  # Used sometimes instead of "featured-content" above.
  navigation_reg_exp = '^.*navigation.*$'

  # <a class="skip" href="#blq-container-inner">Skip to top</a>
  # Used on sports pages to link to the top of the page.
  skip_reg_exp = '^.*skip.*$'

  # Extra things to remove due to the addition of 'storycontent' in keep_only_tags,
  # which are the alterative table design based pages. The purpose of some of these
  # is not entirely clear from the pages (which are a total mess!).

  # Remove mapping based tags, Eg. <map id="world_map">
  # The dynamic maps don't seem to work during ebook creation. TO DO:
  # Investigate.
  map_reg_exp = '^.*map.*$'

  # Remove social bookmarking variation, called 'socialBookMarks'.
  social_bookmarks_reg_exp = '^.*social[_ -]*bookmarks.*$'

  # Remove page navigation tools, like 'search', 'email', 'print', called
  # 'blq-mast'.
  blq_mast_reg_exp = '^.*blq[_ -]*mast.*$'

  # Remove 'sharesb', I think this is a generic 'sharing' class. It seems to appear
  # alongside 'socialBookMarks' whenever that appears. I am removing it as well
  # under the assumption that it can appear alone as well.
  sharesb_reg_exp = '^.*sharesb.*$'

  # Remove class 'o'. The worst named user created css class of all time. The creator
  # should immediately be fired. I've seen it used to hold nothing at all but with
  # 20 or so empty lines in it. Also to hold a single link to another article.
  # Whatever it was designed to do it is not wanted by this recipe. Exact
  # match only.
  o_reg_exp = '^o$'

  # Remove 'promotopbg' and 'promobottombg', link lists. Have decided to
  # use two reg expressions to make removing this (and variants) robust.
  promo_top_reg_exp = '^.*promotopbg.*$'
  promo_bottom_reg_exp = '^.*promobottombg.*$'

  # Remove 'nlp', provides heading for link lists. Requires an exact match due to
  # risk of matching those letters in something needed, unless I see a variation
  # of 'nlp' used at a later date.
  nlp_reg_exp = '^nlp$'

  # Remove 'mva', provides embedded floating content of various types. Variant 'mvb'
  # has also now been seen. Requires an exact match of 'mva' or 'mvb' due to risk of
  # matching those letters in something needed.
  mva_or_mvb_reg_exp = '^mv[ab]$'

  # Remove 'mvtb', seems to be page navigation tools, like 'blq-mast'.
  mvtb_reg_exp = '^mvtb$'

  # Remove 'blq-toplink', class to provide a link to the top of the page.
  blq_toplink_reg_exp = '^.*blq[_ -]*top[_ -]*link.*$'

  # Remove 'products and services' links, Eg. desktop tools, alerts, and so on.
  # Eg. Class="servicev4 ukfs_services" - what a mess of a name. Have decided to
  # use two reg expressions to make removing this (and variants) robust.
  prods_services_01_reg_exp = '^.*servicev4.*$'
  prods_services_02_reg_exp = '^.*ukfs[_ -]*services.*$'

  # Remove -what I think is- some kind of navigation tools helper class, though I am
  # not sure, it's called: 'blq-rst blq-new-nav'. What I do know is it pops up
  # frequently and it is not wanted. Have decided to use two reg expressions to make
  # removing this (and variants) robust.
  blq_misc_01_reg_exp = '^.*blq[_ -]*rst.*$'
  blq_misc_02_reg_exp = '^.*blq[_ -]*new[_ -]*nav.*$'

  # Remove 'puffbox' - this may only appear inside 'storyextra', so it may not
  # need removing - I have no clue what it does other than it contains links.
  # Whatever it is - it is not part of the article and is not wanted.
  puffbox_reg_exp = '^.*puffbox.*$'

  # Remove 'sibtbg' and 'sibtbgf' - some kind of table formatting classes.
  sibtbg_reg_exp = '^.*sibtbg.*$'

  # Remove 'storyextra' - links to relevant articles and external sites.
  storyextra_reg_exp = '^.*story[_ -]*extra.*$'

  remove_tags = [
    classes('sharetools share-tools--no-event-tag'),
    dict(name='div', attrs={'class': re.compile(story_feature_reg_exp, re.IGNORECASE)}),
    dict(name='div', attrs={'class': re.compile(
      share_help_reg_exp, re.IGNORECASE)}),
    dict(name='div', attrs={'class': re.compile(
      embedded_hyper_reg_exp, re.IGNORECASE)}),
    dict(name='div', attrs={'class': re.compile(
      hypertabs_reg_exp, re.IGNORECASE)}),
    dict(name='div', attrs={'class': re.compile(
      video_reg_exp, re.IGNORECASE)}),
    dict(name='div', attrs={'class': re.compile(
      audio_reg_exp, re.IGNORECASE)}),
    dict(name='div', attrs={'class': re.compile(
      picture_gallery_reg_exp, re.IGNORECASE)}),
    dict(name='div', attrs={'class': re.compile(
      slideshow_reg_exp, re.IGNORECASE)}),
    dict(name='div', attrs={'class': re.compile(
      quote_reg_exp, re.IGNORECASE)}),
    dict(name='div', attrs={'class': re.compile(
      hidden_reg_exp, re.IGNORECASE)}),
    dict(name='div', attrs={'class': re.compile(
      comment_reg_exp, re.IGNORECASE)}),
    dict(name='div', attrs={'class': re.compile(
      story_actions_reg_exp, re.IGNORECASE)}),
    dict(name='div', attrs={'class': re.compile(
      bookmark_list_reg_exp, re.IGNORECASE)}),
    dict(name='div', attrs={'id': re.compile(
      secondary_content_reg_exp, re.IGNORECASE)}),
    dict(name='div', attrs={'id': re.compile(
      featured_content_reg_exp, re.IGNORECASE)}),
    dict(name='div', attrs={'id': re.compile(
      navigation_reg_exp, re.IGNORECASE)}),
    dict(name='form', attrs={'id': re.compile(
      form_reg_exp, re.IGNORECASE)}),
    dict(attrs={'class': re.compile(
      quote_reg_exp, re.IGNORECASE)}),
    dict(attrs={'class': re.compile(
      hidden_reg_exp, re.IGNORECASE)}),
    dict(attrs={'class': re.compile(
      social_links_reg_exp, re.IGNORECASE)}),
    dict(attrs={'class': re.compile(
      comment_reg_exp, re.IGNORECASE)}),
    dict(attrs={'class': re.compile(
      skip_reg_exp, re.IGNORECASE)}),
    dict(name='map', attrs={'id': re.compile(
      map_reg_exp, re.IGNORECASE)}),
    dict(name='map', attrs={'name': re.compile(
      map_reg_exp, re.IGNORECASE)}),
    dict(name='div', attrs={'id': re.compile(
      social_bookmarks_reg_exp, re.IGNORECASE)}),
    dict(name='div', attrs={'id': re.compile(
      blq_mast_reg_exp, re.IGNORECASE)}),
    dict(name='div', attrs={'class': re.compile(
      sharesb_reg_exp, re.IGNORECASE)}),
    dict(name='div', attrs={
      'class': re.compile(o_reg_exp, re.IGNORECASE)}),
    dict(name='div', attrs={'class': re.compile(
      promo_top_reg_exp, re.IGNORECASE)}),
    dict(name='div', attrs={'class': re.compile(
      promo_bottom_reg_exp, re.IGNORECASE)}),
    dict(name='div', attrs={
      'class': re.compile(nlp_reg_exp, re.IGNORECASE)}),
    dict(name='div', attrs={'class': re.compile(
      mva_or_mvb_reg_exp, re.IGNORECASE)}),
    dict(name='div', attrs={'class': re.compile(
      mvtb_reg_exp, re.IGNORECASE)}),
    dict(name='div', attrs={'class': re.compile(
      blq_toplink_reg_exp, re.IGNORECASE)}),
    dict(name='div', attrs={'class': re.compile(
      prods_services_01_reg_exp, re.IGNORECASE)}),
    dict(name='div', attrs={'class': re.compile(
      prods_services_02_reg_exp, re.IGNORECASE)}),
    dict(name='div', attrs={'class': re.compile(
      blq_misc_01_reg_exp, re.IGNORECASE)}),
    dict(name='div', attrs={'class': re.compile(
      blq_misc_02_reg_exp, re.IGNORECASE)}),
    dict(name='div', attrs={'class': re.compile(
      puffbox_reg_exp, re.IGNORECASE)}),
    dict(attrs={'class': re.compile(
      sibtbg_reg_exp, re.IGNORECASE)}),
    dict(attrs={'class': re.compile(
      storyextra_reg_exp, re.IGNORECASE)})
  ]

  # Uses url to create and return the 'printer friendly' version of the url.
  # In other words the 'print this page' address of the page.
  #
  # There are 3 types of urls used in the BBC site's rss feeds. There is just
  # 1 type for the standard news while there are 2 used for sports feed urls.
  # Note: Sports urls are linked from regular news feeds (Eg. 'News Home') when
  # there is a major story of interest to 'everyone'. So even if no BBC sports
  # feeds are added to 'feeds' the logic of this method is still needed to avoid
  # blank / missing / empty articles which have an index title and then no
  # body.
  def print_version(self, url):
    if url.startswith("https://www.bbc.co.uk/news/world-51235105"):
      self.abort_article("This article contains a gigantic coronavirus table")

    # Handle sports page urls type 01:
    if (url.find("go/rss/-/sport1/") != -1):
      temp_url = url.replace("go/rss/-/", "")

    # Handle sports page urls type 02:
    elif (url.find("go/rss/int/news/-/sport1/") != -1):
      temp_url = url.replace("go/rss/int/news/-/", "")

    # Handle regular news page urls:
    else:
      temp_url = url.replace("go/rss/int/news/-/", "")

    # Always add "?print=true" to the end of the url.
    print_url = temp_url + "?print=true"

    return print_url

  def canonicalize_internal_url(self, url, is_link=True):
    if url.endswith('?print=true'):
      url = url.rpartition('?')[0]
    return BasicNewsRecipe.canonicalize_internal_url(self, url, is_link=is_link)

  # Remove articles in feeds based on a string in the article title or url.
  #
  # Code logic written by: Starson17 - posted in: "Recipes - Re-usable code"
  # thread, in post with title: "Remove articles from feed", see url:
  # https://www.mobileread.com/forums/showpost.php?p=1165462&postcount=6
  # Many thanks and all credit to Starson17.
  #
  # Starson17's code has obviously been altered to suite my requirements.
  def parse_feeds(self):

    # Call parent's method.
    feeds = BasicNewsRecipe.parse_feeds(self)

    # Loop through all feeds.
    for feed in feeds:

      # Loop through all articles in feed.
      for article in feed.articles[:]:

        # Match key words and remove article if there's a match.

        # Most BBC rss feed video only 'articles' use upper case 'VIDEO'
        # as a title prefix. Just match upper case 'VIDEO', so that
        # articles like 'Video game banned' won't be matched and
        # removed.
        if 'VIDEO' in article.title:
          feed.articles.remove(article)

        # Most BBC rss feed audio only 'articles' use upper case 'AUDIO'
        # as a title prefix. Just match upper case 'AUDIO', so that
        # articles like 'Hi-Def audio...' won't be matched and removed.
        elif 'AUDIO' in article.title:
          feed.articles.remove(article)

        # Most BBC rss feed photo slideshow 'articles' use 'In Pictures',
        # 'In pictures', and 'in pictures', somewhere in their title.
        # Match any case of that phrase.
        elif 'IN PICTURES' in article.title.upper():
          feed.articles.remove(article)

        # As above, but user contributed pictures. Match any case.
        elif 'YOUR PICTURES' in article.title.upper():
          feed.articles.remove(article)

        # 'Sportsday Live' are articles which contain a constantly and
        # dynamically updated 'running commentary' during a live sporting
        # event. Match any case.
        elif 'SPORTSDAY LIVE' in article.title.upper():
          feed.articles.remove(article)

        # Sometimes 'Sportsday Live' (above) becomes 'Live - Sport Name'.
        # These are being matched below using 'Live - ' because removing all
        # articles with 'live' in their titles would remove some articles
        # that are in fact not live sports pages. Match any case.
        elif 'LIVE - ' in article.title.upper():
          feed.articles.remove(article)

        # 'Quiz of the week' is a Flash player weekly news quiz. Match only
        # the 'Quiz of the' part in anticipation of monthly and yearly
        # variants. Match any case.
        elif 'QUIZ OF THE' in article.title.upper():
          feed.articles.remove(article)

        # Remove articles with 'scorecards' in the url. These are BBC sports
        # pages which just display a cricket scorecard. The pages have a mass
        # of table and css entries to display the scorecards nicely. Probably
        # could make them work with this recipe, but might take a whole day
        # of work to sort out all the css - basically a formatting
        # nightmare.
        elif 'scorecards' in article.url:
          feed.articles.remove(article)

    return feeds

# End of class and file.

Detta recept utforskar bara toppen av isberget när det kommer till makten av calibre. För att utforska mer av förmågan hos calibre så undersöker vi en mer komplex verkliga livet exempel i nästa avsnitt.

Exempel i verkligheten

Ett tämligen komplicerat exempel från verkligheten som exponerar mer av API för BasicNewsRecipe är recept för New York Times

import string, re
from calibre import strftime
from calibre.web.feeds.recipes import BasicNewsRecipe
from calibre.ebooks.BeautifulSoup import BeautifulSoup

class NYTimes(BasicNewsRecipe):

  title    = 'The New York Times'
  __author__ = 'Kovid Goyal'
  description = 'Daily news from the New York Times'
  timefmt = ' [%a, %d %b, %Y]'
  needs_subscription = True
  remove_tags_before = dict(id='article')
  remove_tags_after = dict(id='article')
  remove_tags = [dict(attrs={'class':['articleTools', 'post-tools', 'side_tool', 'nextArticleLink clearfix']}),
        dict(id=['footer', 'toolsRight', 'articleInline', 'navigation', 'archive', 'side_search', 'blog_sidebar', 'side_tool', 'side_index']),
        dict(name=['script', 'noscript', 'style'])]
  encoding = 'cp1252'
  no_stylesheets = True
  extra_css = 'h1 {font: sans-serif large;}\n.byline {font:monospace;}'

  def get_browser(self):
    br = BasicNewsRecipe.get_browser()
    if self.username is not None and self.password is not None:
      br.open('https://www.nytimes.com/auth/login')
      br.select_form(name='login')
      br['USERID']  = self.username
      br['PASSWORD'] = self.password
      br.submit()
    return br

  def parse_index(self):
    soup = self.index_to_soup('https://www.nytimes.com/pages/todayspaper/index.html')

    def feed_title(div):
      return ''.join(div.findAll(text=True, recursive=False)).strip()

    articles = {}
    key = None
    ans = []
    for div in soup.findAll(True,
       attrs={'class':['section-headline', 'story', 'story headline']}):

       if ''.join(div['class']) == 'section-headline':
         key = string.capwords(feed_title(div))
         articles[key] = []
         ans.append(key)

       elif ''.join(div['class']) in ['story', 'story headline']:
         a = div.find('a', href=True)
         if not a:
           continue
         url = re.sub(r'\?.*', '', a['href'])
         url += '?pagewanted=all'
         title = self.tag_to_string(a, use_alt=True).strip()
         description = ''
         pubdate = strftime('%a, %d %b')
         summary = div.find(True, attrs={'class':'summary'})
         if summary:
           description = self.tag_to_string(summary, use_alt=False)

         feed = key if key is not None else 'Uncategorized'
         if feed not in articles:
           articles[feed] = []
         if not 'podcasts' in url:
           articles[feed].append(
                dict(title=title, url=url, date=pubdate,
                  description=description,
                  content=''))
    ans = self.sort_index_by(ans, {'The Front Page':-1, 'Dining In, Dining Out':1, 'Obituaries':2})
    ans = [(key, articles[key]) for key in ans if key in articles]
    return ans

  def preprocess_html(self, soup):
    refresh = soup.find('meta', {'http-equiv':'refresh'})
    if refresh is None:
      return soup
    content = refresh.get('content').partition('=')[2]
    raw = self.browser.open('https://www.nytimes.com'+content).read()
    return BeautifulSoup(raw.decode('cp1252', 'replace'))

Vi ser flera nya funktioner i detta recept. recept. Först har vi:

timefmt = ' [%a, %d %b, %Y]'

Detta ställer den visade tiden på förstasidan av den skapade e-boken att vara i formatet, Dag, Dag_Nummer Månad, År. Se timefmt.

Då ser vi en grupp direktiv för att rensa hämtad HTML:

remove_tags_before = dict(name='h1')
remove_tags_after = dict(id='footer')
remove_tags = ...

Dessa tar bort allt innan den första <h1> taggen och allt efter den första taggen vars id är footer. Se remove_tags, remove_tags_before, remove_tags_after.

Nästa intressanta funktion är:

needs_subscription = True
...
def get_browser(self):
  ...

needs_subscription = True berättar för calibre att detta recept behöver användarnamn och lösenord för att komma åt innehållet. Detta medför att calibre frågar efter användarnamn och lösenord när du försöker använda det här receptet. Koden i calibre.web.feeds.news.BasicNewsRecipe.get_browser() loggar faktiskt in på NYT-webbplatsen. När du loggat in kommer calibre att använda samma webbläsarinstans för att hämta allt innehåll. Se mechanize för att förstå koden i get_browser.

Nästa nya funktion är calibre.web.feeds.news.BasicNewsRecipe.parse_index() metoden. Dess uppgift är att gå till https://www.nytimes.com/pages/todayspaper/index.html och hämta listan med artiklar som visas i dagens tidning. Medan mer komplex än att bara använda RSS, skapar receptet en e-bok som motsvarar mycket nära dagens tidning. parse_index använder mycket BeautifulSoup för att tolka dagens tidningswebbplats. Du kan också använda andra, mer moderna parsers om du ogillar BeautifulSoup. calibre comes with lxml och html5lib, vilka är de rekommenderade parsers. För att använda dem, ersätt anropet till index_to_soup() med följande:

raw = self.index_to_soup(url, raw=True)
# For html5lib
import html5lib
root = html5lib.parse(raw, namespaceHTMLElements=False, treebuilder='lxml')
# For the lxml html 4 parser
from lxml import html
root = html.fromstring(raw)

Den sista nyheten är calibre.web.feeds.news.BasicNewsRecipe.preprocess_html() metoden. Den kan användas för att utföra godtyckliga transformationer på varje hämtad HTML-sida. Här används det för att kringgå de annonser som de NYTimes visar dig innan varje artikel.

Tips för att utveckla nya recept

Det bästa sättet att utveckla nya recept är att använda kommandoraden. Skapa receptet med din favorit Python redigerare och spara den till en fil låt säga myrecipe.recipe. .recipe-tillägget krävs. Du kan hämtar innehåll med detta recept med kommandot:

ebook-convert myrecipe.recipe .epub --test -vv --debug-pipeline debug

Kommandot ebook-convert kommer att hämtar alla webbplatser och spara dem till EPUB-filen myrecipe.epub. Alternativet -vv får ebook-convert mata ut en hel del information om vad den gör. Alternativet ebook-convert-recipe-input --test begränsar hämtning till bara ett par artiklar från högst två flöden. Dessutom kommer ebook-convert placera HTML i debug/input-katalogen, där debug är katalogen du angav i ebook-convert --debug-pipeline-alternativet.

När hämtningen är klar kan du titta på hämtad HTML genom att öppna filen debug/input/index.html i en webbläsare. När du är nöjd med att hämtningen och förbehandling sker på rätt sätt kan du generera e-böcker i olika format enligt nedan:

ebook-convert myrecipe.recipe myrecipe.epub
ebook-convert myrecipe.recipe myrecipe.mobi
...

Om du är nöjd med ditt recept och du känner att det finns tillräcklig efterfrågan för att motivera dess införande i uppsättningen av inbyggda recept, lägg upp ditt recept i calibres receptforum för att dela med andra calibre-användare.

Observera

På macOS finns kommandoradsverktygen inuti calibre paketet, till exempel om du installerade calibre i /Applications kommandoradsverktygen finns i /Applications/calibre.app/Contents/MacOS/.

Se även

ebook-convert

Kommandoradsgränssnittet för all e-bokkonvertering.

Ytterligare läsning

Om du vill veta mer om att skriva avancerade recept med några av faciliteterna som finns i BasicNewsRecipe bör du konsultera följande källor:

API-dokumentation

Dokumentation av BasicNewsRecipe-klassen och alla dess viktiga metoder och fält.

BasicNewsRecipe

Källkoden för BasicNewsRecipe

Inbyggda recept

Källkoden för de inbyggda recept som kommer med calibre

calibres receptforum

Massor av kunniga calibre recept-författare håller till här.