API documentatie voor recepten¶
De API voor het schrijven van recepten is bepaald door de BasicNewsRecipe
- class calibre.web.feeds.news.BasicNewsRecipe(options, log, progress_reporter)[broncode]¶
Basisklasse die logica bevat die nodig is in alle recepten. Door steeds meer functionaliteit in deze klasse te overschrijven, kunt u steeds meer aangepaste/krachtige recepten maken. Voor een handleiding introductie tot het maken van recepten, zie Uw favoriete nieuws website toevoegen.
- abort_article(msg=None)[broncode]¶
Gebruik deze methode in een van de voorbewerk-methoden om de download voor het huidige artikel te beëindigen. Handig om artikelen over te slaan die ongepaste inhoud bevatten, zoals pure video-artikelen.
- abort_recipe_processing(msg)[broncode]¶
Zorgt ervoor dat het downloadsysteem voor recepten het downloaden van recepten afbreekt, en er een simpel feedback-bericht aan de gebruiker wordt weergegeven.
- add_toc_thumbnail(article, src)[broncode]¶
Gebruik dit vanuit populate_article_metadata met het src attribuut van een <img>label uit het artikel dat geschikt is om te gebruiken als de miniatuur die het artikel in de inhoudsopgave weergeeft. Of de miniatuur daadwerkelijk wordt gebruikt, is apparaatafhankelijk (momenteel alleen in gebruik bij de Kindles). Merk op dat de bedoelde afbeelding er een moet zijn die succesvol is gedownload, anders wordt deze genegeerd.
- classmethod adeify_images(soup)[broncode]¶
Als je recept dat is geconverteerd naar EPUB problemen heeft met afbeeldingen bekeken in Adobe Digital Editions, gebruik je deze methode vanuit
postprocess_html()
.
- canonicalize_internal_url(url, is_link=True)[broncode]¶
Retourneer een set canonieke representaties van `` url``. De standaardimplementatie gebruikt alleen de hostnaam van de server en het pad van de URL, waarbij alle zoekparameters, fragmenten, enzovoort worden genegeerd. De canonieke weergaven moeten uniek zijn voor alle URL’s voor deze nieuwsbron. Als dat niet het geval is, kunnen interne links onjuist worden opgelost.
- Parameters:
is_link – Is Waar als de URL afkomstig is van een interne link in een HTML-bestand. Onwaar als de URL de URL is die werd gebruikt om een artikel te downloaden.
- cleanup()[broncode]¶
Gebruikt nadat alle artikelen zijn gedownload. Gebruik het om op te schonen, zoals het afmelden van abonnementssites, enz.
- clone_browser(br)[broncode]¶
Kloon de browser br. Gekloonde browsers worden gebruikt voor multi-threaded downloads, omdat mechaniseren niet thread safe is. De standaard kloneringsroutines moeten de meeste browseraanpassingen vastleggen, maar als u iets exotisch in uw recept doet, moet u deze methode in uw recept overschrijven en handmatig klonen.
Gekloonde browserinstances gebruiken standaard dezelfde, thread-safe CookieJar, tenzij u aangepaste cookieverwerking hebt ingesteld.
- default_cover(cover_file)[broncode]¶
Maak een algemene omslag voor recepten die geen omslag hebben
- download()[broncode]¶
Download en verwerk alle artikelen uit de feeds in dit recept. Deze methode moet slechts één keer worden aangeroepen voor een bepaalde receptinstantie. Meer dan één keer aanroepen zal leiden tot ongedefinieerd gedrag. :return: Path to index.html
- extract_readable_article(html, url)[broncode]¶
Haalt inhoud van hoofdartikel uit ‘html’, ruimt op en retourneert als een (article_html, extracted_title) tupel. Gebaseerd op het oorspronkelijke leesbaarheidsalgoritme van Arc90.
- get_article_url(article)[broncode]¶
Override in a subclass to customize extraction of the URL that points to the content for each article. Return the article URL. It is called with article, an object representing a parsed article from a feed. See feedparser. By default it looks for the original link (for feeds syndicated via a service like FeedBurner or Pheedo) and if found, returns that or else returns article.link.
- get_browser(*args, **kwargs)[broncode]¶
Return a browser instance used to fetch documents from the web. By default it returns a mechanize browser instance that supports cookies, ignores robots.txt, handles refreshes and has a random common user agent.
To customize the browser override this method in your sub-class as:
def get_browser(self, *a, **kw): br = super().get_browser(*a, **kw) # Add some headers br.addheaders += [ ('My-Header', 'one'), ('My-Header2', 'two'), ] # Set some cookies br.set_cookie('name', 'value') br.set_cookie('name2', 'value2', domain='.mydomain.com') # Make a POST request with some data br.open('https://someurl.com', {'username': 'def', 'password': 'pwd'}).read() # Do a login via a simple web form (only supported with mechanize browsers) if self.username is not None and self.password is not None: br.open('https://www.nytimes.com/auth/login') br.select_form(name='login') br['USERID'] = self.username br['PASSWORD'] = self.password br.submit() return br
- get_cover_url()[broncode]¶
Retourneer een URL naar de omslagafbeelding voor deze editie of` Geen. Standaard retourneert het de waarde van het lid self.cover_url dat normaal` Geen` is. Als u wilt dat uw recept een omslag voor het e-book download, vervangt u deze methode in uw subklasse of stelt u de lid-variabele self.cover_url in voordat deze methode wordt aangeroepen.
- get_extra_css()[broncode]¶
Retourneert standaard self.extra_css. Negeren als je de extra_css programmatisch wilt genereren.
- get_feeds()[broncode]¶
Retourneer een lijst met RSS-feeds om op te halen voor dit profiel. Elk element van de lijst moet een 2-elementen-tupel van het formaat (titel, URL) zijn. Als de titel Geen of een lege tekenreeks is, wordt de titel uit de feed gebruikt. Deze methode is handig als uw recept een aantal bewerkingen moet uitvoeren om uit te zoeken welke feeds moeten worden gedownload. Als dit het geval is, overschrijft dit in uw subklasse.
- get_masthead_title()[broncode]¶
Overschrijven in subklasse om iets anders dan de recept-titel te gebruiken
- get_masthead_url()[broncode]¶
Retourneer een URL naar de masthead-afbeelding voor deze editie of` Geen. Standaard retourneert het de waarde van het lid self.masthead_url dat normaal` Geen` is. Als u wilt dat uw recept een masthead voor het e-book download, vervangt u deze methode in uw subklasse of stelt u de lid-variabele self.masthead_url in voordat deze methode wordt aangeroepen. Masthead-afbeeldingen worden gebruikt in Kindle MOBI-bestanden.
- get_obfuscated_article(url)[broncode]¶
If you set articles_are_obfuscated this method is called with every article URL. It should return the path to a file on the filesystem that contains the article HTML. That file is processed by the recursive HTML fetching engine, so it can contain links to pages/images on the web. Alternately, you can return a dictionary of the form: {‘data’: <HTML data>, ‘url’: <the resolved URL of the article>}. This avoids needing to create temporary files. The url key in the dictionary is useful if the effective URL of the article is different from the URL passed into this method, for example, because of redirects. It can be omitted if the URL is unchanged.
Deze methode is meestal nuttig voor sites die het moeilijk maken om automatisch toegang te krijgen tot artikelinhoud.
- get_url_specific_delay(url)[broncode]¶
Return the delay in seconds before downloading this URL. If you want to programmatically determine the delay for the specified URL, override this method in your subclass, returning self.delay by default for URLs you do not want to affect.
- Returns:
A floating point number, the delay in seconds.
- classmethod image_url_processor(baseurl, url)[broncode]¶
Perform some processing on image urls (perhaps removing size restrictions for dynamically generated images, etc.) and return the processed URL. Return None or an empty string to skip fetching the image.
- index_to_soup(url_or_raw, raw=False, as_tree=False, save_raw=None)[broncode]¶
Gemaksmethode die een URL naar de indexpagina brengt en een BeautifulSoup <https://www.crummy.com/software/BeautifulSoup/bs4/doc> _ terug geeft.
url_or_raw: ofwel een URL of de gedownloade indexpagina als een tekenreeks
- is_link_wanted(url, tag)[broncode]¶
Retourneer Waar als de link moet worden gevolgd of anders Onwaar. Hiermee wordt standaard NotImplementedError gezet waardoor de downloader deze negeert.
- Parameters:
url – De te volgen URL
tag – Het label waarvan de URL is afgeleid
- parse_feeds()[broncode]¶
Maak een lijst met artikelen uit de lijst met feeds geretourneerd door
BasicNewsRecipe.get_feeds()
. Retourneer een lijst metFeed
objecten.
- parse_index()[broncode]¶
Deze methode moet worden geïmplementeerd in recepten die een website verwerken in plaats van feeds om een lijst met artikelen te genereren. Typische toepassingen zijn voor nieuwsbronnen met een “Printeditie” -webpagina met een overzicht van alle artikelen in de huidige gedrukte editie. Als deze functie is geïmplementeerd, wordt deze gebruikt in plaats van
BasicNewsRecipe.parse_feeds()
.Het moet een lijst retourneren. Elk element van de lijst moet een 2-elementen tupel zijn van de vorm
('feed title', lijst van artikelen)
.Elke lijst met artikelen moet woordenboeken bevatten met de vorm:
{ 'title' : article title, 'url' : URL of print version, 'date' : The publication date of the article as a string, 'description' : A summary of the article 'content' : The full article (can be an empty string). Obsolete do not use, instead save the content to a temporary file and pass a file:///path/to/temp/file.html as the URL. }
Als voorbeeld zie het recept voor het downloaden van The Atlantic. Daarnaast kunt u ‘author’ toevoegen voor de auteur van het artikel.
Als u de verwerking om een of andere reden wilt afbreken en Calibre aan de gebruiker een eenvoudig bericht in plaats van een fout wilt laten tonen, roep dan meth: abort_recipe_processing aan.
- populate_article_metadata(article, soup, first)[broncode]¶
Wordt aangeroepen wanneer elke HTML-pagina die bij het artikel hoort wordt gedownload. Bedoeld om te worden gebruikt om artikelmetadata te krijgen zoals auteur / samenvatting / enz. van de bewerkte HTML (soep).
- Parameters:
article – Een object van klasse
Calibre.web.feeds.Article
. Als u de samenvatting wijzigt, vergeet dan niet om ook de text_summary te wijzigensoup – Bewerkte HTML behorend bij dit artikel
first – Waar als de bewerkte HTML de eerste pagina van het artikel is.
- postprocess_book(oeb, opts, log)[broncode]¶
Voer de benodigde nabewerking uit op het bewerkte gedownloade e-boek.
- Parameters:
oeb – Een OEBBoek object
opts – Omzet opties
- postprocess_html(soup, first_fetch)[broncode]¶
Deze methode wordt aangeroepen met de bron van elk gedownload HTML bestand, nadat het is bewerkt voor koppelingen en afbeeldingen. Het kan worden gebruikt om willekeurig krachtige post-processing uit te voeren op de HTML. Het moet soup teruggeven na bewerking.
- Parameters:
soup – Een BeautifulSoup <https://www.crummy.com/software/BeautifulSoup/bs4/doc> _ instantie die de gedownloade HTML bevat.
first_fetch – Waar als dit de eerste pagina van een artikel is.
- preprocess_html(soup)[broncode]¶
Deze methode wordt aangeroepen met de bron van elk gedownload HTML bestand, voor dat het is bewerkt voor koppelingen en afbeeldingen. Het wordt aangeroepen na het opschonen zoals gevraagd door remove_tags enz. Het kan worden gebruikt om willekeurig krachtige post-processing uit te voeren op de HTML. Het moet soup teruggeven na bewerking.
soup: Een BeautifulSoup <https://www.crummy.com/software/BeautifulSoup/bs4/doc> _ instantie die de gedownloade HTML bevat.
- preprocess_image(img_data, image_url)[broncode]¶
Voer enige bewerking uit op gedownloade afbeeldingsgegevens. Dit wordt aangeroepen voor de onbewerkte gegevens voordat enige formaat wijziging is gedaan. Moet de verwerkte onbewerkte gegevens retourneren. Retourneer None om de afbeelding over te slaan.
- preprocess_raw_html(raw_html, url)[broncode]¶
Deze methode wordt aangeroepen met de bron van elk gedownload HTML bestand, voordat het is bewerkt in een object-boom. raw_html is een unicode-tekenreeks die de onbewerkte HTML vertegenwoordigt die is gedownload van internet. url is de URL van waaruit de HTML is gedownload.
Merk op dat deze methode werkt * vóór * preprocess_regexps.
Deze methode moet de bewerkte raw_html retourneren als een unicode-object.
- classmethod print_version(url)[broncode]¶
Neem een `url` wijzend naar de webpagina met artikelinhoud en retourneer de URL wijzend naar de gedrukte versie van het artikel. Doet standaard niets. Bijvoorbeeld:
def print_version(self, url): return url + '?&pagewanted=print'
- publication_date()[broncode]¶
Use this method to set the date when this issue was published. Defaults to the moment of download. Must return a
datetime.datetime
object.
- skip_ad_pages(soup)[broncode]¶
Deze methode wordt aangeroepen met de bron van elk gedownload HTML bestand, voordat een van de opschoonattributen zoals remove_tags, keep_only_tags worden toegepast. Merk op dat preprocess_regexps al is toegepast. Het is bedoeld om het recept toe te staan advertentiepagina’s over te slaan. Als de soep een advertentiepagina vertegenwoordigt, retourneert u de HTML-code van de echte pagina. Anders retourneert u Geen.
soup: Een BeautifulSoup <https://www.crummy.com/software/BeautifulSoup/bs4/doc> _ instantie die de gedownloade HTML bevat.
- sort_index_by(index, weights)[broncode]¶
Gemaksmethode om de titels in index te sorteren volgens` gewichten`. index wordt op zijn plaats gesorteerd. Retourneert index.
index: Een lijst van titels.
gewichten: een woordenboek dat gewichten toewijst aan titels. Als titels in de index niet in ‘gewichten’ voorkomen, wordt aangenomen dat ze een gewicht van 0 hebben.
- classmethod tag_to_string(tag, use_alt=True, normalize_whitespace=True)[broncode]¶
Gemaksmethode om een `BeautifulSoup <https://www.crummy.com/software/BeautifulSoup/b43/doc>` _
Tag
te nemen en de tekst er recursief uit te halen, inclusief eventuele CDATA-secties en alt tagattributen. Geeft een mogelijk lege Unicode string terug.use_alt: Als` True` probeer het alt-attribuut te gebruiken voor labels die geen tekstuele inhoud hebben
tag: BeautifulSoup
Tag
- articles_are_obfuscated = False¶
Stel in op True en implementeer
get_obfuscated_article()
om websites te beheren die het moeilijk maken om inhoud te schrapen.
- auto_cleanup = False¶
Haal automatisch alle tekst uit de gedownloade artikelpagina’s. Gebruikt de algoritmen van het leesbaarheidsproject. Als u dit instelt op True, betekent dit dat u zich geen zorgen hoeft te maken over het handmatig opschonen van de gedownloade HTML (hoewel handmatige opschoning altijd beter is).
- auto_cleanup_keep = None¶
Geef elementen op die het algoritme voor automatische opruiming nooit mag verwijderen. De syntaxis is een XPath-uitdrukking. Bijvoorbeeld:
auto_cleanup_keep = '//div[@id="article-image"]' will keep all divs with id="article-image" auto_cleanup_keep = '//*[@class="important"]' will keep all elements with class="important" auto_cleanup_keep = '//div[@id="article-image"]|//span[@class="important"]' will keep all divs with id="article-image" and spans with class="important"
- browser_type = 'mechanize'¶
The simulated browser engine to use when downloading from servers. The default is to use the Python mechanize browser engine, which supports logging in. However, if you don’t need logging in, consider changing this to either ‘webengine’ which uses an actual Chromium browser to do the network requests or ‘qt’ which uses the Qt Networking backend. Both ‘webengine’ and ‘qt’ support HTTP/2, which mechanize does not and are thus harder to fingerprint for bot protection services.
Indien Waar dan is de navigatiebalk gecentreerd, anders is deze links uitgelijnd
- compress_news_images = False¶
Set this to False to ignore all scaling and compression parameters and pass images through unmodified. If True and the other compression parameters are left at their default values, images will be scaled to fit in the screen dimensions set by the output profile and compressed to size at most (w * h)/16 where w x h are the scaled image dimensions.
- compress_news_images_auto_size = 16¶
De factor gebruikt bij automatisch comprimeren van JPEG afbeeldingen. Indien ingesteld op Geen, is automatische compressie uitgeschakeld. Anders worden afbeeldingen verkleind naar (w*h)/compress_news_images_auto_size bytes indien mogelijk door verlaging kwaliteitsniveau, waarbij w x h de afbeeldingsdimensies in pixels zijn. Minimale JPEG-kwaliteit is 5/100, deze beperking wordt dus mogelijk niet gehaald. Deze parameter kan genegeerd worden door de parameter compress_news_images_max_size die een vaste maximumgrootte voor afbeeldingen biedt. Merk op dat als u scale_news_images_to_device inschakelt, de afbeelding eerst geschaald wordt en dan de kwaliteit verlaagd totdat de grootte minder is dan (w * h)/factor, waarbij w en h nu de afmetingen van de geschaalde afbeelding zijn. Met andere woorden, deze compressie gebeurt na het schalen.
- compress_news_images_max_size = None¶
Stel JPEG-kwaliteit in zodat afbeeldingen de gegeven grootte (in KBytes) niet overschrijden. Indien ingesteld, negeert deze parameter automatische compressie via compress_news_images_auto_size. De minimale JPEG-kwaliteit is 5/100, deze beperking wordt dus mogelijk niet gehaald.
- conversion_options = {}¶
Receptspecifieke opties om de conversie van de gedownloade content naar een e-book te sturen. Deze zullen elke door gebruiker of plugin opgegeven waarden overschrijven, dus alleen gebruiken als dit absoluut noodzakelijk is. Bijvoorbeeld:
conversion_options = { 'base_font_size' : 16, 'linearize_tables' : True, }
- cover_margins = (0, 0, '#ffffff')¶
Standaard wordt de omslagafbeelding teruggegeven door get_cover_url() gebruikt als omslag voor het tijdschrift. Dit negeren in uw recept zegt calibre de gedownloade omslag in een frame weer te geven waar breedte en hoogte zijn uitgedrukt als een percentage van de gedownloade omslag. cover_margins = (10, 15, ‘#ffffff’) geeft de hoes een witte marge van 10px links en rechts, 15px boven en onder. Kleurnamen gedefinieerd hier. Merk op dat om welke reden dan ook wit niet altijd werkt in Windows. Gebruik in plaats daarvan #ffffff
- delay = 0¶
The default delay between consecutive downloads in seconds. The argument may be a floating point number to indicate a more precise time. See
get_url_specific_delay()
to implement per URL delays.
- description = ''¶
Een paar regels die de inhoud beschrijven die door dit recept wordt gedownload. Dit wordt voornamelijk gebruikt in een GUI die een lijst met recepten aanbiedt.
- encoding = None¶
Geef een overschrijf-codering op voor sites met een onjuiste karakterset-specificatie. De meest gebruikelijke is ‘latin1` opgeven en “cp1252” gebruiken. Als None, probeer de codering te detecteren. Als het een aanroepbare is, wordt deze aangeroepen met twee argumenten: het receptobject en de bron die moet worden gedecodeerd. Het moet de gedecodeerde bron retourneren.
- extra_css = None¶
Specificeer elke extra CSS die toegevoegd moet worden aan gedownloadde HTML. Het wordt ingevoegd in <style> tags, net voor de sluit </head> tag daarbij alle CSS negerend behalve wat is aangegeven met gebruik van het stijl attribuut bij individuele HTML tags. Merk op dat als u programmatisch de extra_css wilt genereren, negeer de
get_extra_css()
methode. Bv.:extra_css = '.heading { font: serif x-large }'
- feeds = None¶
Lijst met feeds om te downloaden. Kan zowel
[url1, url2, ...]
als[('title1', url1), ('title2', url2),...]
zijn
- filter_regexps = []¶
List of regular expressions that determines which links to ignore. If empty it is ignored. Used only if is_link_wanted is not implemented. For example:
filter_regexps = [r'ads\.doubleclick\.net']
verwijdert alle URLs met ads.doubleclick.net erin.
Maar één van
BasicNewsRecipe.match_regexps
ofBasicNewsRecipe.filter_regexps
mag gedefinieerd zijn.
- handle_gzip = True¶
Set to False if you do not want to use gzipped transfers with the mechanize browser. Note that some old servers flake out with gzip.
- ignore_duplicate_articles = None¶
Negeer dubbels van artikels die in meermaals aanwezig zijn. Een dubbel artikel is een artikel dat dezelfde titel en/of URL heeft. Om artikelen met dezelfde titel te negeren, stel dit in op:
ignore_duplicate_articles = {'title'}
Om in plaats daarvan URL’s te gebruiken, stel het in op:
ignore_duplicate_articles = {'url'}
Om te matchen op titel of URL, stel het in op:
ignore_duplicate_articles = {'title', 'url'}
- keep_only_tags = []¶
Behoud enkel de gespecificeerde tags en hun kinderen. Voor het formaat om een tag te specificeren, zie
BasicNewsRecipe.remove_tags
. Als deze lijst niet leeg is, wordt de <body> tag geleegd en hervuld met de tags die overeenkomen met de vermeldingen in deze lijst. Bv.:keep_only_tags = [dict(id=['content', 'heading'])]
behoud enkel tags die een id attribuut hebben van “content” of “heading”.
- language = 'und'¶
De taal van het nieuws. Moet een ISO-639 code zijn, twee of drie karakters lang
- masthead_url = None¶
By default, calibre will use a default image for the masthead (Kindle only). Override this in your recipe to provide a URL to use as a masthead.
- match_regexps = []¶
Lijst met reguliere expressies die bepaalt welke links te volgen. Wordt genegeerd indien leeg. Enkel gebruikt als is_link_wanted niet geïmplementeerd is. Bv.:
match_regexps = [r'page=[0-9]+']
komt overeen met alle URLs die page=some number becatten.
Maar één van
BasicNewsRecipe.match_regexps
ofBasicNewsRecipe.filter_regexps
mag gedefinieerd zijn.
- max_articles_per_feed = 100¶
Maximaal aantal artikelen te downloaden van elke feed. Dit is vooral bruikbaar voor feeds die geen artikeldatum hebben. Voor de meeste feeds moet u
BasicNewsRecipe.oldest_article
gebruiken
- needs_subscription = False¶
If True the GUI will ask the user for a username and password to use while downloading. If set to “optional” the use of a username and password becomes optional
- no_stylesheets = False¶
Convenient flag to disable loading of stylesheets for websites that have overly complex stylesheets unsuitable for conversion to e-book formats. If True stylesheets are not downloaded and processed
- oldest_article = 7.0¶
Oldest article to download from this news source. In days.
- preprocess_regexps = []¶
List of regexp substitution rules to run on the downloaded HTML. Each element of the list should be a two element tuple. The first element of the tuple should be a compiled regular expression and the second a callable that takes a single match object and returns a string to replace the match. For example:
preprocess_regexps = [ (re.compile(r'<!--Article ends here-->.*</body>', re.DOTALL|re.IGNORECASE), lambda match: '</body>'), ]
will remove everything from <!–Article ends here–> to </body>.
- publication_type = 'unknown'¶
Publication type Set to newspaper, magazine or blog. If set to None, no publication type metadata will be written to the opf file.
- recipe_disabled = None¶
Set to a non empty string to disable this recipe. The string will be used as the disabled message
- recipe_specific_options = None¶
Specify options specific to this recipe. These will be available for the user to customize in the Advanced tab of the Fetch News dialog or at the ebook-convert command line. The options are specified as a dictionary mapping option name to metadata about the option. For example:
recipe_specific_options = { 'edition_date': { 'short': 'The issue date to download', 'long': 'Specify a date in the format YYYY-mm-dd to download the issue corresponding to that date', 'default': 'current', } }
When the recipe is run, self.recipe_specific_options will be a dict mapping option name to the option value specified by the user. When the option is unspecified by the user, it will have the value specified by ‘default’. If no default is specified, the option will not be in the dict at all, when unspecified by the user.
- recursions = 0¶
Number of levels of links to follow on article webpages
- remove_attributes = []¶
List of attributes to remove from all tags. For example:
remove_attributes = ['style', 'font']
- remove_empty_feeds = False¶
If True empty feeds are removed from the output. This option has no effect if parse_index is overridden in the sub class. It is meant only for recipes that return a list of feeds using feeds or
get_feeds()
. It is also used if you use the ignore_duplicate_articles option.
- remove_javascript = True¶
Convenient flag to strip all JavaScript tags from the downloaded HTML
- remove_tags = []¶
List of tags to be removed. Specified tags are removed from downloaded HTML. A tag is specified as a dictionary of the form:
{ name : 'tag name', #e.g. 'div' attrs : a dictionary, #e.g. {'class': 'advertisment'} }
All keys are optional. For a full explanation of the search criteria, see Beautiful Soup A common example:
remove_tags = [dict(name='div', class_='advert')]
This will remove all <div class=”advert”> tags and all their children from the downloaded HTML.
- remove_tags_after = None¶
Remove all tags that occur after the specified tag. For the format for specifying a tag see
BasicNewsRecipe.remove_tags
. For example:remove_tags_after = [dict(id='content')]
will remove all tags after the first element with id=”content”.
- remove_tags_before = None¶
Remove all tags that occur before the specified tag. For the format for specifying a tag see
BasicNewsRecipe.remove_tags
. For example:remove_tags_before = dict(id='content')
will remove all tags before the first element with id=”content”.
- requires_version = (0, 6, 0)¶
Minimaal benodigde Calibre versie om dit recept te gebruiken
- resolve_internal_links = False¶
If set to True then links in downloaded articles that point to other downloaded articles are changed to point to the downloaded copy of the article rather than its original web URL. If you set this to True, you might also need to implement
canonicalize_internal_url()
to work with the URL scheme of your particular website.
- reverse_article_order = False¶
Volgorde van artikelen omdraaien in iedere feed
- scale_news_images = None¶
Maximum dimensions (w,h) to scale images to. If scale_news_images_to_device is True this is set to the device screen dimensions set by the output profile unless there is no profile set, in which case it is left at whatever value it has been assigned (default None).
- scale_news_images_to_device = True¶
Rescale images to fit in the device screen dimensions set by the output profile. Ignored if no output profile is set.
- simultaneous_downloads = 5¶
Number of simultaneous downloads. Set to 1 if the server is picky. Automatically reduced to 1 if
BasicNewsRecipe.delay
> 0
- summary_length = 500¶
Maximum aantal tekens om te gebruiken in korte omschrijving
- template_css = '\n .article_date {\n color: gray; font-family: monospace;\n }\n\n .article_description {\n text-indent: 0pt;\n }\n\n a.article {\n font-weight: bold; text-align:left;\n }\n\n a.feed {\n font-weight: bold;\n }\n\n .calibre_navbar {\n font-family:monospace;\n }\n '¶
The CSS that is used to style the templates, i.e., the navigation bars and the Tables of Contents. Rather than overriding this variable, you should use extra_css in your recipe to customize look and feel.
- timefmt = ' [%a, %d %b %Y]'¶
The format string for the date shown on the first page. By default: Day_Name, Day_Number Month_Name Year
- timeout = 120.0¶
Timeout voor ophalen van bestanden van de server in seconden
- title = 'Onbekende nieuwsbron'¶
The title to use for the e-book
- use_embedded_content = None¶
Normally we try to guess if a feed has full articles embedded in it based on the length of the embedded content. If None, then the default guessing is used. If True then the we always assume the feeds has embedded content and if False we always assume the feed does not have embedded content.