Dator
 |  Startsida |  Hårdvara |  Nätverk |  Programmering |  Programvara |  Felsökning |  System |   
Programmering
  • C /C + + -programmering
  • Computer Programspråk
  • Delphi Programmering
  • Java Programming
  • JavaScript programmering
  • PHP /MySQL Programmering
  • perl Programmering
  • python Programming
  • Ruby programmering
  • Visual Basics Programmering
  • * Dator Kunskap >> Programmering >> python Programming >> Content

    Hur man använder html5lib i Python

    programmeringsspråket Python kan stödja HTML 5 webbplatser som använder biblioteket " html5lib . " Detta bibliotek kan du skriva Python- skript som parse HTML 5 sidor med en trädstruktur . Trädstrukturer är hierarkiska vyer av webbsidor element . Åtkomst delar av webbsidan sker med hjälp av ett träd rullator . Trädet Walker " promenader " längs anslutningar trädnoder , och kan korsa hela trädet . Du kan använda Python med ' html5lib " att öppna, visa och skriva ut en HTML 5: s webbplats . Saker du behöver
    Python 3.2 programmeringsspråk med html5lib modul
    Visa fler instruktioner
    1

    Öppna IDLE textredigerare i Program Files ( eller Program för Macintosh ) i python katalogen . En tom källkod fil öppnar
    2

    Importera " html5lib " modulen genom att skriva följande uttalanden på toppen av källkoden filen : .

    Import html5lib

    från html5lib import treebuilders , treewalkers , serializer

    import urllib2
    3

    Skapa en ny HTML 5 -tolk , som du använder för att läsa ett HTML- webbplats . Deklarera en ny parser genom att skriva följande :

    parser = html5lib.HTMLParser ( )
    4

    Öppna en webbplats genom att skicka sitt namn i urllib2.urlopen funktionen . Till exempel , om du vill öppna " www.website_adddress.com , " skriver följande : .

    URL = urllib2.urlopen ( " http://www.website_address.com " ) läste ( )

    5

    Passera hemsidan i HTML 5 -tolken att få ett träd representation . Spara denna representation i en variabel som heter " tree " genom att skriva följande uttalande :

    tree = parser.parse ( URL )
    6

    Skapa ett träd walker så här :

    treeWalker = treewalkers.getTreeWalker ( " dom " )
    7

    Gå igenom trädet med trädet walker . Trädet rullator kommer tillbaka en ström av information som det upptäcker i HTML 5 hemsida . Att gå igenom trädet , skriver följande :

    stream = treeWalker ( träd )
    8

    Serialisera strömmen så att du enkelt kan mata dem till konsolen . Du kan serialisera strömmen med hjälp av följande två påståenden :

    seriella = serializer.htmlserializer.HTMLSerializer ( omit_optional_tags = False ) katalog

    utgång = serial.serialize ( stream )
    9

    iterera genom serialized utgången av strömmen så här :

    för element i produktionen :
    10

    indrag raden omedelbart efter det tidigare uttalandet och skriv en utskriftsfunktion , som detta :

    print (element )
    11

    Kör programmet genom att trycka på F5 . Manuset kommer att öppna och sedan tolka ett HTML 5 webbsida . Skriptet serialiserar sedan trädstrukturen på sidan och matar dem till konsolen . Utgången kommer att variera beroende på vald webbsida , men kan se ut ungefär så här :



    < /head >


    Välkommen till en webbsida !

    < /body>

    < /html >


    Tidigare:

    nästa:
    relaterade artiklar
    ·Hur man gör en klocka i Python
    ·Hur man skriver ut listor i Python
    ·Hur man programmerar en E Spider i Python
    ·Hur man gör en sträng till en webbadress i Django
    ·Hur man utarbeta ett program för att beräkna elevbety…
    ·Hur kopiera en lista med Python Syntax
    ·Hur man drar en rak linje i Python Turtle
    ·Hur får Funktioner av ett objekt i Python
    ·Python Resources
    ·Hur göra en Hög Låg spelet i Python
    Utvalda artiklarna
    ·Vad är en ctyp Header
    ·Hur vill kolla om en databas existerar i PHP
    ·Hur man kompilerar en CPP Med en header-fil
    ·Vad är Visual Basic terminologier
    ·Hur Börja Visual Basic
    ·Hur Tillåt Åsidosättning PHP
    ·Hur man skapar en användare i Active Directory med Vis…
    ·Hur justera texten åt vänster i COBOL
    ·Hur du använder banners och dekaler i GTK Radiant
    ·Hur man skriver en rekursiv funktion Index Max
    Copyright © Dator Kunskap http://www.dator.xyz