|  Startsida |  Hårdvara |  Nätverk |  Programmering |  Programvara |  Felsökning |  System |   
Programvara
  • Adobe Illustrator
  • animation Software
  • antivirusprogram
  • ljudprogram
  • Säkerhetskopiera data
  • Bränn CD-skivor
  • Bränn DVD
  • Data Compression
  • Database Software
  • Desktop Publishing
  • Desktop Video
  • Digital Video Software
  • Drupal
  • Educational Software
  • Engineering Software
  • Filtillägg Typer
  • Financial Software
  • Freeware , Shareware & Abandonware
  • GIMP
  • Graphics Software
  • Home Recording Software
  • Microsoft Access
  • Microsoft Excel
  • Microsoft Publisher
  • Microsoft Word
  • Open Source Code
  • Andra datorprogram
  • PC-spel
  • Photoshop
  • Portable Document Format
  • PowerPoint
  • presentationsprogram
  • Produktivitet Software
  • quicktime
  • Remote Desktop Management
  • SQL Server
  • Skype
  • Programvara betaversioner
  • Programvara Konsulter
  • Software Development Companies
  • Software Licensing
  • Spreadsheets
  • Skatt förberedelse programvara
  • Utility Software
  • Web Clip Art
  • Windows Media Player
  • Ordbehandlingsprogram
  • Facebook
  • Twitter
  • Instagram
  • LinkedIn
  • TikTok
  • WhatsApp
  • WordPress
  • Chrome
  • Discord
  • Amazon
  • * Dator Kunskap >> Programvara >> Portable Document Format >> Content

    Jag har en lång 100pg HTML -fil och vill behålla bara rubrikerna, dvs H2 H3 Hur gör det med ett öppet kontor?

    OpenOffice har inte en enda, inbyggd funktion för att extrahera endast rubriker (H2 och H3) från en 100-sidars HTML-fil. Du måste använda en kombination av funktioner eller ett externt verktyg. Här är några tillvägagångssätt:

    1. Använda OpenOffice Writers "Hitta och ersätt" (begränsad och tråkig):

    Denna metod är möjlig för en mindre fil, men mycket opraktisk för en 100-sidars HTML-fil.

    * Import: Öppna HTML -filen i OpenOffice -författaren. Det kommer sannolikt att bevara formateringen, inklusive rubriker.

    * Hitta och ersätt (iterativ): Utför en "Hitta och ersätt" -operation.

    * hitta: `

    .*?

    `(Detta hittar allt mellan`

    `och`

    `Taggar. `.*? 'Är ett regelbundet uttryck för icke-greedi för att undvika att av misstag matcha flera`

    `sektioner)

    * Ersätt: Håll det här fältet tomt. Klicka på "Ersätt alla." Detta kommer att ta bort innehållet men * inte * rubriken. Upprepa för `

    `taggar.

    * Upprepa: Du måste då ta bort allt * utom * rubrikerna. Detta är mycket tidskrävande för en stor fil.

    2. Använda OpenOffice Calc och Regular Expressions (mer avancerade, men potentiellt bättre):

    Detta tillvägagångssätt är mer automatiserat men kräver viss kännedom om regelbundna uttryck och kalkylfunktioner.

    * import (som text): Öppna HTML -filen i OpenOffice Calc. Importera den som vanlig text, inte HTML, för att undvika formateringsproblem. Det kommer förmodligen att importera som en enda, mycket lång cell.

    * Dela texten: Använd funktionen "TextSplit" (tillgänglig i nyare versioner av OpenOffice) för att dela texten i rader baserat på en avgränsare som vagnens retur (`\ n`). Detta ger dig en rad per rad HTML -kod (ungefär).

    * Regelbundna uttryck (med `regex`): Använd OpenOffices "Regex" -funktion (liknande Excel's "RegExmatch" eller "RegExextract" beroende på din version) i en ny kolumn. Formeln ska extrahera rubriktexten. Ett exempel:`=Regex (A1,"

    (.*?)

    |

    (.*?)

    "; 2)`

    * Denna formel söker efter `

    `eller`

    `taggar, fånga innehållet inom. `|` Fungerar som en "eller" operatör. `(.*?)` Fångar innehållet icke-skrämmande. `2 'extraherar den andra fångstgruppen; Om bara "

    `konstaterades att det skulle vara en tom sträng.

    * Filtrera och rengör: Filtrera för icke-tomma celler för att ta bort poster utan rubriker hittades. Du kommer fortfarande att behöva lite manuell rengöring för att ta bort eventuella extra vitrum eller stray -tecken från resultaten.

    3. Använda externa verktyg (rekommenderas):

    Detta är den överlägset den enklaste och mest effektiva metoden för en stor fil. Använd ett dedikerat textbehandlingsverktyg eller skriptspråk som Python:

    * python med `vacker soppa ': Python, med det "vackra soppa" -biblioteket, är utmärkt för att analysera HTML. Ett kort skript kan bara extrahera taggarna "H2" och "H3" och deras innehåll. Många online -tutorials visar hur man gör detta.

    Exempel Python -skript:

    `` `python

    från BS4 Importera vackra

    med öppen ("your_100page_html_file.html", "r", kodning ="utf-8") som f:

    html =f.read ()

    soppa =vackra (html, "html.parser")

    rubriker =[]

    för H2 i soppa.find_all ("H2"):

    Rubriker.Append (H2.Text.Strip ())

    för H3 i soppa.find_all ("H3"):

    Rubriker.Append (H3.Text.Strip ())

    med öppen ("Extracted_headings.txt", "w", kodning ="utf-8") som outfile:

    för rubriker i rubrikerna:

    outfile.write (rubrik + "\ n")

    utskrift ("Rubriker extraherade till extraherade_headings.txt")

    `` `

    Kom ihåg att ersätta `" your_100page_html_file.html "` med ditt faktiska filnamn. Du måste installera `vacker soppa ':` pip install vackra opport

    Python -metoden rekommenderas starkt för dess effektivitet och noggrannhet. OpenOffice -metoderna är betydligt mer besvärliga för en fil av denna storlek.

    Tidigare:

    nästa:
    relaterade artiklar
    ·Hur fungerar PDF-kryptering Arbete
    ·Hur översätter en PDF-fil från engelska till spanska…
    ·PowerPoint till PDF konvertering
    ·Hur konvertera en DWG -fil till en PDF -fil
    ·Hur konvertera HTML till PDF i Python
    ·Konvertera PDF till MS Publisher
    ·Hur man sparar som PDF från MS Word
    ·Hur man tar bort vattenstämplar från en Adobe PDF
    ·Vilket format används för att visa icke-valuta-nummer…
    ·Konvertera en PDF till en TIFF i ImageMagick
    Utvalda artiklarna
    ·Vilken roll har data i informationssystem och företag?…
    ·Kan en person i USA använda PayPal kanada?
    ·Hur du spelar in betalningar till leverantörer i SPCS
    ·Hur extrahera ljud från en Adobe Flash Video
    ·Inaktivera Google cookies
    ·Vad är skillnaden mellan en TIF & en PDF
    ·Hur Säkerhetskopiera Mozilla Thunderbird
    ·Hur man öppnar en MDI formaterat dokument
    ·Hur man gör en Keynote-presentation på en Mac
    ·Semantisk kodning hänvisar till behandlingen av?
    Copyright © Dator Kunskap https://www.dator.xyz