OpenOffice har inte en enda, inbyggd funktion för att extrahera endast rubriker (H2 och H3) från en 100-sidars HTML-fil. Du måste använda en kombination av funktioner eller ett externt verktyg. Här är några tillvägagångssätt:

1. Använda OpenOffice Writers "Hitta och ersätt" (begränsad och tråkig):

Denna metod är möjlig för en mindre fil, men mycket opraktisk för en 100-sidars HTML-fil.

* Import: Öppna HTML -filen i OpenOffice -författaren. Det kommer sannolikt att bevara formateringen, inklusive rubriker.

* Hitta och ersätt (iterativ): Utför en "Hitta och ersätt" -operation.

* hitta: `

.*?

`(Detta hittar allt mellan`

`och`

`Taggar. `.*? 'Är ett regelbundet uttryck för icke-greedi för att undvika att av misstag matcha flera`

`sektioner)
* Ersätt: Håll det här fältet tomt. Klicka på "Ersätt alla." Detta kommer att ta bort innehållet men * inte * rubriken. Upprepa för `

`taggar.
* Upprepa: Du måste då ta bort allt * utom * rubrikerna. Detta är mycket tidskrävande för en stor fil.

2. Använda OpenOffice Calc och Regular Expressions (mer avancerade, men potentiellt bättre):

Detta tillvägagångssätt är mer automatiserat men kräver viss kännedom om regelbundna uttryck och kalkylfunktioner.

* import (som text): Öppna HTML -filen i OpenOffice Calc. Importera den som vanlig text, inte HTML, för att undvika formateringsproblem. Det kommer förmodligen att importera som en enda, mycket lång cell.
* Dela texten: Använd funktionen "TextSplit" (tillgänglig i nyare versioner av OpenOffice) för att dela texten i rader baserat på en avgränsare som vagnens retur (`\ n`). Detta ger dig en rad per rad HTML -kod (ungefär).
* Regelbundna uttryck (med `regex`): Använd OpenOffices "Regex" -funktion (liknande Excel's "RegExmatch" eller "RegExextract" beroende på din version) i en ny kolumn. Formeln ska extrahera rubriktexten. Ett exempel:`=Regex (A1,"

(.*?)

"; 2)`

* Denna formel söker efter `

`eller`

`taggar, fånga innehållet inom. `|` Fungerar som en "eller" operatör. `(.*?)` Fångar innehållet icke-skrämmande. `2 'extraherar den andra fångstgruppen; Om bara "

`konstaterades att det skulle vara en tom sträng.
* Filtrera och rengör: Filtrera för icke-tomma celler för att ta bort poster utan rubriker hittades. Du kommer fortfarande att behöva lite manuell rengöring för att ta bort eventuella extra vitrum eller stray -tecken från resultaten.

3. Använda externa verktyg (rekommenderas):

Detta är den överlägset den enklaste och mest effektiva metoden för en stor fil. Använd ett dedikerat textbehandlingsverktyg eller skriptspråk som Python:

* python med `vacker soppa ': Python, med det "vackra soppa" -biblioteket, är utmärkt för att analysera HTML. Ett kort skript kan bara extrahera taggarna "H2" och "H3" och deras innehåll. Många online -tutorials visar hur man gör detta.

Exempel Python -skript:

`` `python
från BS4 Importera vackra

med öppen ("your_100page_html_file.html", "r", kodning ="utf-8") som f:
html =f.read ()

soppa =vackra (html, "html.parser")

rubriker =[]
för H2 i soppa.find_all ("H2"):
Rubriker.Append (H2.Text.Strip ())
för H3 i soppa.find_all ("H3"):
Rubriker.Append (H3.Text.Strip ())

med öppen ("Extracted_headings.txt", "w", kodning ="utf-8") som outfile:
för rubriker i rubrikerna:
outfile.write (rubrik + "\ n")

utskrift ("Rubriker extraherade till extraherade_headings.txt")
`` `

Kom ihåg att ersätta `" your_100page_html_file.html "` med ditt faktiska filnamn. Du måste installera `vacker soppa ':` pip install vackra opport

Python -metoden rekommenderas starkt för dess effektivitet och noggrannhet. OpenOffice -metoderna är betydligt mer besvärliga för en fil av denna storlek.

Tidigare: Vilka är några olika typer av linjeavstånd du kan använda i ett dokument?

nästa: Vilka är fördelarna med att använda en dokument plan?

relaterade artiklar

·	Hur fungerar PDF-kryptering Arbete
·	Hur översätter en PDF-fil från engelska till spanska…
·	PowerPoint till PDF konvertering
·	Hur konvertera en DWG -fil till en PDF -fil
·	Hur konvertera HTML till PDF i Python
·	Konvertera PDF till MS Publisher
·	Hur man sparar som PDF från MS Word
·	Hur man tar bort vattenstämplar från en Adobe PDF
·	Vilket format används för att visa icke-valuta-nummer…
·	Konvertera en PDF till en TIFF i ImageMagick

Utvalda artiklarna

·	Vilken roll har data i informationssystem och företag?…
·	Kan en person i USA använda PayPal kanada?
·	Hur du spelar in betalningar till leverantörer i SPCS
·	Hur extrahera ljud från en Adobe Flash Video
·	Inaktivera Google cookies
·	Vad är skillnaden mellan en TIF & en PDF
·	Hur Säkerhetskopiera Mozilla Thunderbird
·	Hur man öppnar en MDI formaterat dokument
·	Hur man gör en Keynote-presentation på en Mac
·	Semantisk kodning hänvisar till behandlingen av?

Jag har en lång 100pg HTML -fil och vill behålla bara rubrikerna, dvs H2 H3 Hur gör det med ett öppet kontor?

.*?

`och`

`sektioner) * Ersätt: Håll det här fältet tomt. Klicka på "Ersätt alla." Detta kommer att ta bort innehållet men * inte * rubriken. Upprepa för `

(.*?)

(.*?)

`eller`

`taggar, fånga innehållet inom. `|` Fungerar som en "eller" operatör. `(.*?)` Fångar innehållet icke-skrämmande. `2 'extraherar den andra fångstgruppen; Om bara "

`sektioner)
* Ersätt: Håll det här fältet tomt. Klicka på "Ersätt alla." Detta kommer att ta bort innehållet men * inte * rubriken. Upprepa för `