OpenOffice har inte en enda, inbyggd funktion för att extrahera endast rubriker (H2 och H3) från en 100-sidars HTML-fil. Du måste använda en kombination av funktioner eller ett externt verktyg. Här är några tillvägagångssätt:
1. Använda OpenOffice Writers "Hitta och ersätt" (begränsad och tråkig):
Denna metod är möjlig för en mindre fil, men mycket opraktisk för en 100-sidars HTML-fil.
* Import: Öppna HTML -filen i OpenOffice -författaren. Det kommer sannolikt att bevara formateringen, inklusive rubriker.
* Hitta och ersätt (iterativ): Utför en "Hitta och ersätt" -operation.
* hitta: `
.*?
`(Detta hittar allt mellan`
`och`
`Taggar. `.*? 'Är ett regelbundet uttryck för icke-greedi för att undvika att av misstag matcha flera`
`sektioner)
* Ersätt: Håll det här fältet tomt. Klicka på "Ersätt alla." Detta kommer att ta bort innehållet men * inte * rubriken. Upprepa för `
`taggar.
* Upprepa: Du måste då ta bort allt * utom * rubrikerna. Detta är mycket tidskrävande för en stor fil.
2. Använda OpenOffice Calc och Regular Expressions (mer avancerade, men potentiellt bättre):
Detta tillvägagångssätt är mer automatiserat men kräver viss kännedom om regelbundna uttryck och kalkylfunktioner.
* import (som text): Öppna HTML -filen i OpenOffice Calc. Importera den som vanlig text, inte HTML, för att undvika formateringsproblem. Det kommer förmodligen att importera som en enda, mycket lång cell.
* Dela texten: Använd funktionen "TextSplit" (tillgänglig i nyare versioner av OpenOffice) för att dela texten i rader baserat på en avgränsare som vagnens retur (`\ n`). Detta ger dig en rad per rad HTML -kod (ungefär).
* Regelbundna uttryck (med `regex`): Använd OpenOffices "Regex" -funktion (liknande Excel's "RegExmatch" eller "RegExextract" beroende på din version) i en ny kolumn. Formeln ska extrahera rubriktexten. Ett exempel:`=Regex (A1,"
(.*?)
|
(.*?)
"; 2)`
* Denna formel söker efter `
`eller` `taggar, fånga innehållet inom. `|` Fungerar som en "eller" operatör. `(.*?)` Fångar innehållet icke-skrämmande. `2 'extraherar den andra fångstgruppen; Om bara " `konstaterades att det skulle vara en tom sträng.
* Filtrera och rengör: Filtrera för icke-tomma celler för att ta bort poster utan rubriker hittades. Du kommer fortfarande att behöva lite manuell rengöring för att ta bort eventuella extra vitrum eller stray -tecken från resultaten.
3. Använda externa verktyg (rekommenderas):
Detta är den överlägset den enklaste och mest effektiva metoden för en stor fil. Använd ett dedikerat textbehandlingsverktyg eller skriptspråk som Python:
* python med `vacker soppa ': Python, med det "vackra soppa" -biblioteket, är utmärkt för att analysera HTML. Ett kort skript kan bara extrahera taggarna "H2" och "H3" och deras innehåll. Många online -tutorials visar hur man gör detta.
Exempel Python -skript:
`` `python
från BS4 Importera vackra
med öppen ("your_100page_html_file.html", "r", kodning ="utf-8") som f:
html =f.read ()
soppa =vackra (html, "html.parser")
rubriker =[]
för H2 i soppa.find_all ("H2"):
Rubriker.Append (H2.Text.Strip ())
för H3 i soppa.find_all ("H3"):
Rubriker.Append (H3.Text.Strip ())
med öppen ("Extracted_headings.txt", "w", kodning ="utf-8") som outfile:
för rubriker i rubrikerna:
outfile.write (rubrik + "\ n")
utskrift ("Rubriker extraherade till extraherade_headings.txt")
`` `
Kom ihåg att ersätta `" your_100page_html_file.html "` med ditt faktiska filnamn. Du måste installera `vacker soppa ':` pip install vackra opport
Python -metoden rekommenderas starkt för dess effektivitet och noggrannhet. OpenOffice -metoderna är betydligt mer besvärliga för en fil av denna storlek.