Ефективний спосіб розбору HTML-списків з використанням Beautifulsoup

4 Березня 2024 в 16:19 229

У світі веб-розробки часто доводиться мати справу з великим обсягом HTML-коду, який потрібно розібрати та обробити. У таких випадках важливо вміти ефективно використовувати інструменти, які дозволяють працювати з HTML-структурою без зайвих труднощів. Один із таких інструментів – це Beautifulsoup, популярна бібліотека для парсингу HTML та XML даних у Python.

У цій статті ми розглянемо практичний приклад використання Beautifulsoup для розбору HTML-списків та витягнення окремих елементів з вкладеними маркерами. Ми розглянемо вихідну задачу, зокрема, як очистити список від всіх маркерів та підмаркерів та отримати бажаний результат у вигляді списків з окремими елементами.

Згідно з поставленим завданням, у нас є HTML-документ з різними заголовками та списками, які містять маркери та підмаркери:

&lt;h1&gt;HEADER1&lt;/h1&gt;
&lt;ul&gt;
&lt;li&gt;the virus killed 56&lt;/li&gt;
&lt;li&gt;
Global press
&lt;a href="https://www.example.com"&gt;highlight&lt;/a&gt;
hundreds of dogs jumping
&lt;ul&gt;
&lt;li&gt;
A Twitter user
&lt;a href="http://example.com/xad/status/sda"&gt;posts&lt;/a&gt;
photos of cats
&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ul&gt;
...

<h1>HEADER1</h1>

<ul>

<li>the virus killed 56</li>

<li>

Global press

<a href="https://www.example.com">highlight</a>

hundreds of dogs jumping

<ul>

<li>

A Twitter user

<a href="http://example.com/xad/status/sda">posts</a>

photos of cats

</li>

</ul>

</li>

</ul>

...

Мета – розібрати ці списки та отримати окремі елементи без маркерів та підмаркерів. Наприклад, для заголовка HEADER1 бажаний результат має виглядати так:

header1_posts = [
    &lt;li&gt;the virus killed 56&lt;/li&gt;,
    &lt;li&gt;Global press
    &lt;a href="https://www.example.com"&gt;highlight&lt;/a&gt;
    hundreds of dogs jumping&lt;/li&gt;,
    &lt;li&gt;A Twitter user
    &lt;a href="http://example.com/xad/status/sda"&gt;posts&lt;/a&gt;
    photos of cats&lt;/li&gt;
]

header1_posts = [

<li>the virus killed 56</li>,

<li>Global press

<a href="https://www.example.com">highlight</a>

hundreds of dogs jumping</li>,

<li>A Twitter user

<a href="http://example.com/xad/status/sda">posts</a>

photos of cats</li>

]

Для досягнення цієї мети ми можемо використовувати Beautifulsoup разом з Python для парсингу HTML-коду та витягнення потрібних елементів. Перш за все, нам необхідно імпортувати бібліотеку та створити об’єкт Beautifulsoup з нашим HTML-кодом:

from bs4 import BeautifulSoup
html_content = """тут наш HTML-код"""
soup = BeautifulSoup(html_content, 'html.parser')

from bs4 import BeautifulSoup

html_content = """тут наш HTML-код"""

soup = BeautifulSoup(html_content, 'html.parser')

Потім ми можемо знаходити всі теги <h1> та <ul>, які містять наші заголовки та списки:

headers = soup.find_all('h1')
lists = soup.find_all('ul')

1 2	headers = soup.find_all('h1') lists = soup.find_all('ul')

Далі ми можемо обробити кожен список окремо та витягнути потрібні елементи без маркерів та підмаркерів:

for header, list_content in zip(headers, lists):
    header_text = header.text
    items = list_content.find_all('li')
    # Далі обробляємо кожен елемент та додаємо його до відповідного списку

for header, list_content in zip(headers, lists):

header_text = header.text

items = list_content.find_all('li')

# Далі обробляємо кожен елемент та додаємо його до відповідного списку

Після цього ми можемо зібрати всі отримані елементи в окремі списки для кожного заголовка:

header1_posts = [...]
header2_posts = [...]
header3_posts = [...]

header1_posts = [...]

header2_posts = [...]

header3_posts = [...]

У результаті ми отримаємо окремі списки з елементами без маркерів та підмаркерів для кожного заголовка, як було запитано в поставленій задачі.

Таким чином, використання Beautifulsoup разом з Python дозволяє ефективно розбирати HTML-структури та витягувати потрібні дані для подальшої обробки.

Останні новини

Збувала метадон у власному дворі: у Вознесенську поліцейські затримали 55-річну жінку

19 Грудня 2025 в 12:29

У Вознесенську чоловік погрожував підірвати співмешканку гранатою: поліцейські затримали підозрюваного

4 Листопада 2025 в 16:54

Вознесенськ – Місто-герой України!

1 Жовтня 2025 в 20:20

Читайте також

Як отримати від 100 грн за реєстрацію в Alliance Bank (БАНК АЛЬЯНС)

24 Грудня 2025 в 17:34

Графік відключень Південноукраїнськ

1 Листопада 2025 в 21:19

Графік відключень Миколаївська область

1 Листопада 2025 в 19:30