Вебинары Разобраться в IT Реферальная программа
Программирование Аналитика Дизайн Маркетинг Управление проектами
7 профессий по цене одной
07:05:47:06
дн. ч. мин. сек.
10 Июл 2023
3 мин
3759

Как парсить данные из HTML и XML в Python

Узнайте, как парсить данные из HTML и XML в Python с помощью популярных библиотек BeautifulSoup и lxml, с примерами кода!

Парсинг данных из HTML и XML является распространенной задачей в области Python-разработки. В этой статье мы рассмотрим основные инструменты и подходы для решения этой задачи.

Освойте Python на курсе от Skypro. Вас ждут 400 часов обучения и практики (достаточно десяти часов в неделю), подготовка проектов для портфолио, индивидуальная проверка домашних заданий и помощь опытных наставников. Получится, даже если у вас нет опыта в IT.

BeautifulSoup

BeautifulSoup — это популярная библиотека для парсинга HTML и XML документов. Она предоставляет простой и удобный интерфейс для извлечения данных из веб-страниц.

Установка

Для установки библиотеки BeautifulSoup выполните следующую команду:

pip install beautifulsoup4

Пример использования

from bs4 import BeautifulSoup

html_doc = """
<html>
<head>
<title>Тестовая страница</title>
</head>
<body>
<p class="title">Привет, мир!</p>
<p class="description">Это пример использования BeautifulSoup для парсинга HTML.</p>
</body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

# Получение текста внутри тега title
title = soup.title.string
print(title)  # Вывод: Тестовая страница

# Получение текста внутри тега с классом "title"
page_title = soup.find('p', class_='title').string
print(page_title)  # Вывод: Привет, мир!

lxml

lxml — это еще одна мощная библиотека для парсинга HTML и XML документов. Она предоставляет быстрый и эффективный парсер, основанный на C-библиотеках libxml2 и libxslt.

Установка

Для установки библиотеки lxml выполните следующую команду:

pip install lxml

На курсе Skypro «Python-разработчик» освоите основные инструменты программирования, получите опыт на реальных проектах и сможете стартовать в профессии уверенным новичком. Преподаватели — практикующие программисты с большим опытом, а в центре карьеры помогут составить цепляющее резюме и подготовиться к собеседованию.

Пример использования

from lxml import etree

xml_doc = """
<root>
  <element id="1">Элемент 1</element>
  <element id="2">Элемент 2</element>
  <element id="3">Элемент 3</element>
</root>
"""

root = etree.fromstring(xml_doc)

# Получение всех элементов с тегом "element"
elements = root.findall('element')

for element in elements:
    print(f'{element.attrib["id"]}: {element.text}')

# Вывод:
# 1: Элемент 1
# 2: Элемент 2
# 3: Элемент 3

Теперь вы знаете основные инструменты и подходы для парсинга данных из HTML и XML в Python. Не забывайте про практику, экспериментируйте и улучшайте свои навыки! 😊

Проверь как ты усвоил материалы статьи
Пройди тест и узнай насколько ты лучше других читателей

Добавить комментарий