Регулярные выражения: извлечение данных из тега HTML

Пройдите тест, узнайте какой профессии подходите

Сколько вам лет

До 18

От 18 до 24

От 25 до 34

От 35 до 44

От 45 до 49

От 50 до 54

Больше 55

Быстрый ответ

Для того чтобы выбрать конкретный отрезок текста, применяем скобки ( ) в регулярных выражениях, создавая тем самым захватывающие группы. Например, чтобы выделить число в тексте, ваш JavaScript код будет выглядеть так:

Скопировать код

const regex = /(\d+)/;
const str = "Пример 123";
const match = str.match(regex);

console.log(match[1]); // Вывод: 123

Функция match() извлекает число 123 с помощью захватывающей группы \d+, соответствующей числам. Обращаясь к match[1], получим нужный фрагмент текста.

Углубленные методы извлечения

Учёт регистра символов и проведение проверки на совпадения

Если в HTML-документе или в ваших данных регистр символов не имеет значения, примените флаг i для игнорирования различий в регистре. Перед обращением к захваченной группе убедитесь, что совпадение действительно найдено, чтобы предотвратить ошибки NoneType или undefined.

Скопировать код

const regex = /<title>(.*?)<\/title>/i; 
const str = "<title>Название моей страницы</title>";
const match = str.match(regex);

if (match) {
    console.log(match[1]); // Вывод: Название моей страницы
}

Гибкость в условиях различных структур

HTML-разметка может быть неидеально структурирована. Поэтому регулярные выражения должны быть довольно гибкими, чтобы учитывать возможные вариации.

Скопировать код

const regex = /<h[1-6]>(.*?)<\/h[1-6]>/;

Это регулярное выражение позволяет извлекать содержимое заголовков от <h1> до <h6>, независимо от их форматирования.

Beautiful Soup — надёжный помощник в парсинге HTML

Когда извлечение данных из HTML кажется сложной задачей, приходит на помощь библиотека Beautiful Soup. Оснащена всеми необходимыми инструментами для поиска и навигации по дереву документа.

Python

Скопировать код

from bs4 import BeautifulSoup

soup = BeautifulSoup(html_content, 'html.parser')
title_text = soup.title.string

Этот подход повышает читабельность и упрощает поддержку кода.

Обработка ошибок и производительность — наша ответственность

Не забывайте о внедрении обработки ошибок, чтобы надёжно обходить непредвиденные исключения.

При работе с большими объёмами данных помните об оптимизации шаблонов регулярных выражений для повышения производительности.

Захватывающие группы с небольшим секретом

Стартуя с Python 3.8, в язык был внедрен новый оператор присваивания — "моржовый оператор", осуществляющий одновременное присваивание и возврат значения.

Python

Скопировать код

import re

if (match := re.search(r'(\d+)', "Ответ – 42")):
    print(match.group(1))  // Вывод: 42, всегда 42.

В данном случае group(1) позволяет получить нужный вам фрагмент текста.

Визуализация

Рассмотрим извлечение определенного фрагмента текста как поиск сокровища:

Markdown

Скопировать код

Древний текст (📜): "Секретный код 'R2D2' – это то, что вам нужно."

Ваше регулярное выражение, как карта (🗺️): /секретный код '(\w+\d+)'/ 

Желаемое сокровище (💎): 'R2D2'

Захватывающие группы помогают нам найти сокровище:

Markdown

Скопировать код

🗺️ ➡️ 📜 ➡️ 💎
// Ваша "карта" регулярных выражений — инструкция по извлечению желаемого сокровища из текста.

Совершенствование навыков: продвинутые методы

Именованные группы для улучшения читаемости

Используя именованные захватывающие группы, можно улучшить читаемость регулярных выражений и обращаться к содержимому групп по именам, не по индексам.

Скопировать код

const regex = /(?<year>\d{4})-(?<month>\d{2})-(?<day>\d{2})/;
const str = "Дата события: 2021-08-17";
const match = str.match(regex);

console.log(match.groups.year); // Вывод: 2021

Условия и предпросмотры

Для подтверждения наличия определенных шаблонов в совпадении без их фактического захвата используйте предпросмотры и предпросмотры заднего вида.

Скопировать код

const regex = /(?<=\$)\d+/;

Переиспользование результатов

Вместо того чтобы проводить повторные операции, сохраняйте объекты совпадений для последующего использования, будь то в условных конструкциях или в дополнительной обработке.

Скопировать код

const regex = /(\d+)/;
const str = "Пример 123";
const match = str.match(regex);

if (match) {
    // Дополнительные операции с совпадением
}

Полезные материалы

Регулярные выражения – JavaScript | MDN — углубленное изучение регулярных выражений на JavaScript.
regex101: создание, тестирование и отладка регулярных выражений — веб-инструмент для тестирования и разработки регулярных выражений с обучающими комментариями.
Регулярные выражения :: Углублённый JavaScript — корректное использование регулярных выражений в JavaScript.
String.prototype.match() – JavaScript | MDN — документация по методу match.
ES2018: Именованные захватывающие группы в RegExp — об использовании именованных групп в JavaScript.
Regular-Expressions.info – Подробный учебник по регулярным выражениям — детальный учебник по регулярным выражениям.
RegexOne – Обучение регулярным выражениям — интерактивные учебные занятия для начинающих изучать регулярные выражения.

Проверь как ты усвоил материалы статьи

Пройди тест и узнай насколько ты лучше других читателей

Какое регулярное выражение используется для извлечения содержимого заголовков от <h1> до <h6>?

1 / 5

Свежие материалы

Что такое HTTP и HTTPS?

6 сентября 2024

Как установить и настроить Swift на Linux

6 сентября 2024

Коды состояния HTTP: что они значат?

6 сентября 2024

Регулярные выражения: извлечение данных из тега HTML

Быстрый ответ

Углубленные методы извлечения

Учёт регистра символов и проведение проверки на совпадения

Гибкость в условиях различных структур

Beautiful Soup — надёжный помощник в парсинге HTML

Обработка ошибок и производительность — наша ответственность

Захватывающие группы с небольшим секретом

Визуализация

Совершенствование навыков: продвинутые методы

Именованные группы для улучшения читаемости

Условия и предпросмотры

Переиспользование результатов

Полезные материалы

Загрузка...