Декодирование URL-адреса в UTF-8 в Python 2.7: примеры и решения

Пройдите тест, узнайте какой профессии подходите

Я предпочитаю
0%
Работать самостоятельно и не зависеть от других
Работать в команде и рассчитывать на помощь коллег
Организовывать и контролировать процесс работы

Быстрый ответ

Для декодирования URL, закодированных в UTF-8, в Python воспользуйтесь функцией urllib.parse.unquote.

Python
Скопировать код
from urllib.parse import unquote

# Теперь мы можем увидеть раскодированный символ галочки! ✓
print(unquote('%E2%9C%93'))

Вам просто нужно передать закодированный URL этой функции, и она выполнит всю работу за вас.

Кинга Идем в IT: пошаговый план для смены профессии

Процесс декодирования URL в UTF-8

Применение кодирования URL обеспечивает передачу данных в сети и позволяет использовать специальные и запрещённые символы внутри адресов. Используйте unquote для того, чтобы преобразовать закодированные URL обратно в читаемые строки.

Способы декодирования URL в UTF-8: Python 2 и Python 3

Python 3 использует метод urllib.parse.unquote для декодирования, в отличие от Python 2, в котором необходимо сначала применить urllib.unquote, а затем произвести ручное декодирование:

Python
Скопировать код
import urllib

# В Python 2 для этого придется ручками декодировать!
decoded_str = urllib.unquote(encoded_str).decode('utf8')
Подробнее об этом расскажет наш спикер на видео
skypro youtube speaker

Обработка специальных символов: подводные камни

Специальные символы в URL могут создать кое-какие трудности, но функция unquote решает эти проблемы, аккуратно преобразуя их обратно:

Python
Скопировать код
print(unquote('example.com?title=%D0%BF%D1%80%D0%B0%D0%B2%D0%BE%D0%B2%D0%B0%D1%8F+%D0%B7%D0%B0%D1%89%D0%B8%D1%82%D0%B0'))

# Вау! Теперь это выглядит как русское слово: example.com?title=правовая+защита

Не забывайте проверять, соответствует ли декодированный URL вашим изначальным ожиданиям.

Переход с Python 2 на Python 3

В процессе перехода с Python 2 на Python 3? Учтите, что в третьей версии модули urllib получили новые имена, например, urllib.request и urllib.parse.

HTML-сущности и декодирование URL

Обработка HTML-сущностей в URL может быть сложной задачей. Однако сочетание urllib и html.unescape поможет вам правильно обработать и эти случаи:

Python
Скопировать код
import html

# Для работы с HTML-сущностями пригодится html.unescape
decoded_html = html.unescape(urllib.parse.unquote(encoded_str))

Визуализация

Можно сравнить процесс декодирования URL с работой декодера, который переводит длинные строки символов в удобочитаемую форму.

Исходный закодированный URL: %E8%A7%A3%E7%A0%81

Ведь сначала это всё кажется бессмысленным набором символов: %E8%A7%A3%E7%A0%81

Python
Скопировать код
urllib.parse.unquote('%E8%A7%A3%E7%A0%81')

Но применяем декодер:

И перед вами уже читаемый результат!

Раскодированный URL: 解码

Этот процесс наиболее наглядно можно описать как разгадывание шифрованных сообщений в виде кодированных URL.

Что выбрать: встроенные функции или сторонние библиотеки

Встроенные в Python инструменты, такие как urllib.parse.unquote, в большинстве случаев справляются с задачей декодирования URL. Однако библиотека requests может предложить больше возможностей и удобства.

Python
Скопировать код
from requests.utils import unquote

print(unquote('https%3A%2F%2Fwww.example.com%2Ffoo%3Fbar%3Dbaz'))

# Согласитесь, это намного лаконичнее, чем вводить https и www каждый раз.

Эффективность встречается с функциональностью

Важно помнить, что простота и продуктивность – залог успешного программирования. Простые решения, как requests.utils.unquote, значительно повышают читабельность кода и его производительность.

Широкий функционал и возможность кастомизации

Модуль urllib – встроенный инструмент в Python, он универсален и позволяет кастомизацию. Несмотря на то что requests хорошо справляется с большим числом задач, urllib предоставляет более изощренный контроль для сложных ситуаций.

Отладка и обработка ошибок

Проблемы с декодированием могут привести к ошибкам в данных или даже к уязвимостям. Важно понимать разницу между URL-кодированием и HTML-кодированием и использовать соответствующий метод декодирования, чтобы избежать ошибок.

Необходимо регулярно проверять корректность декодированных URL, проводить тестирования и разрабатывать стратегии противодействия возможным проблемам.

Полезные материалы

  1. urllib.parse — Анализ URL на составные части — Документация Python 3.12.2 — Официальное руководство по анализу URL в Python 3.
  2. Проработка Unicode и кодировок символов в Python: глубокое погружение — Руководство, которое поможет вам лучше понять работу с кодировками символов в Python.
  3. Процентное кодирование – Википедия — Объясняющий процентное кодирование материал на Википедии.
  4. Библиотека Requests в Python (Полное руководство) — Самое подробное руководство по работе с библиотекой requests в Python.
  5. Unicode HOWTO — Документация Python 3.12.2 — Раздел документации Python, посвященный работе с Unicode.
  6. Декодирование и кодирование URL — Инструмент для онлайн-декодирования и кодирования URL в UTF-8.
Проверь как ты усвоил материалы статьи
Пройди тест и узнай насколько ты лучше других читателей
Какой метод используется для декодирования URL в Python 3?
1 / 5