Регулярное выражение для поиска не-ASCII символов в JS

#Основы JavaScript #Регулярные выражения

Пройдите тест, узнайте какой профессии подходите

Сколько вам лет

До 18

От 18 до 24

От 25 до 34

От 35 до 44

От 45 до 49

От 50 до 54

Больше 55

Быстрый ответ

Чтобы обнаружить не-ASCII символы, воспользуйтесь регулярным выражением /[^\x00-\x7F]+/:

Скопировать код

const nonAsciiRegex = /[^\x00-\x7F]+/;  // Не упустит ни одного не-ASCII символа.
console.log("Café • テスト".match(nonAsciiRegex)); // ["Café • テスト"]

Этот код поможет вам найти символы за рамками ASCII, включая международные символы и эмодзи.

Обработка Unicode в JavaScript

JavaScript идеально подходит для работы с Unicode-символами, что важно в международном контексте. Символы, превышающие базовый набор ASCII (0x7F), включают в себя различные языки, специальные символы и эмодзи.

От общего к конкретному

Чтобы обработать Unicode-символы различных языков, используйте экранирование свойств Unicode через \p{L}:

Скопировать код

const unicodeRegex = /\p{L}+/u; // Захватит все буквенные символы во всех языках!
console.log("안녕하세요".match(unicodeRegex)); // ["안녕하세요"]

Не забывайте о флаге u, который необходим для работы с Unicode.

Библиотеки для работы со старым кодом

Если вам нужно обеспечить поддержку устаревшего кода, XRegExp приходит на помощь. Эта библиотека расширяет стандартные возможности регулярных выражений JavaScript и обеспечивает поддержку свойств Unicode даже в старых средах:

Скопировать код

const XRegExp = require('xregexp');
let regex = XRegExp('\\p{L}+'); // Теперь понятно, как прочитать слово Résumé.
console.log(regex.test('Résumé')); // true

Подбор символов по языковым характеристикам

Применение конкретных диапазонов из Unicode-таблиц кодов может быть полезно при поиске Unicode-символов определённых языков, таких как кириллица или китайские иероглифы:

Скопировать код

const chineseCharsRegex = /[\u4e00-\u9fa5]+/; // Открываем мир китайской письменности!
console.log("你好".match(chineseCharsRegex)); // ["你好"]

Визуализация

Можно представить свои ASCII и не-ASCII символы как обычные и экзотические фрукты:

Markdown

Скопировать код

| Яблоки (ASCII)            | Экзотические фрукты (не-ASCII)   |
| ------------------------- | -------------------------------- |
| 🍎 🍏 🍎 🍏 🍎 🍏 🍎 🍏 🍎 🍏 |             🥭 🍍 🥥              |

Используйте регулярное выражение /[^\x00-\x7F]+/ для "обнаружения" экзотических фруктов:

Скопировать код

const exoticFruitDetector = /[^\x00-\x7F]+/; // Активируем Фруктового Ниндзя
console.log(exoticFruitDetector.test("Обычное яблоко 🍏")); // false
console.log(exoticFruitDetector.test("Экзотический манго 🥭"));  // true

Итог — корзина с органическими яблоками, в которой нет следа не-ASCII символов.

Совместимость с браузерами и транспиляция

Поддержка в разных версиях

Перед тем как погрузиться в мир работы с Unicode в регулярных выражениях, убедитесь в поддержке этой функциональности браузерами. Последние версии обеспечивают корректную работу, а вот старые могут вызвать проблемы.

Трансформация для обеспечения совместимости

Для поддержки Unicode-регулярных выражений в устаревших JavaScript-средах используйте транспиляцию с помощью таких инструментов, как regexpu или Babel:

Bash

Скопировать код

npm install --save-dev babel-plugin-transform-unicode-regex // Подключаем трансформатор Unicode.

Чтобы включить плагин, добавьте его в конфигурацию Babel:

json

Скопировать код

{
  "plugins": ["transform-unicode-regex"] // Готовы к работе с Unicode!
}

Продвинутые подходы и лучшие практики

Тестирование — залог успеха

Тщательное тестирование регулярных выражений на разнообразных данных обеспечивает их надёжную работу и корректное поведение.

Чистота и понятность кода

Для того чтобы код был аккуратным и понятным, целесообразно инкапсулировать регулярные выражения в функции. Например, функция grabNonAscIIWords(text) может быть чрезвычайно полезной:

Скопировать код

function grabNonAscIIWords(text) {
  return text.match(/[\p{L}-]+/gu) || [];  // Включено обнаружение не-ASCII символов!
}

console.log(grabNonAscIIWords("El niño играл в σκάκι")); // ["niño", "σκάκι"]

Ассистенты и инструментарий

Отладка и тестирование регулярных выражений удобно проводить на платформах вроде regex101, которые обеспечивают реальновременный анализ и помогают понять, как работает каждый элемент шаблона.

Полезные материалы

RegExp – JavaScript | MDN — обширный справочник по RegExp в JavaScript от Mozilla.
Регулярные выражения – Unicode-символы и свойства — для понимания Unicode-свойств в регулярных выражениях.
Как использовать Unicode-регулярные выражения в JavaScript? – Stack Overflow — дискуссия о практическом применении Unicode-регулярок в JavaScript.
regex101: создание, тестирование и отладка регулярных выражений — онлайн-тестирование и отладка JavaScript-регулярных выражений.
Технический стандарт языка ECMAScript® 2024 — официальная спецификация, описывающая работу с регулярными выражениями и не-ASCII символами.
Регулярные выражения в JavaScript: XRegExp — библиотека XRegExp, расширяющая стандартные возможности JavaScript-регулярок с лучшей поддержкой Unicode.

Проверь как ты усвоил материалы статьи

Пройди тест и узнай насколько ты лучше других читателей

Какое регулярное выражение нужно использовать для поиска не-ASCII символов в JavaScript?

1 / 5

Станислав Плотников

фронтенд-разработчик

Свежие материалы

Альтернативы двухфакторной аутентификации (2FA)

6 сентября 2024

Что такое двухфакторная аутентификация (2FA) и как она работает

6 сентября 2024

Каналы для опытных программистов

6 сентября 2024

Регулярное выражение для поиска не-ASCII символов в JS

Быстрый ответ

Обработка Unicode в JavaScript

От общего к конкретному

Библиотеки для работы со старым кодом

Подбор символов по языковым характеристикам

Визуализация

Совместимость с браузерами и транспиляция

Поддержка в разных версиях

Трансформация для обеспечения совместимости

Продвинутые подходы и лучшие практики

Тестирование — залог успеха

Чистота и понятность кода

Ассистенты и инструментарий

Полезные материалы

Загрузка...