# Регулярные выражения

Регулярные выражения (regular expressions, regex) - это формальный язык поиска подстроки в строке, основанный на использовании метасимволов (таких, например, как *, # и $). Для поиска используется особая строка-образец, состоящая из символов и метасимволов и задающая правило поиска.

Для того, чтобы использовать regex при работе с Python, нужно импортировать соответсвующий модуль:


In [2]:
import re # импортируем библиотеку для работы с регулярными выражениями

Рассмотрим несколько наиболее распространённых метасимволов и их использование в регулярных выражениях.
### . (точка)
Обозначает любой символ кроме переноса строки. 

In [3]:
str = "Hello world! Hepno Hepo"
x = re.findall("He..o", str)
print(x)

['Hello', 'Hepno']


In [12]:
str = "Hello world! Helno Hepo"
x = re.findall("Hel?l?o", str)
print(x)

['Hello']


### * (звёздочка)
Звёздочка после символа означает, что символ может встретиться ноль или более раз. 

In [6]:
str = "The rain in Spain falls mainly in the plain!"
x = re.findall("aix*", str)
print('Совпадения:',x)

Совпадения: ['ai', 'ai', 'ai', 'ai']


In [7]:
str = "The raixn in Spain falls mainly in the plaixxxxxn!"
x = re.findall("aix*", str)
print('Совпадения:',x)

Совпадения: ['aix', 'ai', 'ai', 'aixxxxx']


Звёздочку часто используют в сочетании с точкой: .* 
Такая комбинация обозначает любое количество символов и удобна для того, чтобы разделить две части регулярного выражения. 

In [9]:
str = "The rain in Spain falls mainly in the plain! Spain"
x = re.findall("rain.*Spain", str)
print('Совпадения:',x)

Совпадения: ['rainSpain']


### \s
Обозначает пробел. 

### + (плюс)
Плюс после символа означает, что символ должен встретиться хотя бы один раз.

In [5]:
str = "The rain in Spain falls mainly in the plain!"
x = re.findall("aix+", str)
print('Совпадения:',x)

Совпадения: []


In [6]:
str = "The raixn in Spain falls mainly in the plaixxn!"
x = re.findall("aix+", str)
print('Совпадения:',x)

Совпадения: ['aix', 'aixx']


### {n} (фигурные скобки)
Комбинация вида {n}, идущая после символа, означает, что символ должен встретиться ровно n раз: 

In [12]:
str = "The raixn in Spain falls mainly in the plaixxn!"
x = re.findall("aix{1}", str)
print('Совпадения:',x)

Совпадения: ['aix', 'aix']


In [13]:
str = "The raixn in Spain falls mainly in the plaixxn!"
x = re.findall("aix{2}", str)
print('Совпадения:',x)

Совпадения: ['aixx']


In [16]:
str = "The raixxxn in Spaixxn faixlls mainly in the plaixxxxn!"
x = re.findall("aix{2,5}", str)
print('Совпадения:',x)

Совпадения: ['aixxx', 'aixx', 'aixxxx']


### ^ (уголок вверх)
Начало текста. Совпадение будет только в том случае, если строка начинается с того, что идёт за ^:


In [7]:
str = " Hello world"
x = re.search("^Hello", str)
if (x):
 print('Строка начинается с "Hello"')
else:
 print('Строка не начинается с "Hello"')

Строка не начинается с "Hello"


### \$ (доллар)
Конец текста. Совпадение будет только в том случае, если строка заканчивается тем, что идёт перед $:

In [21]:
str = "Hello world"
x = re.search("world$", str)
if (x):
 print('Строка заканчивается на "world"')
else:
 print('Строка не заканчивается на "world"')

Строка не заканчивается на "world"


In [23]:
txt = "The rain in Spain"
x = re.search("^The.*Spain$", txt)
if (x):
 print('Строка начинается с "The" и заканчивается на "Spain"')
else:
 print('Строка не начинается с "The" или не заканчивается на "Spain"')

Строка начинается с "The" и заканчивается на "Spain"


### \b
Обозначает начало или конец слова. 

In [24]:
str = 'The house on the hill'
x = re.findall(r"\bh", str)
print(len(x))

2


In [25]:
str = "The rain in Spain falls mainly in the plain!"
x = re.findall(r"ain\b", str)
print(x)

['ain', 'ain', 'ain']


## () 
Заключенное в круглых скобках регулярное подвыражение означает группировку несколких символов.

In [19]:
str = '23a 123a 1223a123ab b1e2e3'
x = re.findall(r"(123)?a", str) # ? - ровно 1 раз
print(x)

['', '123', '', '123']


### [] (символьные классы)
Набор символов в квадратных скобках \[\] именуется символьным классом и позволяет указать интерпретатору регулярных выражений, что на данном месте в строке может стоять один из перечисленных символов. Несколько примеров:
* \[abc\] - совпадение, если в строке встречается любой из перечисленных символов
* \[^abc\] - совпадение, если в строке встречается любой символ КРОМЕ перечисленных
* \[a-m\] - совпадение, если в строке встречается любой из символов от a до m
* \[2-6\] - совпадение, если в строке встречается любая цифра от 2 до 6
* \[a-zA-Z\] - совпадение, если в строке встречается любая буква в любом регистре
* \[0-9\] - совпадение, если в строке встречается любая цифра

In [28]:
str = "01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 100 200 300 4170"
x = re.findall("[1-9][0-9]", str)
print('Совпадения:',x)

Совпадения: ['10', '11', '12', '13', '14', '15', '16', '17', '18', '19', '20', '10', '20', '30', '41', '70']


In [29]:
str = "Обращайтесь по одному из следующих номеров: 12-67-82, 98-32-11"
x = re.findall("[0-9][0-9]-[0-9][0-9]-[0-9][0-9]", str)
print('Совпадения:',x)

Совпадения: ['12-67-82', '98-32-11']


In [33]:
txt = "The rain in Spain falls mainly in the n plain"
x = re.findall(r"\b[a-zA-Z]+n\b", txt)
print('Совпадения:',x)

Совпадения: ['rain', 'in', 'Spain', 'in', 'plain']


In [34]:
txt = "The rain in Spain falls mainly in the plain"
x = re.findall(r"\b[a-zA-Z]{5}\b", txt)
print('Совпадения:',x)

Совпадения: ['Spain', 'falls', 'plain']


### Функции, которые можно использовать в модуле re

* #### findall:
возвращает список из всех возможных совпадений. ВАЖНО: найденные подстроки НЕ МОГУТ пересекаться!

In [None]:
str = "123456"
x = re.findall("[0-9][0-9]", str)
print('Совпадения:',x) # в качестве результата возвращает 12, 34, 56, но не 23 и 45

In [35]:
text = 'Lorem ipsum dolor sit amet, consectetur adipisicing elit.' # зададим рандомный текст

regExp = r"\w+" # задаем регулярное выражение. Перед выражением нужно написать букву r
# при помощи регулярного выражения \w+ можно найти все слова в тексте, игнорируя пробелы, запятые и другие символы
words = re.findall(regExp, text) # находим все совпадения с данным регулярным выражением

print(words)

['Lorem', 'ipsum', 'dolor', 'sit', 'amet', 'consectetur', 'adipisicing', 'elit']


Таким же образом, при помощи выражения (`\d+`), можно **найти все числа**. Важно учитывать, что числа могут быть и отрицителными. Составим регулярное выражение:
1. Для нахождения любой цифры используем `\d`
2. Для того, чтобы находило не только цифру, а полное число, достаточно дописать `+` - `\d+`. Так будут искаться все цифры идущие подряд
3. Для того, чтобы учитывать и отрицительные числа, нужно проверять наличие минуса. Для этого нужно добавить `-?` к регулярному выражению. Без `?` в данном случае будут учитываться только отрицательные числа

In [36]:
text = 'Numbers: 5 3 4 32 -2'

regExp = r"-?\d+" # задаем регулярное выражение. Перед выражением нужно написать букву r
numbers = re.findall(regExp, text) # находим все совпадения с данным регулярным выражением

print(rf'Найденные значения: {numbers}') # важно учитывать, что все найденные совпадения являются строковыми значениями

numbers = list(map(int, numbers)) # переведем все найденные числа из строкового значения в числовые

print(rf'Найденные числа: {numbers}')

Найденные значения: ['5', '3', '4', '32', '-2']
Найденные числа: [5, 3, 4, 32, -2]


* #### search:
возвращает объект, в котором содержится информация о результатах поиска. Его методы start() и end() позволяют найти начальную и конечную позицию первого вхождения. Кроме того, объект может использоваться в условии, так как при отсутствии совпадений он эквивалентен False.

In [None]:
str = "The rain in Spain falls mainly in the plain!"
x = re.search('ain', str)
print(x.start(), x.end())

In [None]:
str = "Hello world"
x = re.search("^Hello", str)
if (x):
 print('Строка начинается с "Hello"')
else:
 print('Строка не начинается с "Hello"')

* #### sub:
возвращает строку, в которой все совпадения были заменены на другие подстроки

In [21]:
str = "Я люблю программирование!"
x = re.sub("\s", "**!**", str)
print(x)

Я**!**люблю**!**программирование!


Бывают случаи, когда нужно **заменить значение на другое, используя часть этого значения**. Например, заменим все отрицательные числа на положительные:

In [None]:
text = '1 -2 3 -46 55'

regExp = r'-(\d+)'
result = re.sub(regExp, '\g<1>', text)

print(rf'Было: {text}')
print(rf'Стало: {result}')

Данное регулярное выражение (`-(\d+)`) состоит из двух групп:
0. `-(\d+)` - отрицательное число
1. `\d+` - число, не учитывая знак `-`

В строке `result = re.sub(regExp, '\g<1>', text)` в исходном тексте ищутся все совпадения по группе 0 (группа 0 - все регулярное выражение). Под нулевую группу попадает `-2`. Под первую группу попадает `2`. Таким образом, полное совпадение будет заменяться на результат первой группы.

* #### split:
делит строку по указанному разделителю и возвращает список

In [20]:
str = "The rain in Spain."
x = re.split("\s", str)
print(x)

['The', 'rain', 'in', 'Spain.']


Больше информации здесь: https://www.w3schools.com/python/python_regex.asp