Метасимвол '*' позволяет находить символы, встречающиеся несколько раз подряд, но число повторений при этом не определяется. Если же необходимо в процессе поиска учитывать точное количество последовательных вхождений символа в строку, следует применить шаблон \{ \}. Существует четыре варианта этого шаблона:
шаблон\{n\}
Соответствует шаблону, встречающемуся ровно n раз подряд
шаблон\(n,\}
Соответствует шаблону, встречающемуся не менее n раз подряд
шаблон\{,m\}
Соответствует шаблону, встречающемуся не более m раз подряд
шаблон\{n, m\}
Соответствует шаблону, встречающемуся не менее n и не более m раз подряд, где n и m — целые числа из интервала от 0 до 255
Представленный ниже шаблон соответствует последовательности из двух букв 'А', за которыми следует буква 'В':
А\{2\}В
В результате получим "ААВ".
В следующем шаблоне задано, что буква 'А' встречается не менее четырех раз подряд:
А\{4,\)В
Возможные результаты поиска — "ААААВ" или "АААААААВ", но не "АААВ". Поиск последовательности, в которой буква 'А' встречается от двух до четырех раз, выполняется по такому шаблону:
А\{2,4\}В
Будут найдены строки "ААВ", "АААВ", "ААААВ", но не "АВ" или "АААААВ". Вернемся к уже рассматривавшемуся примеру фильтрации текстового файла, фрагмент которого представлен ниже:
1234ХС9088 4523XX90D1 0011ХА9912 9931ХС3445
Допустим, требуется найти строки, в которых первые четыре символа — цифры, за ними идут символы "XX", а затем — еще четыре цифры. Решить данную задачу позволит такой шаблон:
[0-9]\{4\}ХХ[0-9]\(4\}
Применив этот шаблон к приведенному выше фрагменту, получим:
1234ХС9088 - не соответствует
4523XX900i - соответствует
0Q11XA9912 - не соответствует
9931ХС3445 - не соответствует
7.8. Примеры
В табл. 7.2 приведен ряд дополнительных примеров использования регулярных выражений.
Таблица 7.2. Полезные регулярные выражения
^the
Соответствует строкам, которые начинаются символами "the"
[Ss]igna[lL]
Соответствует словам "signal", "signaL", "Signal" и "SignaL"
[Ss]igna[lL]\.
То же, что и в предыдущем случае, но слово, к тому же, должно завершаться точкой
tty$
Соответствует строкам, которые завершаются символами "tty"
^USER$
Соответствует слову "USER", которое является единственным в строке
\.
Соответствует точке
^d..x..x..x
Соответствует каталогам с установленным правом на выполнение для владельца, группы и других пользователей
^[^l]
Исключает из списка файлов записи, соответствующие символическим ссыпкам
00*
Находит строки, содержащие два или больше нулей подряд
[lL]
Соответствует прописной и строчной букве 'l'
[iInN]
Соответствует прописным и строчным буквам 'i' и 'n'
^S
Соответствует пустой строке
^.*$
Соответствует строке, состоящей из любого числа символов
^……$
Соответствует строке, состоящей из шести символов
[a‑zA‑Z]
Соответствует любой прописной или строчной букве
[a‑z][a‑z]*
Соответствует по крайней мере одной строчной букве
[^0-9\$]
При рассмотрении цифры и знаки доллара не учитываются
[^0-9A‑Za‑z]
При рассмотрении не учитываются буквы и цифры
[123]
Соответствует цифрам 1, 2 и 3
[Dd]evice
Соответствует словам "Device" и "device"
De..ce
Соответствует слову, в котором первые два символа — "De", за ними идут любые два символа, а затем -cимволы "се"
\^q
Соответствует символам "^q"
^.$
Соответствует строке, содержащей только один символ
^\.[0-9][0-9]
Соответствует строке, которая начинается с точки и двух цифр
"Device"
Соответствует слову "Device"
De[Vv]ice\.
Соответствует слову "DeVice" или "Device", после которого стоит точка
[0-9]\{2\}-[0-9]\ {2\}-[0-9]\{4\}
Соответствует шаблону даты в формате dd‑mm‑yyyy
[0-9]\{3\}\.[0-9]\{3\}\ .[0-9]\{3\}\.[0-9]\{3\}
Соответствует шаблону IP–адреса в формате ппп. ппп. ппп. ппп
7.9. Заключение
Регулярные выражения и методы работы с ними — важный аспект shell–программирования. Знакомство этой с методикой позволит повысить качество создаваемых сценариев, так как во многих случаях три–четыре команды фильтрации текста можно заменить одной командой с регулярным выражением.
В следующих главах мы рассмотрим примеры применения регулярных выражений в программах grep, sed и awk.
ГЛАВА 8
Семейство команд grep
Команда grep (global regular expression print — печать глобальных регулярных выражений) является наиболее известным инструментальным средством в UNIX и Linux. Она выполняет в текстовых файлах или стандартном входном потоке поиск выражений, соответствующих шаблону, с последующим отображением результата на экране. Команда grep может работать как с базовыми, так и с расширенными регулярными выражениями. Существует три разновидности этой команды:
• grep -cтандартный вариант, которому уделено основное внимание в данной главе.
• egrep -pаботает с расширенными регулярными выражениями (не поддерживает только оператор \ { \}).
• fgrep — быстрый вариант команды grep. Вместо поиска выражений, соответствующих шаблону, выполняет поиск фиксированных строк из указанного списка. Пусть вас не вводит в заблуждение слово "быстрый". На самом деле это наиболее медленная из команд семейства grep.
Конечно, хотелось бы, чтобы существовала только одна, универсальная, команда
grep, и с этой ролью, в принципе, справляется GNU–версия grep. К сожалению,
нет единого способа задания аргументов для всех трех разновидностей команды grep,
к тому же скорость их работы заметно различается. В этой главе рассматриваются следующие темы:
• параметры команды grep;
• применение регулярных выражений в команде grep;
• особенности поиска алфавитно–цифровых символов.
В предыдущей главе указывалось, что в данной книге описываются только базовые регулярные выражения. Но мы все же рассмотрим несколько примеров употребления расширенных регулярных выражений во время знакомства с командой egrep. Основное же внимание будет уделено команде grep. Все применяемые в ней шаблоны могут без изменений использоваться и в команде egrep.