it-swarm.com.ru

Как извлечь строку по шаблону с помощью grep, regex или perl

У меня есть файл, который выглядит примерно так:

<table name="content_analyzer" primary-key="id">
  <type="global" />
</table>
<table name="content_analyzer2" primary-key="id">
  <type="global" />
</table>
<table name="content_analyzer_items" primary-key="id">
  <type="global" />
</table>

Мне нужно извлечь что-нибудь в кавычках, которые следуют за name=, т.е. content_analyzer, content_analyzer2 и content_analyzer_items.

Я делаю это на Linux, поэтому решение с использованием sed, Perl, grep или bash вполне подойдет.

68
wrangler

Поскольку вам нужно сопоставлять контент, не включая его в результат (должен Соответствовать name=", но это не является частью желаемого результата), требуется некоторая форма Сопоставления с нулевой шириной или захвата группы. Это можно сделать Легко с помощью следующих инструментов:

Perl

С Perl вы можете использовать опцию n, чтобы построчно циклически выводить и печатать Содержимое группы захвата, если оно соответствует:

Perl -ne 'print "$1\n" if /name="(.*?)"/' filename

GNU grep

Если у вас есть улучшенная версия grep, такая как GNU grep, у вас может быть доступная опция -P. Эта опция активирует Perl-подобное регулярное выражение, Позволяя вам использовать \K, который является сокращенным представлением. Он сбросит Позицию совпадения, поэтому все, что находится до нулевой ширины.

grep -Po 'name="\K.*?(?=")' filename

Опция o заставляет grep печатать только сопоставленный текст вместо строки

Vim - текстовый редактор

Другой способ - использовать текстовый редактор напрямую. С Vim, один из Различных способов сделать это - удалить строки без name=, а затем извлечь содержимое из результирующих строк:

:v/name=/d
:%s/\v.*name\="([^"]+)".*/\1

Стандартный grep

Если по какой-то причине у вас нет доступа к этим инструментам, с помощью стандартной команды grep можно добиться чего-то подобного. Однако, без оглядки Вокруг это потребует некоторой очистки позже:

grep -o 'name="[^"]*"' filename

Примечание о сохранении результатов

Во всех вышеперечисленных командах результаты будут отправлены на stdout. Важно помнить, что вы всегда можете сохранить их, отправив их в файл .__, добавив:

> result

до конца команды.

126
sidyll

Если вы используете Perl, загрузите модуль для анализа XML: XML ​​:: Simple , XML ​​:: Twig или XML ​​:: LibXML . Не изобретай велосипед.

5
shawnhcorey

Регулярное выражение будет:

.+name="([^"]+)"

Тогда группировка будет в\1 

5
Matt Shaver

Для этой цели следует использовать анализатор HTML, а не регулярные выражения. Программа Perl, которая использует HTML::TreeBuilder :

Программа

#!/usr/bin/env Perl

use strict;
use warnings;

use HTML::TreeBuilder;

my $tree = HTML::TreeBuilder->new_from_file( \*DATA );
my @elements = $tree->look_down(
    sub { defined $_[0]->attr('name') }
);

for (@elements) {
    print $_->attr('name'), "\n";
}

__DATA__
<table name="content_analyzer" primary-key="id">
  <type="global" />
</table>
<table name="content_analyzer2" primary-key="id">
  <type="global" />
</table>
<table name="content_analyzer_items" primary-key="id">
  <type="global" />
</table>

Результат

content_analyzer
content_analyzer2
content_analyzer_items
4
Alan Haggai Alavi

Вот решение, использующее HTML tidy & xmlstarlet:

htmlstr='
<table name="content_analyzer" primary-key="id">
<type="global" />
</table>
<table name="content_analyzer2" primary-key="id">
<type="global" />
</table>
<table name="content_analyzer_items" primary-key="id">
<type="global" />
</table>
'

echo "$htmlstr" | tidy -q -c -wrap 0 -numeric -asxml -utf8 --merge-divs yes --merge-spans yes 2>/dev/null |
sed '/type="global"/d' |
xmlstarlet sel -N x="http://www.w3.org/1999/xhtml" -T -t -m "//x:table" -v '@name' -n
2
mitma

это может сделать это:

Perl -ne 'if(m/name="(.*?)"/){ print $1 . "\n"; }'
2
Benoit

Ой, команда sed должна предшествовать команде tidy:

echo "$htmlstr" | 
sed '/type="global"/d' |
tidy -q -c -wrap 0 -numeric -asxml -utf8 --merge-divs yes --merge-spans yes 2>/dev/null |
xmlstarlet sel -N x="http://www.w3.org/1999/xhtml" -T -t -m "//x:table" -v '@name' -n
1
mitma

Если структура вашего xml (или текста в целом) фиксирована, самый простой способ - использовать cut. Для вашего конкретного случая:

echo '<table name="content_analyzer" primary-key="id">
  <type="global" />
</table>
<table name="content_analyzer2" primary-key="id">
  <type="global" />
</table>
<table name="content_analyzer_items" primary-key="id">
  <type="global" />
</table>' | grep name= | cut -f2 -d '"'
0
Carlos Lindado