Как подсчитать вхождения слова во все файлы каталога?

Question

Как подсчитать вхождения слова во все файлы каталога?

Я пытаюсь подсчитать конкретное слово, встречающееся в целой директории. Возможно ли это?

Предположим, например, что существует каталог со 100 файлами, в каждом из которых может содержаться слово "aaa". Как бы я посчитал количество "aaa" во всех файлах в этом каталоге?

Я попробовал что-то вроде:

 zegrep "xception" `find . -name '*auth*application*' | wc -l

Но это не работает.

629 8

linux find unix grep count

8 ответов:

Comments

Ничего не найдено.

Carlos Campderrós · Accepted Answer · 2011-05-27 16:31:06

grep -roh aaa . | wc -w

Grep рекурсивно все файлы и каталоги в текущем dir ищет aaa, и выводит только совпадения, а не всю строку. Затем просто используйте wc для подсчета количества слов.

Fredrik Pihl · Accepted Answer · 2011-05-28 17:46:19

Другое решение, основанное на find и grep.
find . -type f -exec grep -o aaa {} \; | wc -l
Должен корректно обрабатывать имена файлов с пробелами в них.

Sheharyar · Accepted Answer · 2017-02-24 22:45:09

Давайте использовать AWK!
$ function wordfrequency() { awk 'BEGIN { FS="[^a-zA-Z]+" } { for (i=1; i<=NF; i++) { word = tolower($i); words[word]++ } } END { for (w in words) printf("%3d %s\n", words[w], w) } ' | sort -rn; }
$ cat your_file.txt | wordfrequency
Здесь указывается частота каждого слова, встречающегося в предоставленном файле. Если вы хотите увидеть вхождения вашего слова, вы можете просто сделать это:
$ cat your_file.txt | wordfrequency | grep yourword
Чтобы найти вхождения вашего слова во всех файлах каталога (нерекурсивно), вы можете сделать следующее:
$ cat * | wordfrequency | grep yourword
Чтобы найти вхождения вашего слова во всех файлах каталога (а это подкаталоги), вы можете сделать следующее:
$ find . -type f | xargs cat | wordfrequency | grep yourword
Источник: AWK-ward Ruby

Parag Tyagi -morpheus- · Accepted Answer · 2016-03-13 10:45:18

Используйте grep самым простым способом. Попробуйте grep --help для получения дополнительной информации.
Чтобы получить количество слов в конкретном файле :
grep -c <word> <file_name>
Пример:
grep -c 'aaa' abc_report.csv
Вывод:
445
Чтобы получить количество слов в весь каталог :
grep -c -R <word>
Пример:
grep -c -R 'aaa'
Вывод:
abc_report.csv:445
lmn_report.csv:129
pqr_report.csv:445
my_folder/xyz_report.csv:408

Vijay · Accepted Answer · 2011-05-26 10:33:13

find .|xargs perl -p -e 's/ /\n'|xargs grep aaa|wc -l

1

2011-05-26 10:33:13

jcomeau_ictx · Accepted Answer · 2011-05-26 10:34:10

Cat файлы вместе и grep вывод: cat $(find /usr/share/doc/ -name '*.txt') | zegrep -ic '\<exception\>'

Если вы хотите, чтобы "исключительный" соответствовал, не используйте "\ " вокруг слова.

paxdiablo · Accepted Answer · 2011-05-26 10:34:37

Как насчет того, чтобы начать с:
cat * | sed 's/ /\n/g' | grep '^aaa$' | wc -l
Как в следующей стенограмме:
pax$ cat file1
this is a file number 1

pax$ cat file2
And this file is file number 2,
a slightly larger file

pax$ cat file[12] | sed 's/ /\n/g' | grep 'file$' | wc -l
4
sed преобразует пробелы в новые строки (вы можете включитьдругие символы , такие как табуляции, с sed 's/[ \t]/\n/g'). grep просто получает те строки, которые имеют нужное слово, а затем wc подсчитывает эти строки для вас.

Теперь могут быть крайние случаи, когда этот сценарий не работает, но он должен быть в порядке для подавляющего большинства ситуаций.

Если бы вы хотели целое дерево (не только один уровень каталога), вы можете использовать что-то вроде:
( find . -name '*.txt' -exec cat {} ';' ) | sed 's/ /\n/g' | grep '^aaa$' | wc -l

tim · Accepted Answer · 2011-05-28 21:20:02

Существует также синтаксис регулярных выражений grep для сопоставления только слов:
# based on Carlos Campderrós solution posted in this thread
man grep | less -p '\<'
grep -roh '\<aaa\>' . | wc -l
Для другого синтаксиса регулярных выражений соответствия слов см.:
man re_format | less -p '\[\[:<:\]\]'