Элегантный способ поиска файлов UTF-8 с помощью BOM?

Question

Элегантный способ поиска файлов UTF-8 с помощью BOM?

для целей отладки мне нужно рекурсивно искать каталог для всех файлов, которые начинаются с метки порядка байтов UTF-8 (BOM). Мое текущее решение-это простой скрипт:

find -type f |

while read file

do

    if [ "`head -c 3 -- "$file"`" == $'xefxbbxbf' ]

    then

        echo "found BOM in: $file"

    fi

done

или, если вы предпочитаете короткие, читается острот:

find -type f|while read file;do [ "`head -c3 -- "$file"`" == $'xefxbbxbf' ] && echo "found BOM in: $file";done

Он не работает с именами файлов, которые содержат строки,
но таких файлов все равно не стоит ожидать.

есть ли более короткий или более элегантное решение?

есть ли что-нибудь интересное текстовые редакторы или макросы для текстовых редакторов?

808 11

PHP shell utf-8 text-editor

11 ответов:

Comments

Ничего не найдено.

Denis · Accepted Answer · 2018-01-05 19:04:38

Как насчет этой простой команды, которая не просто находит, но и очищает неприятный BOM? :)
find . -type f -exec sed '1s/^\xEF\xBB\xBF//' -i {} \;
Я люблю "найти" :)

предупреждениевышеуказанного изменить двоичные файлы, которые содержат три символа.

.

Если вы хотите просто показать файлы спецификации, используйте этот:
grep -rl $'\xEF\xBB\xBF' .

Jan Przybylo · Accepted Answer · 2017-03-27 15:17:02

лучший и самый простой способ сделать это на Windows:

Total Commander → перейти в корневой каталог проекта → найти файлы ( Alt + F7) → типы файлов *.* → Найти текст "EF BB BF" → установите флажок " Hex " → поиск

и вы получаете список :)

Aron Griffis · Accepted Answer · 2010-05-21 22:22:13

find . -type f -print0 | xargs -0r awk '
    /^\xEF\xBB\xBF/ {print FILENAME}
    {nextfile}'
большинство решений, приведенных выше, проверяют больше, чем первую строку файла, даже если некоторые (например, решение Маркуса) затем фильтруют результаты. Это решение проверяет только первую строку каждого файла, поэтому оно должно быть немного быстрее.

CesarB · Accepted Answer · 2008-10-19 06:52:29

Если вы принимаете некоторые ложные срабатывания (в случае, если есть нетекстовые файлы, или в маловероятном случае есть ZWNBSP в середине файла), вы можете использовать grep:
fgrep -rl `echo -ne '\xef\xbb\xbf'` .

Marcus Griep · Accepted Answer · 2008-10-17 17:12:25

Я бы использовал что-то вроде:
grep -orHbm1 "^`echo -ne '\xef\xbb\xbf'`" . | sed '/:0:/!d;s/:0:.*//'
что гарантирует, что спецификация начинается с первого байта файла.

theory · Accepted Answer · 2013-07-13 00:16:51

можно использовать grep чтобы найти их и Perl, чтобы раздеть их так:
grep -rl $'\xEF\xBB\xBF' . | xargs perl -i -pe 's{\xEF\xBB\xBF}{}'

julien · Accepted Answer · 2015-05-06 22:51:51

для пользователя Windows см. этой (хороший PHP скрипт для поиска BOM в проекте).

mario · Accepted Answer · 2011-12-21 03:55:46

излишним решением для этого является phptags (а не vi инструмент с тем же именем), который специально ищет PHP скрипты:
phptags --warn ./
выведет что-то вроде:
./invalid.php: TRAILING whitespace ("?>\n")
./invalid.php: UTF-8 BOM alone ("\xEF\xBB\xBF")
и --whitespace режим автоматически исправит такие проблемы (рекурсивно, но утверждает, что он только перезаписывает .PHP-скрипт.)

Jonathan Wright · Accepted Answer · 2008-10-17 16:51:58

find -type f -print0 | xargs -0 grep -l `printf '^\xef\xbb\xbf'` | sed 's/^/found BOM in: /'
find -print0 добавляет значение null \0 между каждой имя файла, вместо того, чтобы использовать новые строки

xargs -0 ожидает нулевые разделенные аргументы вместо разделенных строк

grep -l списки файлов, которые соответствуют регулярному выражению

регулярное выражение ^\xeff\xbb\xbf не совсем правильно, так как он будет соответствовать не-BOMed UTF-8 файлов, если они имеют нулевые пробелы ширины в начале строки

Refineo · Accepted Answer · 2015-05-06 22:52:13

я использовал это, чтобы исправить только файлы JavaScript:
find . -iname *.js -type f -exec sed 's/^\xEF\xBB\xBF//' -i.bak {} \; -exec rm {}.bak \;

Mike Dotterer · Accepted Answer · 2014-10-16 17:28:10

Если вы ищете файлы UTF, то file command строительство. Он расскажет вам, что такое кодировка файла. Если там есть какие-либо символы, отличные от ASCII, он придумает UTF.
file *.php | grep UTF
это не будет работать рекурсивно, хотя. Вероятно, вы можете настроить какую-то причудливую команду, чтобы сделать ее рекурсивной, но я просто искал каждый уровень индивидуально, как показано ниже, пока у меня не закончились уровни.
file */*.php | grep UTF