unicode- все статьи тега ➜ страница 3
Символы юникода в URL-адресах
в 2010 году вы бы обслуживали URL-адреса, содержащие символы UTF-8, на большом веб-портале? символы Юникода запрещены в соответствии с RFC на URL-адресах (см. здесь). Они должны быть закодированы в процентах, чтобы соответствовать стандартам. мой основной момент, однако, служит некодированным символам с единственной целью иметь красивые URL-адреса, поэтому процентное кодирование отсутствует. все основные браузеры, похоже, разбирают эти URL-адреса в порядке, независимо от того, что говорит RF ...
Символ юникода в строке PHP
этот вопрос выглядит ошеломляюще просто, но я не смог найти ответ. что такое PHP-эквивалент следующей строки кода на C#? string str = "u1000"; в этом примере создается строка с одним символом Юникода, "числовое значение Юникода" которого равно 1000 в шестнадцатеричном формате (4096 в десятичном). то есть, в PHP, как я могу создать строку с одним символом Юникода, чье "числовое значение Юникода" известно? ...
Могу ли я заставить git распознать файл UTF-16 как текст?
я отслеживаю файл виртуальной машины Virtual PC (*.vmc) в git, и после внесения изменений git определил файл как двоичный и не будет различать его для меня. Я обнаружил, что файл закодирован в UTF-16. можно ли научить git распознавать, что этот файл является текстом и обрабатывать его соответствующим образом? Я использую git под Cygwin, с ядром.autocrlf установлен в false. Я мог бы использовать mSysGit или git под UNIX, если это необходимо. ...
Что такое "суррогатная пара" в Java?
Я читал документацию для StringBuffer, в частности обратный() метод. В этой документации упоминается что-то о суррогатные пары. Что такое суррогатная пара в этом контексте? А какие бывают низкий и высокий суррогаты? ...
Что такое нормализованный UTF-8?
The проект ICU (который также теперь имеет PHP библиотека) содержит классы, необходимые для нормализации строк UTF-8, чтобы упростить сравнение значений при поиске. однако, я пытаюсь выяснить что это значит для приложений. Например, в каких случаях я хочу "каноническую эквивалентность" вместо "эквивалентности совместимости" или наоборот? ...
Python, Unicode и консоль Windows
когда я пытаюсь напечатать строку Unicode в консоли Windows, я получаю UnicodeEncodeError: 'charmap' codec can't encode character .... ошибка. Я предполагаю, что это связано с тем, что консоль Windows не принимает только символы Юникода. Какой лучший способ обойти это? Есть ли способ заставить Python автоматически печатать ? вместо того, чтобы потерпеть неудачу в этой ситуации? Edit: Я использую Python 2.5. Примечание: @LasseV.Ответ Карлсена с галочкой вроде устарел (от 2008). Пожалуйста, ис ...
Обработка юникода в C++
какова лучшая практика обработки Юникода в C++? ...
Python-кодек 'ascii' не может декодировать байт
Я совсем запуталась. Я попытался закодировать, но ошибка сказала can't decode.... >>> "你好".encode("utf8") Traceback (most recent call last): File "<stdin>", line 1, in <module> UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position 0: ordinal not in range(128) Я знаю, как избежать ошибки с префиксом "u" в строке. Мне просто интересно, почему ошибка "не может декодировать", когда encode был вызван. Что питон делает под капотом? ...
Использование awk для удаления метки порядка байтов
как бы awk скрипт (предположительно однострочный) для удаления BOM выглядеть? спецификация: печатать каждую строку после первой (NR > 1) для первой строки: если он начинается с #FE #FF или #FF #FE, удалите их и распечатайте остальные ...
Что происходит с этими символами объединения Unicode и как мы можем их фильтровать?
กิิิิิิิิิิิิิิิิิิิิ ก้้้้้้้้้้้้้้้้้้้้ ก็็็็็็็็็็็็็็็็็็็็ ก็็็็็็็็็็็็็็็็็็็็ กิิิิิิิิิิิิิิิิิิิิ ก้้้้้้้้้้้้้้้้้้้้ ก็็็็็็็็็็็็็็็็็็็็ กิิิิิิิิิิิิิิิิิิิิ ก้้้้้้้้้้้้้้้้้้้้ กิิิิิิิิิิิิิิิิิิิิ ก้้้้้้้้้้้้้้้้้้้้ ก็็็็็็็็็็็็็็็็็็็็ ก็็็็็็็็็็็็็็็็็็็็ กิิิิิิิิิิิิิิิิิิิิ ก้้้้้้้้้้้้้้้้้้้้ ก็็็็็็็็็็็็็็็็็็็็ กิิิิิิิิิิิิิิิิิิิิ ก้้้้้้้้้้้้้้้้้้้้ Они недавно появились в комментарии facebook разделы. Как мы можем зачистить? ...
Как поместить символ юникода в XAML?
Я пытаюсь сделать это: <TextBlock Text="{Binding Path=Text, Converter={StaticResource stringFormatConverter}, ConverterParameter='&u2014{0}'}" /> чтобы получить - чтобы появиться перед текстом. Это не работает. Что мне здесь делать? ...
Чтение символов из файла в Python
в текстовом файле есть строка "мне это не нравится". однако, когда я читаю его в строку, он становится "я неxe2x80x98t, как это". Я понимаю, что u2018-это unicode-представление"'". Я использую f1 = open (file1, "r") text = f1.read() команда для чтения. теперь, можно ли прочитать строку таким образом, что когда она читается в строку, это "мне это не нравится", а не "я неxe2x80x98t, как это нравится это"? второе редактирование: я видел, как некоторые люди используют сопоставление дл ...
HTML для символа паузы в управлении аудио и видео
Я пытаюсь найти символ Юникода, чтобы кнопка отображала символ паузы Юникода. Я смог найти, что символ воспроизведения Unicode-это ► но я ищу эквивалент символа паузы Unicode. ...
Отображение символов Юникода в HTML
Я хочу просто отобразить ТИК ( ✔ ) и перекрестные ( ✘ ) символы на HTML - странице, но он отображается как поле или goop â â" - очевидно, что-то связанное с кодировкой. Я установил метатег, чтобы показать utf-8, но, очевидно, я что-то упускаю. <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> Редактировать/Решение: из комментариев, сделанных с помощью FireBug, я обнаружил, что заголовки, передаваемые моей страницей, на самом деле были "Content-Type: text/html", а не ...
Что такое символ unicode для символа закрытия, используемого Twitter bootstrap?
просто любопытно, потому что я только что понял, что это не настоящий "x" (раздражает, сколько времени это заняло, чтобы понять). ...
Regex: что такое InCombiningDiacriticalMarks?
следующий код очень хорошо известен для преобразования акцентированных символов в обычный текст: Normalizer.normalize(text, Normalizer.Form.NFD).replaceAll("p{InCombiningDiacriticalMarks}+", ""); Я заменил свой" ручной "метод на этот, но мне нужно понять "регулярное выражение" часть replaceAll 1) Что такое "InCombiningDiacriticalMarks" ? 2) где доказательства этого? (а сходства?) спасибо. ...
Использование использовать utf8;' дает мне 'широкий характер в печати
если я запускаю следующую программу Perl: perl -e 'use utf8; print "鸡n";' Я получаю это предупреждение: Wide character in print at -e line 1. если я запускаю эту программу Perl: perl -e 'print "鸡n";' Я не получаю предупреждение. Я думал use utf8 требуется использовать символы UTF-8 в скрипте Perl. Почему это не работает и как я могу это исправить? Я использую Perl 5.16.2. У меня такая же проблема, если это в файле, а не один лайнер в командной строке. ...
Как я могу удалить символы, отличные от ASCII, но оставить точки и пробелы с помощью Python?
Я работаю с a .txt-файл. Мне нужна строка текста из файла без символов, отличных от ASCII. Однако, я хочу оставить пробелы и точки. В настоящее время я их тоже раздеваю. Вот код: def onlyascii(char): if ord(char) < 48 or ord(char) > 127: return '' else: return char def get_my_string(file_path): f=open(file_path,'r') data=f.read() f.close() filtered_data=filter(onlyascii, data) filtered_data = filtered_data.lower() return filtered_data Как я должен измени ...
Кодирование FPDF utf-8 (HOW-TO)
кто-нибудь знает, как установить кодировку в пакете FPDF в utf-8? Или, по крайней мере, ISO-8859-7 (греческий), которые поддерживают греческие символы? в основном я хочу создать pdf-файл, содержащий греческие символы. любые предложения помочь. Джордж ...
u 'ufeff ' в строке Python
Я получаю сообщение об ошибке со следующей скороговоркой: UnicodeEncodeError: 'ascii' codec can't encode character u'ufeff' in position 155: ordinal not in range(128) не уверен, что u'ufeff' это, он появляется, когда я веб-скребок. Как я могу исправить ситуацию? Элемент .replace() строковый метод не работает на нем. ...