utf-8- все статьи тега


Является UTF-8 кодировка или набор символов?

Я думал, что имя набора символов было " Unicode "и что" UTF-8 "было именем определенной кодировки набора символов Unicode, но я часто вижу термины" кодировка "и" кодировка", используемые взаимозаменяемо, когда речь идет о UTF-8. Например, <meta charset="UTF-8"> Vs <?xml version="1.0" encoding="UTF-8" ?> ...

UTF-8, CString и CFile? (C++, MFC)

В настоящее время я работаю над программой MFC, которая специально должна работать с UTF-8. В какой-то момент мне нужно записать данные UTF-8 в файл; для этого я использую CFiles и CStrings. Когда я пишу utf-8 (русские символы, чтобы быть более точным) данные в файл, вывод выглядит следующим образом Ðàñïå÷àòàíî: Ñèñòåìà Ïðîèçâîäñòâî И т. д. Это определенно не utf-8. Чтобы правильно прочитать эти данные, мне нужно изменить настройки системы; изменение символов, отличных от ASCII, на русскую ...

Почему кодировка ASCII и ISO-8859-1 не отошла в историю?

Мне кажется, что если бы UTF-8 была единственной кодировкой, используемой повсеместно, было бы намного меньше проблем с кодом: даже не нужно думать о проблемах кодирования. Нет проблем со смешанной потоковой передачей 1-2-байтовых символов, потому что все использует 2 байта. Браузеры не должны ждать тег <meta>, указывающий кодировку, прежде чем они смогут что-либо сделать. StackOverflow даже не имеет мета-тега, заставляя браузеры загружать всю страницу сначала, замедляя страницу отрисов ...

Проверка UTF-8 в PHP без использования preg match()

Мне нужно проверить некоторые входные данные пользователя, закодированные в UTF-8. Многие рекомендовали использовать следующий код: preg_match('/A( [x09x0Ax0Dx20-x7E] | [xC2-xDF][x80-xBF] | xE0[xA0-xBF][x80-xBF] | [xE1-xECxEExEF][x80-xBF]{2} | xED[x80-x9F][x80-xBF] | xF0[x90-xBF][x80-xBF]{2} | [xF1-xF3][x80-xBF]{3} | xF4[x80-x8F][x80-xBF]{2} )*z/x', $string); Это регулярное выражение, взятое из http://www.w3.org/Interna ...

Измените кодировку файла на utf-8 через vim в скрипте

Я просто был сбит с ног после того, как наш сервер был обновлен с Debian 4 на 5. Мы перешли на среду UTF-8, и теперь у нас есть проблемы с корректной печатью текста в браузере, потому что все файлы находятся в кодировках, отличных от utf8, таких как iso-8859-1, ascii и т. д. Я перепробовал много разных сценариев. Первый, который я попробовал, - это "iconv". Этот не работает, он изменяет содержимое, но файлы enconding по-прежнему не являются utf8. Та же проблема с enca, encamv, convmv и некото ...

Как обнаружить символы UTF-8 в столбце с кодировкой Latin1-MySQL

Я собираюсь взять на себя утомительную и обременительную задачу преобразования базы данных из Latin1 в UTF-8. На этом этапе я просто хочу проверить, какие данные я сохранил в своих таблицах, поскольку это определит, какой подход я должен использовать для преобразования данных. В частности, я хочу проверить, есть ли у меня символы UTF-8 в Столбцах Latin1, как это лучше всего сделать? Если затронуты только несколько строк, то я могу просто исправить это вручную. Вариант 1. Выполнить дамп MySQL ...

Проблемы кодирования в JSP

У меня есть html-форма с несколькими текстовыми полями. Когда я пытаюсь представить не английские символы (русские в моем случае) сервер получает" нечитаемую " строку (не вопросы - "???"но какие-то странные персонажи). Я упростил свой код, чтобы показать его здесь: <%@ taglib uri="http://java.sun.com/jsp/jstl/core" prefix="c" %> <%@ page contentType="text/html;charset=UTF-8" language="java" %> <html> <head><title>Simple jsp page</title></head> ...

Php + Mysql (UTF-8) некоторые символы все еще баг

Ну я получил php скрипт, который берет Ники из Steam web-api и вставляет их в mysql db. Многие из них получили редкие русские и греческие иероглифы. Я установил php в utf-8 в php.ini и во всех php файлах с mb_internal_encoding('utf-8'); Мой PDO-коннектор настроен на обработку utf8 $connection = new PDO('mysql:host=localhost;dbname=d2bd;mysql:charset=utf8', 'root', ''); $connection->setAttribute(PDO::ATTR_EMULATE_PREPARES, false); $connection->setAttribute(PDO::ATTR_ERRMODE, PDO::E ...

C++ преобразование asii экранированной строки unicode в строку utf8

Мне нужно прочитать стандартную строку в стиле ascii с экранированием unicode и преобразовать ее в строку std::, содержащую кодированный эквивалент utf8. Так, например, "u03a0 " (строка std::с 6 символами) должна быть преобразована в строку std::с двумя символами, 0xce, 0xa0 соответственно, в необработанном двоичном коде. Был бы очень рад, если бы был простой ответ с помощью icu или boost, но я не смог его найти. (это похоже на преобразование строки Юникода в экранированная строка ASCII , но ...

В UTF-8 Все путем

Я настраиваю новый сервер и хочу полностью поддерживать UTF-8 в своем веб-приложении. Я пробовал в прошлом на существующих серверах и всегда, кажется, в конечном итоге приходится возвращаться к ISO-8859-1. где именно мне нужно установить кодировки/перекодировки? Я знаю, что мне нужно настроить Apache, MySQL и PHP для этого - есть ли какой-то стандартный контрольный список, который я могу выполнить, или, возможно, устранить неполадки, где возникают несоответствия? Это для нового сервера Linux ...

В чем разница между UTF-8 и Unicode

Я слышал противоречивые мнения от людей-согласно Википедии,посмотреть здесь. Это одно и то же, не так ли? Может кто-нибудь прояснить? ...

Как получить UTF-8 работает в Java webapps?

мне нужно, чтобы UTF-8 работал в моем Java webapp (сервлеты + JSP, не используется фреймворк) для поддержки äöå etc. для обычного финского текста и кириллических алфавитов, таких как ЦжФ для особых случаев. Мои настройки следующие: среда разработки: Windows XP производственная среда: Debian используемая база данных: MySQL 5.x пользователи в основном используют Firefox2, но и Opera 9.x, FF3, IE7 и Google Chrome являются используется для доступа к сайту. как этого добиться? ...

Сохранение текстов utf-8 в json.дампы как UTF8, а не как escape-последовательность

пример кода: >>> import json >>> json_string = json.dumps("ברי צקלה") >>> print json_string "u05d1u05e8u05d9 u05e6u05e7u05dcu05d4" проблема: это не удобочитаемое. Мои (умные) пользователи хотят проверять или даже редактировать текстовые файлы с помощью дампов JSON. (и я бы предпочел не использовать XML) есть ли способ сериализовать объекты в строку utf-8 json (вместо uXXXX)? это не поможет: >>> output = json_string.decode('string-escape') "u05d1 ...

Обнаружение кодирования и сделать все UTF-8

Я читаю много текстов из различных RSS-каналов и вставляю их в свою базу данных. конечно, есть несколько различных кодировок символов, используемых в каналах, например UTF-8 и ISO-8859-1. к сожалению, иногда возникают проблемы с кодировкой текстов. Пример: "β" в "Fußball"должно выглядеть так в моей базе данных: "Ÿ". Если это "Ÿ", он отображается правильно. иногда "β" в "Fußball"выглядит так в моей базе данных: "ß". Тогда он отображается неправильно, конечно. в других случаях " Β "сохран ...

Юникод (UTF-8) чтение и запись в файлы на Python

у меня есть некоторые мозговые сбои в понимании чтения и записи текста в файл (Python 2.4). # The string, which has an a-acute in it. ss = u'Capitxe1n' ss8 = ss.encode('utf8') repr(ss), repr(ss8) ("u'Capitxe1n'", "'Capitxc3xa1n'") print ss, ss8 print >> open('f1','w'), ss8 >>> file('f1').read() 'Capitxc3xa1nn' поэтому я набираю Capitxc3xa1n в мой любимый редактор, в файл f2. затем: >>> open('f1').read() 'Capitxc3xa1nn' >>> open('f2').read ...

Как проверить, является ли строка unicode или ascii?

Что мне нужно сделать в Python, чтобы выяснить, какая кодировка? ...

Использование PowerShell для записи файла в UTF-8 без спецификации

Out-File Кажется, чтобы заставить спецификации при использовании UTF-8: $MyFile = Get-Content $MyPath $MyFile | Out-File -Encoding "UTF8" $MyPath Как я могу написать файл в UTF-8 без спецификации с помощью PowerShell? ...

Преобразование Юникода в ASCII без ошибок в Python

мой код просто очищает веб-страницу, а затем преобразует ее в Юникод. html = urllib.urlopen(link).read() html.encode("utf8","ignore") self.response.out.write(html) но я получаю UnicodeDecodeError: Traceback (most recent call last): File "/Applications/GoogleAppEngineLauncher.app/Contents/Resources/GoogleAppEngine-default.bundle/Contents/Resources/google_appengine/google/appengine/ext/webapp/__init__.py", line 507, in __call__ handler.get(*groups) File "/Users/greg/clounce/main.py", ...

Запись в файл UTF-8 на Python

Я действительно путаю с codecs.open function. Когда я это делаю: file = codecs.open("temp", "w", "utf-8") file.write(codecs.BOM_UTF8) file.close() это дает мне ошибку UnicodeDecodeError: 'в кодировке ASCII' кодек не может декодировать байт 0xef в положении 0: порядковый номер не в диапазон(128) если я это сделаю: file = open("temp", "w") file.write(codecs.BOM_UTF8) file.close() Он работает нормально. вопрос почему первый метод терпит неудачу? И как мне вставить спецификацию? если ...

Как определить кодировку файлов в OSX?

Я пытаюсь ввести некоторые символы UTF-8 в файл LaTeX в TextMate (который говорит, что его кодировка по умолчанию-UTF-8), но LaTeX, похоже, не понимает их. Работает cat my_file.tex показывает символы правильно в терминале. Работает ls -al показывает то, что я никогда не видел раньше: "@ " в файл выглядит так: -rw-r--r--@ 1 me users 2021 Feb 11 18:05 my_file.tex (и, да, я использую usepackage[utf8]{inputenc} в латекс.) я нашел iconv, но это, кажется, не в состоянии сказать мне, ...