character-encoding- все статьи тега


Как задать кодировку символов в файле yaml

Мы работаем с простым бэкендом для новой системы Rails 2.2 i18n, и я хотел бы знать правильный синтаксис для установки кодировки в файле yaml. Другими словами, Что такое ямл для этого xml: <?xml encoding="UTF-8" ?> ...

Что может заставить git возиться с кодировкой символов?

править: git не возится с кодировкой символов. Это все еще здесь, чтобы поделиться знанием и избежать других, делающих ту же ошибку. Контекст : Мое предприятие использует репозиторий svn. Я использую git-svn в качестве клиента для взаимодействия с этим репозиторием. Все текстовые файлы в проекте кодируются (и должны быть) с помощью кодировки windows default encoding (cp-....). Я использую git-расширения, а иногда и командную строку для пилотирования git. Что я сделал : В течение последних 3 д ...

ASP.NET проблема с кодировкой экспорта Excel

Я делаю некоторые экспорта Excel на ASP.NET сайт. Все работает, кроме кодировки. Когда я открываю его в Excel, он выглядит так: Eingabe Kosten je Gerät Gerät: Gerätebezeichnung: Betriebsmittel HeizÃ*L в": 4 Dieselverbrauch in â': 4 Вот мой код: Response.Clear(); Response.ContentType = "application/ms-excel"; Response.AddHeader("Content-Disposition", "inline;filename=NachkalkGeraete.xls;"); var writer = new HtmlTextWriter(Response.Output); SomeControl.RenderControl(writer); /* ...

Почему кодировка ASCII и ISO-8859-1 не отошла в историю?

Мне кажется, что если бы UTF-8 была единственной кодировкой, используемой повсеместно, было бы намного меньше проблем с кодом: даже не нужно думать о проблемах кодирования. Нет проблем со смешанной потоковой передачей 1-2-байтовых символов, потому что все использует 2 байта. Браузеры не должны ждать тег <meta>, указывающий кодировку, прежде чем они смогут что-либо сделать. StackOverflow даже не имеет мета-тега, заставляя браузеры загружать всю страницу сначала, замедляя страницу отрисов ...

Измените кодировку файла на utf-8 через vim в скрипте

Я просто был сбит с ног после того, как наш сервер был обновлен с Debian 4 на 5. Мы перешли на среду UTF-8, и теперь у нас есть проблемы с корректной печатью текста в браузере, потому что все файлы находятся в кодировках, отличных от utf8, таких как iso-8859-1, ascii и т. д. Я перепробовал много разных сценариев. Первый, который я попробовал, - это "iconv". Этот не работает, он изменяет содержимое, но файлы enconding по-прежнему не являются utf8. Та же проблема с enca, encamv, convmv и некото ...

Как обнаружить символы UTF-8 в столбце с кодировкой Latin1-MySQL

Я собираюсь взять на себя утомительную и обременительную задачу преобразования базы данных из Latin1 в UTF-8. На этом этапе я просто хочу проверить, какие данные я сохранил в своих таблицах, поскольку это определит, какой подход я должен использовать для преобразования данных. В частности, я хочу проверить, есть ли у меня символы UTF-8 в Столбцах Latin1, как это лучше всего сделать? Если затронуты только несколько строк, то я могу просто исправить это вручную. Вариант 1. Выполнить дамп MySQL ...

Java преобразует поток символов в человеческую" читаемую " строку

У меня есть куча персонажей, которые выглядят примерно так: Комуникационна кабелна система И иногда у меня есть такая смесь: Généralités Первый переводится как: Комуникационна кабелна ...

Лучший способ конвертировать строку в байты в Python 3?

существует два различных способа преобразования строки в байты, как видно из ответов на TypeError: 'str' не поддерживает интерфейс буфера какой из этих методов будет лучше или более подходящие для Python? Или это просто вопрос личных предпочтений? b = bytes(mystring, 'utf-8') b = mystring.encode('utf-8') ...

В чем разница между UTF-8 и Unicode

Я слышал противоречивые мнения от людей-согласно Википедии,посмотреть здесь. Это одно и то же, не так ли? Может кто-нибудь прояснить? ...

Обнаружение кодирования и сделать все UTF-8

Я читаю много текстов из различных RSS-каналов и вставляю их в свою базу данных. конечно, есть несколько различных кодировок символов, используемых в каналах, например UTF-8 и ISO-8859-1. к сожалению, иногда возникают проблемы с кодировкой текстов. Пример: "β" в "Fußball"должно выглядеть так в моей базе данных: "Ÿ". Если это "Ÿ", он отображается правильно. иногда "β" в "Fußball"выглядит так в моей базе данных: "ß". Тогда он отображается неправильно, конечно. в других случаях " Β "сохран ...

Почему имена кодировок не являются константами?

проблемы с кодировкой запутаны и сложны сами по себе, но кроме того, вы должны помнить точные имена своих кодировок. Разве это "utf8"? Или "utf-8"? Или, может быть,"UTF-8"? При поиске в интернете образцов кода Вы увидите все вышеперечисленное. Почему бы просто не сделать их именованными константами и использовать Charset.UTF8? ...

Запись текста Unicode в текстовый файл?

я вытаскиваю данные из документа Google, обрабатываю его и записываю в файл (который в конечном итоге я вставлю на страницу Wordpress). Он имеет некоторые символы, отличные от ASCII. Как я могу безопасно конвертировать их в символы, которые можно использовать в HTML-источнике? В настоящее время я конвертирую все в Unicode по пути, объединяя все это вместе в строку Python, а затем делаю: import codecs f = codecs.open('out.txt', mode="w", encoding="iso-8859-1") f.write(all_html.encode("iso-88 ...

Как конвертировать строки в массивы байтов UTF8 и из них в Java

в Java у меня есть строка, и я хочу кодировать ее как массив байтов (в UTF8 или в какой-либо другой кодировке). Кроме того, у меня есть массив байтов (в некоторой известной кодировке), и я хочу преобразовать его в строку Java. Как мне сделать эти преобразования? ...

Как вы Эхо 4-значный символ Юникода в Bash?

Я хотел бы добавить череп и скрещенные кости Юникода в мою подсказку оболочки (в частности, "череп и скрещенные кости" (U+2620)), но я не могу понять магическое заклинание, чтобы заставить echo выплюнуть его или любой другой 4-значный символ Юникода. Двузначные-это легко. Например, echo-e "x55",. В дополнение к ответам ниже следует отметить, что, очевидно, ваш терминал должен поддерживать Unicode для вывода, что вы ожидаете. гном-терминал делает хорошую работу это, но он не всегда включен по у ...

Что такое вертикальная вкладка?

каково было первоначальное историческое использование символа вертикальной вкладки (v на языке C, ASCII 11)? у него когда-нибудь была клавиша на клавиатуре? Как кто-то его создал? есть ли какой-либо язык или система, все еще используемые сегодня, где символ вертикальной вкладки делает что-то интересное и полезное? ...

Что такое формат ANSI?

Что такое формат кодирования ANSI? Это формат по умолчанию? Чем он отличается от ASCII? ...

Преобразование Юникода в ASCII без ошибок в Python

мой код просто очищает веб-страницу, а затем преобразует ее в Юникод. html = urllib.urlopen(link).read() html.encode("utf8","ignore") self.response.out.write(html) но я получаю UnicodeDecodeError: Traceback (most recent call last): File "/Applications/GoogleAppEngineLauncher.app/Contents/Resources/GoogleAppEngine-default.bundle/Contents/Resources/google_appengine/google/appengine/ext/webapp/__init__.py", line 507, in __call__ handler.get(*groups) File "/Users/greg/clounce/main.py", ...

PHP: преобразуйте любую строку в UTF-8, не зная исходного набора символов, или хотя бы попробуйте

у меня есть приложение, которое работает с клиентами со всего мира, и, естественно, я хочу, чтобы все, что входит в мои базы данных, было закодировано UTF-8. основная проблема для меня заключается в том, что я не знаю, какая кодировка источника любой строки будет - это может быть из текстового поля (используя <form accept-charset="utf-8"> полезно только в том случае, если пользователь действительно отправил форму), или это может быть из загруженного текстового файла, поэтому у меня дейст ...

Могу ли я заставить git распознать файл UTF-16 как текст?

я отслеживаю файл виртуальной машины Virtual PC (*.vmc) в git, и после внесения изменений git определил файл как двоичный и не будет различать его для меня. Я обнаружил, что файл закодирован в UTF-16. можно ли научить git распознавать, что этот файл является текстом и обрабатывать его соответствующим образом? Я использую git под Cygwin, с ядром.autocrlf установлен в false. Я мог бы использовать mSysGit или git под UNIX, если это необходимо. ...

Чтение файла CSV UTF8 с помощью Python

Я пытаюсь прочитать CSV-файл с акцентированными символами с Python (только французские и/или испанские символы). На основе документации Python 2.5 для csvreader (http://docs.python.org/library/csv.html), я придумал следующий код для чтения CSV-файла, так как csvreader поддерживает только ASCII. def unicode_csv_reader(unicode_csv_data, dialect=csv.excel, **kwargs): # csv.py doesn't do Unicode; encode temporarily as UTF-8: csv_reader = csv.reader(utf_8_encoder(unicode_csv_data), ...