unicode- все статьи тега


Является UTF-8 кодировка или набор символов?

Я думал, что имя набора символов было " Unicode "и что" UTF-8 "было именем определенной кодировки набора символов Unicode, но я часто вижу термины" кодировка "и" кодировка", используемые взаимозаменяемо, когда речь идет о UTF-8. Например, <meta charset="UTF-8"> Vs <?xml version="1.0" encoding="UTF-8" ?> ...

Как конвертировать 'u00e9' в символ utf8, в mysql или php?

Я делаю некоторую очистку данных на некоторых грязных данных, которые импортируются в mysql. Данные содержат "псевдо" символы юникода, которые фактически встроены в строки как "u00e9" и т. д. Таким образом, одно поле может быть.. 'Jalostotitlu00e1n' Мне нужно вырвать эту неуклюжую 'u00e1n' и заменить ее соответствующим символом utf Я могу сделать это в любом mysql, используя substring и CHR, возможно, но я предварительно обрабатываю данные через PHP, поэтому я мог бы сделать это там тоже. Я ...

Как найти правильную кодировку в python? [дубликат]

На этот вопрос уже есть ответ здесь: Определите кодировку текста в Python 8 ответов Я пытаюсь избавиться от диакритики в моем текстовом файле. Я преобразовал pdf-файл в текст с помощью инструмента, сделанного не мной. Я не мог понять, какую кодировку они используют. Текст написан на языке науатль , орфографически знаком с Испанский. Я преобразовал текст в список строк. Нет, я пытаюсь сделать следу ...

Как я могу сказать, если моя система Oracle устанавливается для поддержки Unicode или многобайтовых символов?

Я понимаю, что Oracle поддерживает несколько наборов символов, но как определить, включена ли эта функциональность в текущей системе 11g, в которой я работаю? ...

Разбиение строки на массив на основе диапазона символов unicode в PHP

Извините за неоднозначную тему, но я ищу строку с кириллическими символами, которая может выглядеть как «Добрый день!» - сказал он, потянувшись… В массив, который выглядит как [0] => « [1] => Добрый␠ [2] => день!»␠-␠ [3] => сказал␠ [4] => он,␠ [5] => потянувшись… Таким образом, по существу, я ищу разрыв, который произойдет на границе между любым символом и кириллическим символом (диапазон [а-я]), хотя это должно быть верно только тогда, когда мы переходим от любого символ ...

pyODBC и Unicode

Я работаю с pyODBC communicate с сервером MS SQL 2005 Express. Таблица, в которую я пытаюсь сохранить данные, состоит из столбцов nvarchar. query = u"INSERT INTO tblPersons (name, birthday, gender) VALUES('" query = query + name + u"', '" query = query + birthday + u"', '" query = query + gender + u"')" cur.execute(query) Переменные name, birthrday и gende считываются из файла Excel и являются строками Юникода. Когда я выполняю запрос и либо смотрю на таблицу с помощью SQL Server Manage ...

Python print не использует repr, unicode или str для подкласса unicode?

Python print не использует __repr__, __unicode__ или __str__ для моего подкласса unicode при печати. Есть какие-нибудь намеки на то, что я делаю не так? Вот мой код: Использование Python 2.5.2 (r252:60911, Oct 13 2009, 14:11:59) >>> class MyUni(unicode): ... def __repr__(self): ... return "__repr__" ... def __unicode__(self): ... return unicode("__unicode__") ... def __str__(self): ... return str("__str__") ... >>> s = MyUni("HI") ...

Как удалить символы emoji из строки?

У меня есть текстовый ввод с мобильного устройства. Он содержит смайлики. В C# у меня есть текст в виде Text ...

Как объединить несколько строк Юникода?

У меня есть две строки unicode '가' и 'ㄱ', и я хочу объединить их, чтобы получить "가ㄱ" Вот мой код: output1 = unicodeQueue(self.queue) # first unicode result output2 = unicodeQueue(self.bufferQueue) # second unicode result sequence = [output1, output2] print sequence output = ''.join(sequence) return output И вот результат, который я получаю: [u'uac00', u'u3131'] ㄱ가가ㄱ가 Я не знаю, почему это не дает правильного результата, может ли кто-нибудь помочь мне в этом? ...

Разница между utf8 unicode ci и utf8 unicode 520 CI сортировки в MariaDB / MySQL?

Я вошел в MariaDB / MySQL и ввел: SHOW COLLATION; Я вижу utf8_unicode_ci и utf8_general_ci среди доступных параметров сортировки. В чем разница между этими двумя сопоставлениями и какими мы должны пользоваться? ...

Ява символов regex матча за основной многоязычной плоскости

Как я могу сопоставить символы (с намерением удалить их) вне базовой многоязычной плоскости unicode в java? ...

C++ преобразование asii экранированной строки unicode в строку utf8

Мне нужно прочитать стандартную строку в стиле ascii с экранированием unicode и преобразовать ее в строку std::, содержащую кодированный эквивалент utf8. Так, например, "u03a0 " (строка std::с 6 символами) должна быть преобразована в строку std::с двумя символами, 0xce, 0xa0 соответственно, в необработанном двоичном коде. Был бы очень рад, если бы был простой ответ с помощью icu или boost, но я не смог его найти. (это похоже на преобразование строки Юникода в экранированная строка ASCII , но ...

unicode смайлики не отображаются на Chrome

Когда я вставляю смайлики unicode в <span> с помощью стандартного jQuery, они не появляются в Chrome (v48), но появляются в Firefox (v43) и Safari (v9). Сравните эти скриншоты: Хром: FIREFOX: Здесь есть какое-нибудь объяснение? ...

Как преобразовать строку в нижний регистр в Python

есть ли способ преобразовать строку из верхнего регистра или даже часть верхнего регистра в нижний регистр? например километры -- > километры. ...

Кодек UnicodeEncodeError: 'в кодировке ASCII' не могу закодировать символ U'xa0' в позиции 20: порядковый номер не в диапазон(128)

у меня возникли проблемы с символами Юникода из текста, извлеченного из разных веб-страниц (на разных сайтах). Я использую BeautifulSoup. проблема в том, что ошибка не всегда воспроизводима; иногда она работает с некоторыми страницами, а иногда она блевает, бросая UnicodeEncodeError. Я пробовал почти все, что я могу придумать, и все же я не нашел ничего, что работает последовательно, не бросая какую-то ошибку, связанную с Unicode. один разделы кода, который вызывает проблемы, показано ниже: ...

Преобразование строки Unicode в строку в Python (содержащую дополнительные символы)

Как вы конвертируете строку Unicode (содержащую дополнительные символы, такие как £ $ и т. д.) в строку в Python? ...

В чем разница между UTF-8 и Unicode

Я слышал противоречивые мнения от людей-согласно Википедии,посмотреть здесь. Это одно и то же, не так ли? Может кто-нибудь прояснить? ...

Что является лучшим способом, чтобы удалить акценты в строку Python Юникод?

У меня есть строка Unicode в Python, и я хотел бы удалить все акценты (диакритические знаки). Я нашел в Интернете элегантный способ сделать это в Java: преобразуйте строку Юникода в ее длинную нормализованную форму (с отдельным символом для букв и диакритических знаков) удалите все символы, тип Юникода которых является "диакритическим". Мне нужно установить библиотеку, такую как pyICU, или это возможно только с помощью python стандартная библиотека? А как насчет python 3? важное примечание ...

Как я могу grep для всех символов, отличных от ASCII?

у меня есть несколько очень больших XML-файлов, и я пытаюсь найти строки, содержащие символы, отличные от ASCII. Я пробовал следующее: grep -e "[x{00FF}-x{FFFF}]" file.xml но это возвращает каждую строку в файле, независимо от того, содержит ли строка символ в указанном диапазоне. у меня неправильный синтаксис или я делаю что-то еще не так? Я тоже пробовал: egrep "[x{00FF}-x{FFFF}]" file.xml (с одинарными и двойными кавычками, окружающими шаблон). ...

В чем разница между ASCII и Unicode?

могу ли я узнать точную разницу между Unicode и ASCII? ASCII имеет в общей сложности 128 символов (256 в расширенном наборе). есть ли спецификация размера для символов Юникода? ...