unicode- все статьи тега ➜ страница 2


Как найти длину строки в R?

Как найти длину строки (количество символов в строке), не разбивая ее на R? Я знаю, как найти длину списка, но не строки. а как насчет строк Юникода? Как найти длину (в байтах) и количество символов (рун, символов) в строке Юникода? Вопрос: Как найти "реальное" количество символов в строке Юникода в R ...

Сохранение текстов utf-8 в json.дампы как UTF8, а не как escape-последовательность

пример кода: >>> import json >>> json_string = json.dumps("ברי צקלה") >>> print json_string "u05d1u05e8u05d9 u05e6u05e7u05dcu05d4" проблема: это не удобочитаемое. Мои (умные) пользователи хотят проверять или даже редактировать текстовые файлы с помощью дампов JSON. (и я бы предпочел не использовать XML) есть ли способ сериализовать объекты в строку utf-8 json (вместо uXXXX)? это не поможет: >>> output = json_string.decode('string-escape') "u05d1 ...

Как использовать символы в командной строке Windows?

У нас есть проект в Team Foundation Server (TFS), который имеет неанглийский символ (š) в нем. При попытке написать несколько связанных со сборкой вещей мы наткнулись на проблему - мы не можем передать © письмо к инструментам командной строки. Командная строка или что-то еще не испортит ее, и tf.exe утилита не может найти указанный проект. Я пробовал разные форматы .файл bat (ANSI, UTF-8 С и без BOM) как а также скрипты в JavaScript (который является Unicode по своей сути) - но не повезло. Как ...

UnicodeDecodeError: кодек' charmap ' не может декодировать байт X в позиции Y: отображение символов в

Я пытаюсь заставить программу Python 3 выполнить некоторые манипуляции с текстовым файлом, заполненным информацией. Однако при попытке прочитать файл я получаю следующую ошибку: Traceback (most recent call last): File "SCRIPT LOCATION", line NUMBER, in <module> text = file.read() File "C:Python31libencodingscp1252.py", line 23, in decode return codecs.charmap_decode(input,self.errors,decoding_table)[0] UnicodeDecodeError: 'charmap' codec can't decode byte 0x90 in position 2907500: cha ...

Юникод (UTF-8) чтение и запись в файлы на Python

у меня есть некоторые мозговые сбои в понимании чтения и записи текста в файл (Python 2.4). # The string, which has an a-acute in it. ss = u'Capitxe1n' ss8 = ss.encode('utf8') repr(ss), repr(ss8) ("u'Capitxe1n'", "'Capitxc3xa1n'") print ss, ss8 print >> open('f1','w'), ss8 >>> file('f1').read() 'Capitxc3xa1nn' поэтому я набираю Capitxc3xa1n в мой любимый редактор, в файл f2. затем: >>> open('f1').read() 'Capitxc3xa1nn' >>> open('f2').read ...

Почему этот код, написанный задом наперед, печатает " Hello World!"

вот какой код я нашел в Интернете: class M‮{public static void main(String[]a‭){System.out.print(new char[] {'H','e','l','l','o',' ','W','o','r','l','d','!'});}} этот код выводит Hello World! на экране; вы можете запустить здесь. Я ясно вижу public static void main написано, но все наоборот. Как работает этот код? Как это вообще компилируется? Edit: Я пробовал этот код в IntellIJ, и он отлично работает. Однако по какой-то причине он не работает в notepad++ вместе с cmd. Я до сих пор не ...

Как проверить, является ли строка unicode или ascii?

Что мне нужно сделать в Python, чтобы выяснить, какая кодировка? ...

Запись текста Unicode в текстовый файл?

я вытаскиваю данные из документа Google, обрабатываю его и записываю в файл (который в конечном итоге я вставлю на страницу Wordpress). Он имеет некоторые символы, отличные от ASCII. Как я могу безопасно конвертировать их в символы, которые можно использовать в HTML-источнике? В настоящее время я конвертирую все в Unicode по пути, объединяя все это вместе в строку Python, а затем делаю: import codecs f = codecs.open('out.txt', mode="w", encoding="iso-8859-1") f.write(all_html.encode("iso-88 ...

Сколько байт занимает один символ Юникода?

Я немного запутался в кодировках. Насколько я знаю, старые символы ASCII занимали один байт на символ. Сколько байт требуется для символа Юникода? Я предполагаю, что один символ Юникода может содержать все возможные символы из любого языка - я прав? Итак, сколько байтов нужно для каждого символа? а что делают UTF-7, UTF-6, UTF-16 и др. в смысле? Это разные версии Юникода? прочитал статья в Википедии о Unicode но это довольно сложно для меня. Я с нетерпением жду простого ответа. ...

Как вы Эхо 4-значный символ Юникода в Bash?

Я хотел бы добавить череп и скрещенные кости Юникода в мою подсказку оболочки (в частности, "череп и скрещенные кости" (U+2620)), но я не могу понять магическое заклинание, чтобы заставить echo выплюнуть его или любой другой 4-значный символ Юникода. Двузначные-это легко. Например, echo-e "x55",. В дополнение к ответам ниже следует отметить, что, очевидно, ваш терминал должен поддерживать Unicode для вывода, что вы ожидаете. гном-терминал делает хорошую работу это, но он не всегда включен по у ...

UnicodeDecodeError при чтении CSV-файла в панд с Python

Я запускаю программу, которая обрабатывает 30 000 подобных файлов. Случайное число из них останавливаются и производят эту ошибку... File "C:Importersrcdfmanimporter.py", line 26, in import_chr data = pd.read_csv(filepath, names=fields) File "C:Python33libsite-packagespandasioparsers.py", line 400, in parser_f return _read(filepath_or_buffer, kwds) File "C:Python33libsite-packagespandasioparsers.py", line 205, in _read return parser.read() File "C:Pyt ...

Как преобразовать wstring в строку?

вопрос в том, как преобразовать wstring в string? у меня есть следующий пример : #include <string> #include <iostream> int main() { std::wstring ws = L"Hello"; std::string s( ws.begin(), ws.end() ); //std::cout <<"std::string = "<<s<<std::endl; std::wcout<<"std::wstring = "<<ws<<std::endl; std::cout <<"std::string = "<<s<<std::endl; } вывод с закомментированной строкой: std::string = Hello s ...

Преобразование Юникода в ASCII без ошибок в Python

мой код просто очищает веб-страницу, а затем преобразует ее в Юникод. html = urllib.urlopen(link).read() html.encode("utf8","ignore") self.response.out.write(html) но я получаю UnicodeDecodeError: Traceback (most recent call last): File "/Applications/GoogleAppEngineLauncher.app/Contents/Resources/GoogleAppEngine-default.bundle/Contents/Resources/google_appengine/google/appengine/ext/webapp/__init__.py", line 507, in __call__ handler.get(*groups) File "/Users/greg/clounce/main.py", ...

Кодек "Unicode Error" unicodeescape не может декодировать байты... не удается открыть текстовые файлы в Python 3

Я использую python 3.1, на машинах windows 7. Русский язык является системным языком по умолчанию, а utf-8-кодировкой по умолчанию. глядя на ответ на предыдущий вопрос, я пытаюсь использовать модуль "кодеки", чтобы дать мне немного удачи. Вот несколько примеров: >>> g = codecs.open("C:UsersEricDesktopbeeline.txt", "r", encoding="utf-8") SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-4: truncated UXXXXXXXX escape (<pyshell#39>, line 1) &g ...

В чем разница между Unicode и UTF-8? [дубликат]

этот вопрос уже есть ответ здесь: в чем разница между UTF-8 и Unicode 13 ответов считаем: Это правда, что unicode=utf16? многие говорят, что Unicode-это стандарт, а не кодировка, но большинство редакторов поддерживают сохранение как Unicode кодирование на самом деле. ...

Разница между байтом и символом в типах данных столбцов

в Oracle, в чем разница между : CREATE TABLE CLIENT ( NAME VARCHAR2(11 BYTE), ID_CLIENT NUMBER ) и CREATE TABLE CLIENT ( NAME VARCHAR2(11 CHAR), -- or even VARCHAR2(11) ID_CLIENT NUMBER ) ...

(grep) регулярное выражение для сопоставления символов, отличных от ASCII?

на Linux, у меня есть каталог с большим количеством файлов. Некоторые из них имеют символы, отличные от ASCII, но все они действительны UTF-8. Одна программа имеет ошибку, которая мешает ей работать с именами файлов, отличными от ASCII, и мне нужно выяснить, сколько из них затронуты. Я собирался сделать это с find и чтобы напечатать символы, отличные от ASCII, а затем сделать wc -l найти количество. Это не обязательно должен быть grep; я могу использовать любой стандартный Unix регулярные выра ...

Ошибка MySQL "неверное строковое значение" при сохранении строки unicode в Django

я получил странное сообщение об ошибке при попытке сохранить first_name, last_name для модели auth_user Django. неудачные примеры user = User.object.create_user(username, email, password) user.first_name = u'Rytis' user.last_name = u'Slatkevičius' user.save() >>> Incorrect string value: 'xC4x8Dius' for column 'last_name' at row 104 user.first_name = u'Валерий' user.last_name = u'Богданов' user.save() >>> Incorrect string value: 'xD0x92xD0xB0xD0xBB...' for column 'fir ...

Почему Python печатает символы юникода, когда кодировка по умолчанию-ASCII?

из оболочки Python 2.6: >>> import sys >>> print sys.getdefaultencoding() ascii >>> print u'xe9' é >>> Я ожидал, что после инструкции print будет какая-то тарабарщина или ошибка, так как символ "é" не является частью ASCII, и я не указал кодировку. Я думаю, я не понимаю, что ASCII является кодировкой по умолчанию означает. EDIT я переместил редактирование в ответы раздел и принял его как предложено. ...

Разница между Char.IsDigit () и Char.IsNumber () в C#

в чем разница между Char.IsDigit() и Char.IsNumber() в C#? ...