Python-кодек 'ascii' не может декодировать байт

Question

Python-кодек 'ascii' не может декодировать байт

Я совсем запуталась. Я попытался закодировать, но ошибка сказала can't decode....

>>> "你好".encode("utf8")

Traceback (most recent call last):

File "<stdin>", line 1, in <module>

UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position 0: ordinal not in range(128)

Я знаю, как избежать ошибки с префиксом "u" в строке. Мне просто интересно, почему ошибка "не может декодировать", когда encode был вызван. Что питон делает под капотом?

1004 7

python unicode python-2.x

7 ответов:

Comments

Ничего не найдено.

Winston Ewert · Accepted Answer · 2012-03-10 07:34:51

"你好".encode('utf-8')
encode преобразует объект unicode в string "объект". Но здесь вы вызвали его на string объект (потому что у вас нет u). Поэтому python должен преобразовать string до unicode объект первый. Так что он делает эквивалент
"你好".decode().encode('utf-8')
но декодировать не удается, потому что строка не является допустимым ascii. Вот почему вы получаете жалобу на то, что не можете декодировать.

wim · Accepted Answer · 2016-12-16 21:02:38

всегда кодирование из юникода в байтах.
В этом направлении, вы можете выбрать кодировку.
>>> u"你好".encode("utf8")
'\xe4\xbd\xa0\xe5\xa5\xbd'
>>> print _
你好
другой способ-декодировать из байтов в Юникод.
В этом направлении, вы должны знать, что кодировка-это.
>>> bytes = '\xe4\xbd\xa0\xe5\xa5\xbd'
>>> print bytes
你好
>>> bytes.decode('utf-8')
u'\u4f60\u597d'
>>> print _
你好
этот пункт не может быть подчеркнуто достаточно. Если вы хотите избежать воспроизведения unicode "whack-a-mole", важно понять, что происходит на уровне данных. Здесь это объясняется по-другому:

объект unicode уже декодирован, вы никогда не хотите вызывать decode на нем.

объект bytestring уже закодирован, вы никогда не хотите вызывать encode на нем.

теперь, увидев .encode в байтовой строке Python 2 сначала пытается неявно преобразовать ее в текст (a

Dadaso Zanzane · Accepted Answer · 2016-05-13 11:16:26

вы можете попробовать этот
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
или

вы можете попробовать следующие

добавить следующую строку в верхней части файла.py.
# -*- coding: utf-8 -*- 

Johnsyweb · Accepted Answer · 2012-03-10 07:20:13

Если вы используете Python строковый литерал является Unicode, префикс его с u:

Python 2.7.2 (default, Jan 14 2012, 23:14:09) 
[GCC 4.2.1 (Based on Apple Inc. build 5658) (LLVM build 2335.15.00)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> "你好".encode("utf8")
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position 0: ordinal not in range(128)
>>> u"你好".encode("utf8")
'\xe4\xbd\xa0\xe5\xa5\xbd'

более дальнеишее чтение: Unicode HOWTO.

Qingtian · Accepted Answer · 2014-06-04 21:46:07

вы используете u"你好".encode('utf8') для кодирования строки Юникода. Но если вы хотите представить "你好", вы должны расшифровать его. Так же, как:
"你好".decode("utf8")
вы получите то, что вы хотите. Возможно, вам стоит узнать больше о encode & decode.

kenorb · Accepted Answer · 2017-05-28 19:36:09

в случае, если вы имеете дело с Unicode, иногда вместо encode('utf-8'), вы также можете пытаться игнорировать специальные символы, например
"你好".encode('ascii','ignore')
или something.decode('unicode_escape').encode('ascii','ignore') как предложил здесь.

не особенно полезно в этом примере, но может работать лучше в других сценариях, когда невозможно преобразовать некоторые специальные символы.

в качестве альтернативы вы можете рассмотреть замена конкретного символа с помощью replace().

0range · Accepted Answer · 2018-09-28 01:51:27

если вы запускаете интерпретатор python из оболочки в Linux или аналогичных системах (BSD, не уверен в Mac), вы также должны проверить кодировку по умолчанию для оболочки.

вызов locale charmap из оболочки (не интерпретатор Python) и вы должны увидеть
[user@host dir] $ locale charmap
UTF-8
[user@host dir] $ 
если это не так, и вы видите что-то другое, например
[user@host dir] $ locale charmap
ANSI_X3.4-1968
[user@host dir] $ 
Python будет (по крайней мере, в некоторых случаях, например, в моем) наследовать кодировку оболочки и не сможет печатать (некоторые? все?) символ Юникода. Собственная кодировка Python по умолчанию, которую вы видите и контролируете через sys.getdefaultencoding() и sys.setdefaultencoding() в этом случае игнорируется.

если вы обнаружите, что у вас есть эта проблема, вы можете исправить это с помощью
[user@host dir] $ export LC_CTYPE="en_EN.UTF-8"
[user@host dir] $ locale charmap
UTF-8
[user@host dir] $ 
(или альтернативно выберите любую клавиатуру, которую вы хотите вместо en_EN.) Вы также можете редактировать /etc/locale.conf (или какой-либо файл управляет определением локали в вашей системе), чтобы исправить это.