Обработка юникода в C++

Question

Обработка юникода в C++

какова лучшая практика обработки Юникода в C++?

942 9

c++unicode

9 ответов:

Comments

Ничего не найдено.

hazzen · Accepted Answer · 2012-07-25 07:16:52

использовать ICU для работы с вашими данными (или аналогичных библиотек)

в своем хранилище данных, убедитесь, что все хранится в той же кодировке

убедитесь, что вы всегда используете свою библиотеку unicode для повседневных задач, таких как длина строки, Статус капитализации и т. д. Никогда не используйте стандартные встроенные библиотеки, такие как is_alpha Если это не то определение, которое вы хотите.

Я не могу сказать, что этого достаточно: никогда не перебирайте индексы а string Если вы заботитесь о правильности, всегда используйте для этого свою библиотеку unicode.

eestrada · Accepted Answer · 2012-11-28 20:57:05

Если вы не заботитесь о обратной совместимости с предыдущими стандартами C++, текущий стандарт C++11 имеет встроенную поддержку Unicode:http://www.open-std.org/JTC1/SC22/WG21/docs/papers/2011/n3242.pdf

поэтому действительно лучшей практикой для обработки Unicode в C++ было бы использовать встроенные средства для этого. Это не всегда возможно с более старыми кодовыми базами, хотя стандарт является настолько новым в настоящее время.

изменить: чтобы уточнить, C++11 Unicode осознает, что теперь он поддерживает литералы Unicode и строки Unicode. Однако стандартная библиотека имеет только ограниченная поддержка для обработки и преобразования Unicode. Для ваших текущих потребностей этого может быть достаточно. Однако, если вам нужно сделать большое количество тяжелой работы прямо сейчас, то вам все равно может понадобиться использовать что-то вроде ICU для более глубокой обработки. Есть несколько предложений в настоящее время работает для включения более надежной поддержки для преобразования текста между различными кодировками. Я думаю (и надеюсь), что это будет частью следующего технический отчет.

jschroedl · Accepted Answer · 2008-09-11 04:46:51

наша компания (и другие) используют открытый исходный код международные компоненты для Unicode (ICU) библиотека первоначально разработанная Taligent.

он обрабатывает строки, локали, преобразования, дату / время, параметры сортировки, преобразования и т. д. Эл.

с ICU Userguide

Adam Pierce · Accepted Answer · 2008-09-11 04:33:53

вот контрольный список для программирования Windows:

все строки, заключенные в _T ("моя строка")

strlen () etc. функции заменяется _tcslen() и т. д.

используйте LPTSTR и LPCTSTR вместо char * и const char*

при запуске новых проектов в dev Studio, религиозно убедитесь, что параметр Unicode выбран в свойствах проекта.

для строк C++ используйте std:: wstring вместо std:: string

ine · Accepted Answer · 2017-05-23 15:33:54

посмотреть сравнение строк без учета регистра в C++

этот вопрос имеет ссылку на документацию Microsoft по Unicode:http://msdn.microsoft.com/en-us/library/cc194799.aspx

Если вы посмотрите на левой стороне навигации на MSDN рядом с этой статьей, Вы должны найти много информации, относящейся к функциям Unicode. Это часть главы " кодирование символов" (http://msdn.microsoft.com/en-us/library/cc194786.aspx)

Он имеет следующие подразделы:

Модель Кодовой Страницы

двухбайтовые наборы символов в Windows

Unicode

проблемы совместимости в смешанных средах

Преобразование Данных Юникода

миграция Windows-программ в Unicode

резюме

Willow Schlanger · Accepted Answer · 2012-03-12 06:10:39

хотя это может быть не лучшая практика для всех, вы можете написать свои собственные процедуры C++ UNICODE, если хотите!

Я только что закончил делать это на выходных. Я многому научился, хотя я не гарантирую, что это 100% ошибка бесплатно, я сделал много тестов, и это, кажется, работает правильно.

мой код под новой лицензией BSD и может быть найден здесь:

http://code.google.com/p/netwidecc/downloads/list

Это называется WSUCONV и поставляется с образцом программы main (), которая преобразует между UTF-8, UTF-16 и стандартным ASCII. Если вы выбросите основной код, у вас есть хорошая библиотека для чтения / записи UNICODE.

Paul Hutchinson · Accepted Answer · 2017-05-31 19:34:30

Как было сказано выше библиотека является лучшим выбором при использовании большой системы. Однако иногда вы хотите обрабатывать вещи самостоятельно (возможно, потому, что библиотека будет использовать многие ресурсы, такие как микроконтроллер). В этом случае вам нужна простая библиотека, из которой вы можете скопировать детали для вещей, которые вам действительно нужны.

пример кода Willow Schlanger кажется хорошим (см. Его ответ для более подробной информации).

Я также нашел еще один, который меньший код, но не хватает полной проверки ошибок и только обрабатывает UTF-8, но было проще вынимать части.

вот список встроенных библиотек, которые выглядят прилично.

встроенные библиотеки

http://code.google.com/p/netwidecc/downloads/list (UTF8, UTF16LE, UTF16BE, UTF32)

http://www.cprogramming.com/tutorial/unicode.html (В utf8)

http://utfcpp.sourceforge.net/ (простая библиотека UTF8)

Joe Schneider · Accepted Answer · 2008-09-11 04:39:07

используйте IBM международные компоненты для Unicode

Jan Rüegg · Accepted Answer · 2016-09-23 12:30:58

взгляните на рекомендации UTF-8 везде