Существует ли набор файлов "Lorem ipsums" для тестирования проблем с кодировкой символов?

Question

Существует ли набор файлов "Lorem ipsums" для тестирования проблем с кодировкой символов?

для layouting у нас есть наш знаменитый текст "Lorem ipsum", чтобы проверить, как это выглядит.

то, что я ищу, - это набор файлов, содержащих текст, закодированный с несколькими различными кодировками, которые я могу использовать в своих тестах JUnit для тестирования некоторых методов, которые имеют дело с кодировкой символов при чтении текстовых файлов.

Образец:

имеющего ISO 8859-1 закодированный тест-файл и A Windows-1252 закодированный тестовый файл. Windows-1252, которая обязательно вызовет разногласия в регионе 80₁₆ - 9F₁₆. Другими словами, он должен содержать по крайней мере один символ этой области, чтобы отличить его от ISO 8859-1.

возможно, лучший набор тестовых файлов-это тот, где тестовый файл для каждой кодировки содержит все свои символы один раз. Но, может быть, я не знаю о sth - нам всем нравится этот кодирующий материал, верно? : -)

существует ли такой набор тестовых файлов для проблем кодирования символов?

655 4

java unit-testing character-encoding junit

4 ответов:

Comments

Ничего не найдено.

Daniel Teply · Accepted Answer · 2012-02-16 14:41:56

Как насчет того, чтобы попытаться использовать ICU файлы тестов? Я не знаю, являются ли они тем, что вам нужно для вашего теста, но они, похоже, имеют довольно полные файлы отображения из / в UTF по крайней мере:ссылка на РЕПО для тестовых файлов ICU

Tomasz Nurkiewicz · Accepted Answer · 2012-02-16 11:53:05

статья Википедии о диакритические знаки довольно полный, К сожалению, вы должны извлечь эти символы вручную. Также может существовать некоторая мнемоника для каждого языка. Например, в польском языке мы используем:

Zażółć gęślą jaźń

который содержит все 9 польских диакритических знаков в одном правильном предложении. Еще одна полезная подсказка для поиска везде:предложения, используя каждую букву алфавита, по крайней мере один раз:

по-испански, "El veloz murciélago hindú comía feliz cardillo y kiwi. Ла-отеля cigüeña tocaba Эль saxofón detrás-дель-Паленке-де-Баджо." (все 27 букв и диакритических знаков).

в России, "Съешь же ещё этих мягких французских булок," (все 33 буквы русского кириллического алфавита).

список панграммы содержит исчерпывающее резюме. Кто-нибудь хочет обернуть это в простой:
public interface NationalCharacters {
  String spanish();
  String russian();
  //...
}
библиотеки?

Optimist · Accepted Answer · 2012-02-11 00:40:03

Я не знаю никаких полных текстовых документов, но если вы можете начать с простого обзора всех наборов символов, есть некоторые файлы, доступные в ftp.unicode.org сервер

вот WINDOWS-1252 например. Первый столбец-это шестнадцатеричное символьное значение, а второй-значение Юникода.

ftp://ftp.unicode.org/Public/MAPPINGS/VENDORS/MICSFT/WINDOWS/CP1250.TXT

Sandeep Nair · Accepted Answer · 2012-02-08 13:21:45

Ну, я использовал онлайн-инструмент для создания моих наборов текстовых символов из Lorem Ipsum. Я верю, что это может помочь вам. У меня нет одного, который имеет все различные наборы символов на одной странице.

http://generator.lorem-ipsum.info/