7 ответов:
короткие и плотные: http://nlp.stanford.edu/IR-book/html/htmledition/stemming-and-lemmatization-1.html
цель как стеммирования, так и лемматизации состоит в том, чтобы свести флективные формы, а иногда и деривационно связанные формы слова к общей базовой форме.
однако эти два слова отличаются по своему вкусу. Стемминг обычно относится к грубому эвристическому процессу, который отрубает концы слов в надежде на достижение этой цели правильно большую часть времени, и часто включает в себя удаление словообразовательных аффиксов. Лемматизация обычно относится к тому, чтобы делать все правильно с использованием словаря и морфологического анализа слов, обычно стремясь удалить только флективные окончания и вернуть базовую или словарную форму слова, которая известна как Лемма .
из документов NLTK:
лемматизация и стемминг являются частными случаями нормализации. Они определяют канонический представитель для набора связанных словоформ.
Lemmatisation тесно связан с stemming. Разница в том, что stemmer работает на одном слове без знания контекста, и поэтому не может различать слова, которые имеют разные значения в зависимости от части речи. Однако модули, как правило, легче реализовать и работать быстрее, а сниженная точность не может дело за некоторыми приложениями.
например:
слово " лучше "имеет лемму" хорошо". Эта ссылка пропущена стемминг, так как он требует поиска словаря.
слово "ходить" является базовой формой для Слова "ходить", и, следовательно, это соответствует как в стволовой, так и в лемматизации.
слово "встреча" может быть либо базовой формой существительного, либо формой глагола ("встретиться") в зависимости от контекста, например, "в нашем последнем встреча" или "мы встречаемся опять завтра". В отличие от забоя, лемматизация может в принципе выбрать соответствующую лемму в зависимости от контекста.
Как указал Майн, стемминг - это процесс удаления флективных и иногда деривационных аффиксов к базовой форме, с которой, вероятно, связаны все исходные слова. Лемматизация связана с получением одного слова, что позволяет сгруппировать вместе кучу флективных форм. Это сложнее, чем стемминг, потому что он требует учета контекста (и, следовательно, значения слова), в то время как стемминг игнорирует контекст.
Что касается того, когда вы бы используйте один или другой, это вопрос того, насколько ваше приложение зависит от правильного значения слова в контексте. Если вы делаете машинный перевод, вы, вероятно, хотите лемматизации, чтобы избежать неправильного перевода слова. Если вы выполняете поиск информации более миллиарда документов с 99% ваших запросов в диапазоне от 1-3 слов, вы можете согласиться на стемминг.
Что касается NLTK, WordNetLemmatizer использует часть речи, хотя вы должны ее предоставить (в противном случае это по умолчанию-существительные). Передавая это "голубь" и "в" выходы "погружение", а "голубь" и "N" дает "голубь".
цель обоих прослойка и лемматизации является уменьшение морфологической изменчивости. Это в отличие от более общих процедур "объединения терминов", которые также могут касаться лексико-семантических, синтаксических или орфографических вариаций.
реальная разница между стеммингом и лемматизацией в три раза:
стемминг сводит словоформы к (псевдо)стеблям, в то время как лемматизация сводит словоформы к лингвистически обоснованным леммам. Этот разница очевидна в языках с более сложной морфологией, но может быть неуместна для многих ИК-приложений;
лемматизация имеет дело только с флективной дисперсией, тогда как стемминг может также иметь дело с деривационной дисперсией;
с точки зрения реализации, лемматизация обычно более сложна (особенно для морфологически сложных языков) и обычно требует какой-то лексики. Satisfatory, обусловленные, с другой стороны, может быть достигнуто с помощью довольно простых подходов, основанных на правилах.
лемматизация может также быть подкреплены часть речи Таггер для того, чтобы различать омонимы.
есть два аспекта, чтобы показать их различия:
A Штеммер вернет стебель слова, который не обязательно должен быть идентичен морфологическому корню слова. Обычно достаточно, чтобы связанные слова отображались на один и тот же стебель,даже если стебель сам по себе не является действительным корнем, а в lemmatisation, он вернет словарную форму слова, которое должно быть действительным словом.
In lemmatisation, сначала должна быть определена часть речи слова, и правила нормализации будут разными для разных частей речи, в то время как Штеммер работает на одном слове без знания контекста, и поэтому не может различать слова, которые имеют разные значения в зависимости от части речи.
ссылка http://textminingonline.com/dive-into-nltk-part-iv-stemming-and-lemmatization
примерное объяснение различий между лемматизацией и стеммингом:
лемматизация ручки соответствие "автомобиль "к" автомобили " вдоль с соответствием "автомобиль "к"автомобилю".
Stemming ручки соответствие "автомобиль" к "автомобили" .
лемматизация подразумевает более широкую область нечеткого сопоставления слов, то есть все еще обрабатывается теми же подсистемами. Это подразумевает определенные методы для низкоуровневой обработки внутри двигатель, и может также отразить инженерное предпочтение терминологии.
[...] Принимая быстро в качестве примера, их двигатель лемматизации обрабатывает не только основные вариации слов, такие как единственное и множественное число, но также операторы тезауруса любят иметь " горячий" матч "теплый".
Это не означает, что другие двигатели не обрабатывают синонимы, конечно они делают, но реализация низкого уровня может быть в другом подсистемы, чем те, которые обрабатывают базовую забойку.
ianacl
но я думаю, что Stemming-это грубый хак, который люди используют, чтобы получить все различные формы одного и того же слова до базовой формы, которая не должна быть законным словом сама по себе
Что-то вроде Porter Stemmer can использует простые регулярные выражения для устранения общих суффиксов словлемматизация приводит слово к его фактической базовой форме, которая в случае неправильных глаголов может выглядеть совсем не так, как входное слово
Что-то вроде Morpha, который использует FSTs для приведения существительных и глаголы к их основной форме
Comments