Список "стоп-слов" для английского языка? [закрытый]
Я генерирую некоторую статистику для некоторого англоязычного текста, и я хотел бы пропустить неинтересные слова, такие как "a" и "the".
- где я могу найти некоторые списки этих неинтересных слов?
Является ли список этих слов таким же, как список наиболее часто используемых слов в английском языке?
Update: они, по-видимому, называются "стоп-слова", а не "пропущенные слова".
6 ответов:
Волшебное слово, которое нужно вставить в Google, - это "стоп-слова". Это приводит кразумно выглядящему Списку .
MySQL также имеетвстроенный список стоп-слов , но это слишком всеобъемлюще на мой вкус. Например, в нашей университетской библиотеке у нас были проблемы, потому что "третий" в "третьем мире" считалось стоп-словом.
Они называются стоп-слова, проверьте этот Образец
В зависимости от поддомена английского языка, в котором вы работаете, вы можете иметь/хотите составить свой собственный список стоп-слов. Некоторые общие стоп-слова могут быть значимыми в домене. Например, слово " are " на самом деле может быть аббревиатурой/сокращением в некоторой области. И наоборот, вы можете игнорировать некоторые доменные слова в зависимости от вашего приложения, которые вы не можете игнорировать в области общего английского языка. Например, если вы анализируете корпус больничных отчетов, вы можете не обращайте внимания на такие слова, как "история болезни" и "симптомы", поскольку они встречаются в каждом отчете и могут оказаться бесполезными (с точки зрения простого перевернутого индекса ванили).
В противном случае списки, возвращаемые Google, должны быть в порядке. Стеммер Портера использует это, а реализация двигателя Lucene seach использует это.
Получить статистику о частоте слов в больших корпусах txt. Игнорируйте все слова с частотой > некоторого числа.
Я думаю, что использовал список стоп-слов для немецкого языка из здесь , Когда я построил приложение поиска с lucene.net совсем недавно. Сайт также содержит список для английского языка,и списки на сайте-это те, которые проект lucene использует по умолчанию.
Обычно эти слова появляются в документах с наибольшей частотой. Предположим, у вас есть глобальный список слов:
{ Word Count }Со списком слов, если вы упорядочили слова от самого высокого числа до самого низкого, у вас будет график (count (ось y) и word (ось x), который является обратной логарифмической функцией. Все стоп-слова будут слева, а точка остановки "стоп-слов" будет там, где существует самая высокая 1-я производная.
Это решение лучше чем попытка словаря:
- это решение является универсальным подходом, который не связан языком
- эта попытка учит, какие слова считаются "стоп-словами"
- эта попытка даст лучшие результаты для коллекций, которые очень похожи, и даст уникальные списки слов для элементов в коллекциях
- стоп-слова могут быть пересчитаны позже (при этом может быть кэширование и статистическое определение того, что стоп-слова могли измениться с того момента, когда они были вычислены)
- это также может устранить временные или неформальные слова и имена (такие как сленг, или если у вас была куча документов, в заголовке которых было название компании)
Словарная попытка лучше:
- время поиска намного быстрее
- результаты предварительно обработаны
- его простой
- кто-то еще придумал стоп-слова.
Comments