Список "стоп-слов" для английского языка? [закрытый]

Question

Список "стоп-слов" для английского языка? [закрытый]

Я генерирую некоторую статистику для некоторого англоязычного текста, и я хотел бы пропустить неинтересные слова, такие как "a" и "the".

где я могу найти некоторые списки этих неинтересных слов?

Update: они, по-видимому, называются "стоп-слова", а не "пропущенные слова".

948 6

filtering indexing language-agnostic nlp stop-words

6 ответов:

Comments

Ничего не найдено.

Thomas · Accepted Answer · 2009-08-02 10:23:54

Волшебное слово, которое нужно вставить в Google, - это "стоп-слова". Это приводит кразумно выглядящему Списку .

MySQL также имеетвстроенный список стоп-слов , но это слишком всеобъемлюще на мой вкус. Например, в нашей университетской библиотеке у нас были проблемы, потому что "третий" в "третьем мире" считалось стоп-словом.

Ahmed Said · Accepted Answer · 2009-08-02 10:23:01

Они называются стоп-слова, проверьте этот Образец

hashable · Accepted Answer · 2012-11-04 20:51:40

В зависимости от поддомена английского языка, в котором вы работаете, вы можете иметь/хотите составить свой собственный список стоп-слов. Некоторые общие стоп-слова могут быть значимыми в домене. Например, слово " are " на самом деле может быть аббревиатурой/сокращением в некоторой области. И наоборот, вы можете игнорировать некоторые доменные слова в зависимости от вашего приложения, которые вы не можете игнорировать в области общего английского языка. Например, если вы анализируете корпус больничных отчетов, вы можете не обращайте внимания на такие слова, как "история болезни" и "симптомы", поскольку они встречаются в каждом отчете и могут оказаться бесполезными (с точки зрения простого перевернутого индекса ванили).

В противном случае списки, возвращаемые Google, должны быть в порядке. Стеммер Портера использует это, а реализация двигателя Lucene seach использует это.

Sean A.O. Harney · Accepted Answer · 2009-08-02 10:24:59

Получить статистику о частоте слов в больших корпусах txt. Игнорируйте все слова с частотой > некоторого числа.

Robert Petermeier · Accepted Answer · 2009-08-02 10:59:08

Я думаю, что использовал список стоп-слов для немецкого языка из здесь , Когда я построил приложение поиска с lucene.net совсем недавно. Сайт также содержит список для английского языка,и списки на сайте-это те, которые проект lucene использует по умолчанию.

monksy · Accepted Answer · 2009-10-31 00:17:23

Обычно эти слова появляются в документах с наибольшей частотой. Предположим, у вас есть глобальный список слов:
{ Word Count }
Со списком слов, если вы упорядочили слова от самого высокого числа до самого низкого, у вас будет график (count (ось y) и word (ось x), который является обратной логарифмической функцией. Все стоп-слова будут слева, а точка остановки "стоп-слов" будет там, где существует самая высокая 1-я производная.

Это решение лучше чем попытка словаря:

это решение является универсальным подходом, который не связан языком

эта попытка учит, какие слова считаются "стоп-словами"

эта попытка даст лучшие результаты для коллекций, которые очень похожи, и даст уникальные списки слов для элементов в коллекциях

стоп-слова могут быть пересчитаны позже (при этом может быть кэширование и статистическое определение того, что стоп-слова могли измениться с того момента, когда они были вычислены)

это также может устранить временные или неформальные слова и имена (такие как сленг, или если у вас была куча документов, в заголовке которых было название компании)

Словарная попытка лучше:

время поиска намного быстрее

результаты предварительно обработаны

его простой

кто-то еще придумал стоп-слова.