nlp- все статьи тега
Список "стоп-слов" для английского языка? [закрытый]
Я генерирую некоторую статистику для некоторого англоязычного текста, и я хотел бы пропустить неинтересные слова, такие как "a" и "the". где я могу найти некоторые списки этих неинтересных слов? Является ли список этих слов таким же, как список наиболее часто используемых слов в английском языке? Update: они, по-видимому, называются "стоп-слова", а не "пропущенные слова". ...
Классификация текста с помощью Java
Мне нужно отнести текст или слово к определенной категории. Например, текст "Pink Floyd" должен быть классифицирован как "музыка" или "Викимедиа" как "технология" или "Эйнштейн" как "наука". Как это можно сделать? Есть ли способ, которым я могу использовать DBpedia для того же самого? Если нет, то база данных должна быть обучена время от времени, верно? ...
SimpleNLG-создание предложения из 2 частей с использованием " заполнителей"
Кто-нибудь знает, как (используя SimpleNLG) создать правильное" двухчастное " предложение, например (я не лингвист, поэтому я не совсем уверен, какие синтаксические категории каждое слово / фраза: " я купил новый движок виджетов, который создал продукт A, продукт B и продукт C." Текст, выделенный жирным шрифтом, будет вставлен динамически во время выполнения синтаксическим анализатором или чем-то еще. Я пошел через учебник SimpleNLG (там, кажется, не быть что-нибудь еще это более подро ...
Как найти частоту ngram столбца в фрейме данных pandas?
Ниже приведен входной фрейм данных pandas, который у меня есть. Я хочу найти частоту униграмм и биграмм. Пример того, что я ожидаю, показан ниже Как это сделать с помощью nltk или scikit learn? Я написал ниже код, который принимает строку в качестве входных данных. Как расширить его до серии / фрейма данных? from nltk.collocations import * desc='john is a guy person you him guy person you him' tokens = nltk.word_tokenize(desc) bigram_measures = nltk.collocations.BigramAssocMeasures() finde ...
Как Google "вы имели в виду?- Алгоритм работает?
Я разрабатываю внутренний веб-сайт для инструмента управления портфелем. Есть много текстовой информации, названия компании и т. д. Я был действительно впечатлен способностью некоторых поисковых систем очень быстро реагировать на запросы с помощью "did you mean: xxxx". Мне нужно уметь разумно принимать запрос пользователя и отвечать не только сырыми результатами поиска, но и с помощью "вы имели в виду?"ответ, когда есть весьма вероятный альтернативный ответ и т. д. [Я развивается в ASP.NET ( ...
Java Stanford NLP: часть речевых ярлыков?
Стэнфордский НЛП, demo'D здесь, дает такой вывод: Colorless/JJ green/JJ ideas/NNS sleep/VBP furiously/RB ./. что означает часть речевых тегов? Я не могу найти официальный список. Это собственная система Стэнфорда, или они используют универсальные теги? (Что такое JJ, например?) кроме того, когда я повторяю предложения, ища существительные, например, я в конечном итоге делаю что-то вроде проверки, чтобы увидеть, если тег .contains('N'). Это кажется довольно слабым. Есть ли лучший способ прогр ...
Сходство между двумя текстовыми документами
Я смотрю на работу над проектом NLP, на любом языке (хотя Python будет моим предпочтением). Я хочу написать программу, которая будет принимать два документа и определить, насколько они похожи. Как я довольно новичок в этом и быстрый поиск google не указывает мне слишком много. Знаете ли вы какие-либо ссылки (веб-сайты, учебники, журнальные статьи), которые охватывают эту тему и могли бы мне помочь? спасибо ...
Как я могу правильно приставить слово с "А"и " Ан"?
У меня есть приложение .NET, где, учитывая существительное, я хочу, чтобы оно правильно префикс этого слова с "a" или "an". Как бы я это сделал? прежде чем вы подумаете, что ответ должен просто проверить, является ли первая буква гласной, рассмотрите такие фразы, как: ошибка подержанный автомобиль ...
в чем истинная разница между лемматизацией и стеммингом?
когда я использую каждый ? Also...is лемматизация NLTK зависит от частей речи? Разве это не было бы более точным, если бы это было так? ...
Анализа настроений в Twitter в Python [закрыт]
Я ищу реализацию с открытым исходным кодом, предпочтительно в python, из Анализ Текстовых Настроений (http://en.wikipedia.org/wiki/Sentiment_analysis). Кто-нибудь знаком с такой реализацией с открытым исходным кодом, которую я могу использовать? Я пишу приложение, которое ищет twitter для некоторого поискового запроса, скажем "youtube", и подсчитывает" счастливые "твиты против" грустных " твитов. Я использую приложение Google, так что это в python. Я хотел бы иметь возможность классифицироват ...