nlp- все статьи тега

Как использовать агенты Hugging Face для решения задач NLP

578

15 сент. 2023 г.

полезное

Пошаговое руководство по NLP: конструирование признаков текстовых данных

380

03 марта 2023 г.

полезное

Machine Learning nlp Python

Методы лингвистического моделирования с использованием Python

694

29 нояб. 2021 г.

полезное

nlp Python

Основы обработки естественного языка за 10 минут

900

27 июля 2021 г.

полезное

nlp

Список "стоп-слов" для английского языка? [закрытый]

Я генерирую некоторую статистику для некоторого англоязычного текста, и я хотел бы пропустить неинтересные слова, такие как "a" и "the". где я могу найти некоторые списки этих неинтересных слов? Является ли список этих слов таким же, как список наиболее часто используемых слов в английском языке? Update: они, по-видимому, называются "стоп-слова", а не "пропущенные слова". ...

945

27 янв. 2020 г.

filtering indexing language-agnostic nlp stop-words

Классификация текста с помощью Java

Мне нужно отнести текст или слово к определенной категории. Например, текст "Pink Floyd" должен быть классифицирован как "музыка" или "Викимедиа" как "технология" или "Эйнштейн" как "наука". Как это можно сделать? Есть ли способ, которым я могу использовать DBpedia для того же самого? Если нет, то база данных должна быть обучена время от времени, верно? ...

727

27 янв. 2020 г.

nlp machine-learning dbpedia ontology

SimpleNLG-создание предложения из 2 частей с использованием " заполнителей"

Кто-нибудь знает, как (используя SimpleNLG) создать правильное" двухчастное " предложение, например (я не лингвист, поэтому я не совсем уверен, какие синтаксические категории каждое слово / фраза: " я купил новый движок виджетов, который создал продукт A, продукт B и продукт C." Текст, выделенный жирным шрифтом, будет вставлен динамически во время выполнения синтаксическим анализатором или чем-то еще. Я пошел через учебник SimpleNLG (там, кажется, не быть что-нибудь еще это более подро ...

339

27 янв. 2020 г.

nlp text-analysis

Как найти частоту ngram столбца в фрейме данных pandas?

Ниже приведен входной фрейм данных pandas, который у меня есть. Я хочу найти частоту униграмм и биграмм. Пример того, что я ожидаю, показан ниже Как это сделать с помощью nltk или scikit learn? Я написал ниже код, который принимает строку в качестве входных данных. Как расширить его до серии / фрейма данных? from nltk.collocations import * desc='john is a guy person you him guy person you him' tokens = nltk.word_tokenize(desc) bigram_measures = nltk.collocations.BigramAssocMeasures() finde ...

681

27 янв. 2020 г.

pandas nlp scikit-learn nltk

Как Google "вы имели в виду?- Алгоритм работает?

Я разрабатываю внутренний веб-сайт для инструмента управления портфелем. Есть много текстовой информации, названия компании и т. д. Я был действительно впечатлен способностью некоторых поисковых систем очень быстро реагировать на запросы с помощью "did you mean: xxxx". Мне нужно уметь разумно принимать запрос пользователя и отвечать не только сырыми результатами поиска, но и с помощью "вы имели в виду?"ответ, когда есть весьма вероятный альтернативный ответ и т. д. [Я развивается в ASP.NET ( ...

749

24 июля 2019 г.

nlp algorithm spell-checking machine-learning text-search

Java Stanford NLP: часть речевых ярлыков?

Стэнфордский НЛП, demo'D здесь, дает такой вывод: Colorless/JJ green/JJ ideas/NNS sleep/VBP furiously/RB ./. что означает часть речевых тегов? Я не могу найти официальный список. Это собственная система Стэнфорда, или они используют универсальные теги? (Что такое JJ, например?) кроме того, когда я повторяю предложения, ища существительные, например, я в конечном итоге делаю что-то вроде проверки, чтобы увидеть, если тег .contains('N'). Это кажется довольно слабым. Есть ли лучший способ прогр ...

461

24 июля 2019 г.

java nlp

Сходство между двумя текстовыми документами

Я смотрю на работу над проектом NLP, на любом языке (хотя Python будет моим предпочтением). Я хочу написать программу, которая будет принимать два документа и определить, насколько они похожи. Как я довольно новичок в этом и быстрый поиск google не указывает мне слишком много. Знаете ли вы какие-либо ссылки (веб-сайты, учебники, журнальные статьи), которые охватывают эту тему и могли бы мне помочь? спасибо ...

798

24 июля 2019 г.

nlp

Как я могу правильно приставить слово с "А"и " Ан"?

У меня есть приложение .NET, где, учитывая существительное, я хочу, чтобы оно правильно префикс этого слова с "a" или "an". Как бы я это сделал? прежде чем вы подумаете, что ответ должен просто проверить, является ли первая буква гласной, рассмотрите такие фразы, как: ошибка подержанный автомобиль ...

445

24 июля 2019 г.

c#nlp linguistics

в чем истинная разница между лемматизацией и стеммингом?

когда я использую каждый ? Also...is лемматизация NLTK зависит от частей речи? Разве это не было бы более точным, если бы это было так? ...

720

24 июля 2019 г.

python nlp nltk lemmatization

Анализа настроений в Twitter в Python [закрыт]

Я ищу реализацию с открытым исходным кодом, предпочтительно в python, из Анализ Текстовых Настроений (http://en.wikipedia.org/wiki/Sentiment_analysis). Кто-нибудь знаком с такой реализацией с открытым исходным кодом, которую я могу использовать? Я пишу приложение, которое ищет twitter для некоторого поискового запроса, скажем "youtube", и подсчитывает" счастливые "твиты против" грустных " твитов. Я использую приложение Google, так что это в python. Я хотел бы иметь возможность классифицироват ...

561

24 июля 2019 г.

python nlp open-source