nltk- все статьи тега ➜ страница 0


Ошибки в nltk

При запуске скрипта Python с использованием NLTK я получил следующее: Traceback (most recent call last): File "cpicklesave.py", line 56, in <module> pos = nltk.pos_tag(words) File "/usr/lib/python2.7/site-packages/nltk/tag/__init__.py", line 110, in pos_tag tagger = PerceptronTagger() File "/usr/lib/python2.7/site-packages/nltk/tag/perceptron.py", line 140, in __init__ AP_MODEL_LOC = str(find('taggers/averaged_perceptron_tagger/'+PICKLE)) File "/usr/lib/python2.7/site- ...

Как найти частоту ngram столбца в фрейме данных pandas?

Ниже приведен входной фрейм данных pandas, который у меня есть. Я хочу найти частоту униграмм и биграмм. Пример того, что я ожидаю, показан ниже Как это сделать с помощью nltk или scikit learn? Я написал ниже код, который принимает строку в качестве входных данных. Как расширить его до серии / фрейма данных? from nltk.collocations import * desc='john is a guy person you him guy person you him' tokens = nltk.word_tokenize(desc) bigram_measures = nltk.collocations.BigramAssocMeasures() finde ...

Как создать облако слов из корпуса в Python?

От создавая подмножество слов из корпуса в R, ответчик может легко преобразовать term-document matrix в облако слов. Существует ли аналогичная функция из библиотек python, которая принимает либо необработанный текстовый файл word, либо NLTK corpus, либо Gensim Mmcorpus в облако слов? Результат будет выглядеть примерно так: ...

в чем истинная разница между лемматизацией и стеммингом?

когда я использую каждый ? Also...is лемматизация NLTK зависит от частей речи? Разве это не было бы более точным, если бы это было так? ...

n-граммы в питоне, четыре, пять, шесть граммов?

Я ищу способ разделить текст на n-граммы. Обычно я бы сделал что-то вроде: import nltk from nltk import bigrams string = "I really like python, it's pretty awesome." string_bigrams = bigrams(string) print string_bigrams спасибо! ...