scikit-learn- все статьи тега
Как hstack несколько разреженных матриц (feature Matrix)?
У меня есть 3 разреженные матрицы: In [39]: mat1 Out[39]: (1, 878049) <1x878049 sparse matrix of type '<type 'numpy.int64'>' with 878048 stored elements in Compressed Sparse Row format> In [37]: mat2 Out[37]: (1, 878049) <1x878049 sparse matrix of type '<type 'numpy.int64'>' with 744315 stored elements in Compressed Sparse Row format> In [35]: mat3 Out[35]: (1, 878049) <1x878049 sparse matrix of type '<type 'numpy.int64'>' with 788618 st ...
как я могу выполнить задачу классификации текста, используя меньше памяти
(1) Моя цель: Я пытаюсь использовать SVM для классификации 10000 документов (каждый из которых содержит 400 слов) в 10 классов(равномерно распределенных). Особенности, изученные в моей работе, включают слово n-грамм(n=1~4),символ n-грамм (n=1~6). (2) Мой подход: я представляю каждый документ, используя векторы значений частоты для каждого элемента в документе. И использование TF-IDF для формализации векторов. ниже приведены части моего кода: def commonVec(dicts,count1,count2): ''' put ...
Добавление столбцов pandas в разреженную матрицу
У меня есть дополнительные производные значения для переменных X, которые я хочу использовать в своей модели. XAll = pd_data[['title','wordcount','sumscores','length']] y = pd_data['sentiment'] X_train, X_test, y_train, y_test = train_test_split(XAll, y, random_state=1) Поскольку я работаю с текстовыми данными в заголовке, я сначала преобразую их в dtm отдельно: vect = CountVectorizer(max_df=0.5) vect.fit(X_train['title']) X_train_dtm = vect.transform(X_train['title']) column_index = X_tra ...
Используйте функцию подобия для кластеризации scikit-learn
Я использую функцию для вычисления сходства между парой документов и хочу выполнить кластеризацию, используя эту меру сходства. Код пока Sim=np.zeros((n, n)) # create a numpy arrary i=0 j=0 for i in range(0,n): for j in range(i,n): if i==j: Sim[i][j]=1 else: Sim[i][j]=simfunction(list_doc[i],list_doc[j]) # calculate similarity between documents i and j using simfunction Sim=Sim+ Sim.T - np.diag(Sim.diagonal()) # complete the symmetric matri ...
Значительное несоответствие между "r2 score" из " scikit-learn` и вычислением R^2
Вопрос Почему существует значительная разница между r2_score функция в scikit-learn и формула для коэффициента детерминации , как описано в Википедии ? Какой из них правильный? Контекст Я использую Python 3.5 для предсказания линейных и квадратичных моделей ,и одна из мер хорошей подгонки, которую я пробую, - это. Тем не менее, во время тестирования есть заметная разница между r2_score метрика в scikit-learn и расчет, представленный в Википедии. Код Я предоставляю свой код здесь в ...
scikit grid поиск по нескольким классификаторам python
Я хотел узнать, есть ли лучший, более встроенный способ выполнить поиск по сетке и протестировать несколько моделей в одном конвейере. Конечно, параметры моделей были бы другими, что затруднило бы мне разобраться в этом. Вот что я сделал: from sklearn.pipeline import Pipeline from sklearn.ensemble import RandomForestClassifier from sklearn.neighbors import KNeighborsClassifier from sklearn.svm import SVC from sklearn.naive_bayes import MultinomialNB from sklearn.grid_search import GridSearchCV ...
Как нормализовать только определенные столбцы в scikit-learn?
У меня есть данные, подобные следующим: [ [0, 4, 15] [0, 3, 7] [1, 5, 9] [2, 4, 15] ] Я использовал oneHotEncoder http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html#sklearn.preprocessing.OneHotEncoder.fit_transform для предварительной обработки этих данных, так что это подходит для линейной регрессии, чтобы дать мне это: [ [1, 0, 0, 4, 15] [1, 0, 0, 3, 7] [0, 1, 0, 5, 9] [0, 0, 1, 4, 15] ] Однако затем я хочу нормализовать эт ...
Как определить важность признаков для модели логистической регрессии?
У меня есть бинарная модель прогнозирования, обученная алгоритму логистической регрессии. Я хочу знать, какие признаки (предикторы) более важны для решения положительного или отрицательного класса. Я знаю, что есть параметр coef_, поступающий из пакета scikit-learn, но я не знаю, достаточно ли этого для важности. Другое дело, как я могу оценить значения coef_ с точки зрения важности для отрицательных и положительных классов. Я также читал о стандартизированных коэффициентах регрессии и I не знаю ...
Как найти частоту ngram столбца в фрейме данных pandas?
Ниже приведен входной фрейм данных pandas, который у меня есть. Я хочу найти частоту униграмм и биграмм. Пример того, что я ожидаю, показан ниже Как это сделать с помощью nltk или scikit learn? Я написал ниже код, который принимает строку в качестве входных данных. Как расширить его до серии / фрейма данных? from nltk.collocations import * desc='john is a guy person you him guy person you him' tokens = nltk.word_tokenize(desc) bigram_measures = nltk.collocations.BigramAssocMeasures() finde ...
Почему одно горячее кодирование повышает производительность машинного обучения?
Я заметил, что когда одно горячее кодирование используется на определенном наборе данных (матрице) и используется в качестве обучающих данных для алгоритмов обучения, оно дает значительно лучшие результаты в отношении точности прогнозирования по сравнению с использованием самой исходной матрицы в качестве обучающих данных. Как происходит это повышение производительности? ...
Как нормализовать массив в NumPy?
Я хотел бы иметь норму одного массива NumPy. Более конкретно, я ищу эквивалентную версию этой функции def normalize(v): norm = np.linalg.norm(v) if norm == 0: return v return v / norm есть что-то подобное в skearn или numpy? эта функция работает в ситуации, где v - это вектор 0. ...
RandomForestClassifier против ExtraTreesClassifier в пакет scikit узнать
может ли кто-нибудь объяснить разницу между RandomForestClassifier и ExtraTreesClassifier в scikit learn. Я провел много времени читая газету: P. Geurts, D. Ernst., и L. Wehenkel, "чрезвычайно рандомизированные деревья", машинное обучение, 63(1), 3-42, 2006 кажется, это разница для ET: 1) при выборе переменных при разбиении выборки берутся из всего обучающего набора, а не из бутстрап-выборки обучающий набор. 2) разбиения выбираются совершенно случайным образом из диапазона значений в выбор ...
масштабирование столбцов фрейма данных pandas с помощью sklearn
у меня есть фрейм данных pandas со столбцами смешанного типа, и я хотел бы применить min_max_scaler sklearn к некоторым столбцам. В идеале, я хотел бы сделать эти преобразования, но не придумал, как это сделать. Я написал следующий код, который работает: import pandas as pd import numpy as np from sklearn import preprocessing scaler = preprocessing.MinMaxScaler() dfTest = pd.DataFrame({'A':[14.00,90.20,90.95,96.27,91.21],'B':[103.02,107.26,110.35,114.23,114.68], 'C':['big','small','big','sm ...
Почему pydot не может найти исполняемые файлы GraphViz в Windows 8?
Я GraphViz 2.32 установлен в Windows 8 и добавил C:Program файлы (x86)Graphviz2.32bin к системной переменной PATH. Тем не менее pydot не может найти свои исполняемые файлы. Traceback (most recent call last): File "<pyshell#26>", line 1, in <module> graph.write_png('example1_graph.png') File "buildbdist.win32eggpydot.py", line 1809, in <lambda> lambda path, f=frmt, prog=self.prog : self.write(path, format=f, prog=prog)) File "buildbdist.win32eggpydot.py", ...