Как определить важность признаков для модели логистической регрессии?
У меня есть бинарная модель прогнозирования, обученная алгоритму логистической регрессии. Я хочу знать, какие признаки (предикторы) более важны для решения положительного или отрицательного класса. Я знаю, что есть параметр coef_, поступающий из пакета scikit-learn, но я не знаю, достаточно ли этого для важности. Другое дело, как я могу оценить значения coef_ с точки зрения важности для отрицательных и положительных классов. Я также читал о стандартизированных коэффициентах регрессии и I не знаю, что это такое.
Предположим, что существуют такие характеристики, как размер опухоли, вес опухоли и т. д., чтобы принять решение для тестового случая, такого как злокачественный или не злокачественный. Я хочу знать, какие из этих признаков более важны для злокачественного и не злокачественного прогноза. Есть ли в этом какой-то смысл?
1 ответ:
Одним из простейших способов получить представление о "влиянии" данного параметра в линейной классификационной модели (логистической) является рассмотрение величины его коэффициента, умноженной на стандартное отклонение соответствующего параметра в данных.
Рассмотрим следующий пример:
Альтернативным способом получения аналогичного результата является исследование коэффициентов соответствия модели стандартизированным параметрам:import numpy as np from sklearn.linear_model import LogisticRegression x1 = np.random.randn(100) x2 = 4*np.random.randn(100) x3 = 0.5*np.random.randn(100) y = (3 + x1 + x2 + x3 + 0.2*np.random.randn()) > 0 X = np.column_stack([x1, x2, x3]) m = LogisticRegression() m.fit(X, y) # The estimated coefficients will all be around 1: print(m.coef_) # Those values, however, will show that the second parameter # is more influential print(np.std(X, 0)*m.coef_)m.fit(X / np.std(X, 0), y) print(m.coef_)Обратите внимание, что это наиболее существует базовый подход и ряд других методов для определения важности признаков или влияния параметров (использование p-значений, бутстрэп-оценок, различных "дискриминантных индексов" и т. д.).
Я почти уверен, что вы получите более интересные ответы на https://stats.stackexchange.com/.
Comments