Как определить важность признаков для модели логистической регрессии?



У меня есть бинарная модель прогнозирования, обученная алгоритму логистической регрессии. Я хочу знать, какие признаки (предикторы) более важны для решения положительного или отрицательного класса. Я знаю, что есть параметр coef_, поступающий из пакета scikit-learn, но я не знаю, достаточно ли этого для важности. Другое дело, как я могу оценить значения coef_ с точки зрения важности для отрицательных и положительных классов. Я также читал о стандартизированных коэффициентах регрессии и I не знаю, что это такое.



Предположим, что существуют такие характеристики, как размер опухоли, вес опухоли и т. д., чтобы принять решение для тестового случая, такого как злокачественный или не злокачественный. Я хочу знать, какие из этих признаков более важны для злокачественного и не злокачественного прогноза. Есть ли в этом какой-то смысл?

1709   1  

1 ответ:

Одним из простейших способов получить представление о "влиянии" данного параметра в линейной классификационной модели (логистической) является рассмотрение величины его коэффициента, умноженной на стандартное отклонение соответствующего параметра в данных.

Рассмотрим следующий пример:

import numpy as np    
from sklearn.linear_model import LogisticRegression

x1 = np.random.randn(100)
x2 = 4*np.random.randn(100)
x3 = 0.5*np.random.randn(100)
y = (3 + x1 + x2 + x3 + 0.2*np.random.randn()) > 0
X = np.column_stack([x1, x2, x3])

m = LogisticRegression()
m.fit(X, y)

# The estimated coefficients will all be around 1:
print(m.coef_)

# Those values, however, will show that the second parameter
# is more influential
print(np.std(X, 0)*m.coef_)
Альтернативным способом получения аналогичного результата является исследование коэффициентов соответствия модели стандартизированным параметрам:
m.fit(X / np.std(X, 0), y)
print(m.coef_)

Обратите внимание, что это наиболее существует базовый подход и ряд других методов для определения важности признаков или влияния параметров (использование p-значений, бутстрэп-оценок, различных "дискриминантных индексов" и т. д.).

Я почти уверен, что вы получите более интересные ответы на https://stats.stackexchange.com/.

Comments

    Ничего не найдено.