RandomForestClassifier против ExtraTreesClassifier в пакет scikit узнать
может ли кто-нибудь объяснить разницу между RandomForestClassifier и ExtraTreesClassifier в scikit learn. Я провел много времени читая газету:
P. Geurts, D. Ernst., и L. Wehenkel, "чрезвычайно рандомизированные деревья", машинное обучение, 63(1), 3-42, 2006
кажется, это разница для ET:
1) при выборе переменных при разбиении выборки берутся из всего обучающего набора, а не из бутстрап-выборки обучающий набор.
2) разбиения выбираются совершенно случайным образом из диапазона значений в выборке при каждом разбиении.
результатом этих двух вещей являются еще много "листьев".
2 ответов:
Да оба вывода верны, хотя реализация случайного леса в scikit-learn позволяет включить или отключить повторную выборку начальной загрузки.
на практике, РФС часто более компактны, чем ETs. ETs, как правило, дешевле обучать с вычислительной точки зрения, но может расти намного больше. ETs может иногда обобщать лучше, чем RFs, но трудно догадаться, когда это так, не пытаясь сначала (и тюнинг
n_estimators,max_featuresиmin_samples_splitby перекрестный проверенный поиск сетки).
классификатор ExtraTrees всегда проверяет случайные разбиения по фракции объектов (в отличие от RandomForest, который проверяет все возможные разбиения по фракции объектов)
Comments