랜덤포레스트 예제
y posteado en Sin categoría

랜덤 포리스트가 들어오는 곳입니다. 데이터 집합의 여러 샘플에서 여러 의사 결정 트리의 결과를 결합하여 예측의 변동을 줄이는 데 사용되는 배깅 아이디어를 기반으로 합니다. 의사 결정 트리를 사용하여 동일한 문제를 해결할 수 있을 때 임의 포리스트를 사용하는 이유가 궁금할 수 있습니다. 설명하겠습니다. 임의 포리스트 알고리즘은 감독된 분류 알고리즘입니다. 이름에서 이 알고리즘에서 이 알고리즘에서 이 알고리즘은 여러 개의 트리가 있는 포리스트를 만듭니다. 우리는 각 질문 (흰색 블록)에는 참 또는 거짓이라는 두 가지 답변만 있다는 것을 즉시 알 수 있습니다. 또한, 각각의 참과 거짓 답변에는 별도의 가지가 있습니다. 질문에 대한 답변에 상관없이, 우리는 결국 예측에 도달합니다 (녹색 블록에 표시됨). 의사 결정 트리의 이 `컴퓨터 친화적인` 버전은 직관적인 모델과 다를 수 있지만 정확히 동일한 방식으로 작동합니다.

왼쪽의 노드에서 시작하여 길을 따라 질문에 대답하는 트리를 진행합니다. 예를 들어, 시즌은 겨울이기 때문에 진정한 가지를 취합니다. 우리는 역사적 평균이 46이라고 말했기 때문에 두 번째 질문은 사실입니다. 마지막으로, 세 번째 대답은 오늘 최고 기온이 43이었기 때문에 사실입니다. 따라서 최종 예측은 내일 최대 기온이 40도이며, 추측은 44도에 가깝습니다. 앞에서 설명한 것처럼 임의 포리스트는 의사 결정 트리의 모음입니다. 각 의사 결정 트리는 해당 트리에 사용된 각 예측 변수를 기반으로 출력 클래스를 예측합니다. 마지막으로 임의 포리스트에 있는 모든 의사 결정 트리의 결과가 기록되고 과반수 표가 있는 클래스가 출력 클래스로 계산됩니다.

랜덤 포리스트는 회귀 및 분류 작업을 모두 수행할 수 있는 다목적 기계 학습 방법입니다. 또한 차원 감소 방법을 수행하고 누락 된 값, 이상값 및 기타 필수 데이터 탐색 단계를 처리하며 상당히 좋은 작업을 수행합니다. 그것은 약한 모델의 그룹이 강력한 모델을 형성하기 위해 결합 앙상블 학습 방법의 유형입니다. 따라서 결국, 우리는 올바르게 분류 된 OOB 샘플의 비율에 의해 임의의 포리스트의 정확도를 측정 할 수 있습니다. bagging 모델의 다양한 구현이 있습니다. 임의의 포리스트는 그 중 하나이며 다음에 논의 할 것입니다. 그들의 건설의 일환으로, 임의의 숲 예측은 자연스럽게 관측 사이의 비유사성 측정으로 이어질. 또한 레이블이 지정되지 않은 데이터 간에 임의의 포리스트 비유사성 측정값을 정의할 수 있습니다.

[7] [23] 관찰된 데이터는 원래레이블이 지정되지 않은 데이터이며 합성 데이터는 참조 분포에서 가져온다.

Compartir este contenido...
Tweet about this on TwitterShare on FacebookShare on Google+Email this to someone
Los Comentarios están cerrados.