r 예측 예제

적합이 순위가 부족한 경우 설계 행렬의 일부 열이 삭제됩니다. newdata가 원래 데이터와 동일한 하위 공간에 포함되어 있는 경우에만 이러한 맞춤의 예측이 의미가 있습니다. 이를 정확하게 확인할 수 없으므로 경고가 표시됩니다. d. 혼동 행렬에서 결과를 얻고 성능 키를 개선하기 위해 노력합니다. 예를 들어 모델에 새 피처를 추가하고 모델이 더 나은지 확인한 다음 변수를 추가할 때 증가 없이 가장 높은 정확도를 제공하는 모델을 선택하는 방법을 예로 들 수 있습니다. 예를 들어, 세 가지 새로운 속도 값을 포함하는 새 데이터 프레임을 생성하여 시작합니다: 예를 들어, 19의 속도와 연관된 95% 신뢰 구간은 (51.83, 62.44)입니다. 즉, 모델에 따르면 19mph의 속도를 가진 자동차의 정지 거리는 평균 51.83에서 62.44 ft 사이입니다. 선형 모델과 유사한 대부분의 예측 메서드에는 예측에 사용할 설명 변수를 찾는 첫 번째 위치를 지정하는 인수 newdata가 있습니다.

newdata의 열을 피팅에 사용되는 열과 일치시키려는 몇 가지 상당한 시도가 있습니다(예: 유사한 형식이고 모든 요인이 동일한 순서로 설정된 수준(또는 변환될 수 있음). 플롯에 표시된 몇 가지 정보를 있으면 어떤 변수가 좋은 예측 기능이며 기계 학습 모델을 빌드하는 데 사용할 수 있는지 에 대한 좋은 아이디어를 제공합니다. 기계 학습 알고리즘은 일반적으로 세 가지 제목으로 분류됩니다. 아래 스니펫은 R 수식에서 “.”를 사용하여 모든 기능을 사용하여 모델을 훈련시바입니다. 참고: 색상 미학은 포인트를 더 명확하게 하기 위해 사용되었습니다. 그것은 절대적으로 필요하지 않으며 x 축에 사용되는 동일한 변수이기 때문에 몇 가지 추가 정보를 제공하지 않습니다. 시간이 지남에 따라 수집된 데이터에서 얻은 피드백을 기반으로 회사의 성장을 위한 지속 가능한 의사 결정 모델을 구현해야 할 필요성은 지나치게 강조할 수 없습니다. 회사를 성장시키고자 하는 경우 데이터를 잘 활용해야 합니다!!! c. 혼동 행렬에서 더 나은 메트릭을 제공하도록 모델을 최적화합니다(모델의 정확도, 감도 및 특이도와 같은 주요 측정값을 보여주는 행렬). 이상적인 것은 가장 큰 정확도를 가지고 최고의 모델을 얻는 것입니다.

정확도는 고려해야 할 유일한 메트릭이 아니지만 이 작업의 경우 가장 높은 정확도로 모델을 얻는 데 중점을 둡니다. c. 모델을 훈련하고 테스트합니다. 이를 분할하는 좋은 방법은 학습을 위해 데이터 집합의 80%를 따로 설정하고 나머지 는 테스트를 위해 남겨두는 것입니다. 이 장에서는 R.을 사용하여 새 관측 값 데이터에 대한 결과를 예측하는 방법을 설명합니다. 신뢰 구간과 예측 간격을 표시하는 방법도 알아봅니다.