Hvordan kan virksomheder bruge tilfældige skovmodeller til forudsigelser?

Indhold

Q:

EN:

Virksomheder bruger ofte tilfældige skovmodeller for at komme med forudsigelser med maskinlæringsprocesser. Den tilfældige skov bruger flere beslutnings træer til at foretage en mere holistisk analyse af et givet datasæt.

Et enkelt beslutningstræ fungerer på grundlag af at adskille en bestemt variabel eller variabler i henhold til en binær proces. For eksempel ved vurdering af datasæt, der er relateret til et sæt biler eller køretøjer, kunne et enkelt beslutningstræ sortere og klassificere hvert enkelt køretøj efter vægt og opdele dem i tunge eller lette køretøjer.

Den tilfældige skov bygger på beslutningstræsmodellen og gør den mere sofistikeret. Eksperter taler om tilfældige skove som repræsenterer "stokastisk diskrimination" eller "stokastisk gætte" -metoden på data anvendt i multidimensionelle rum. Stokastisk diskrimination har en tendens til at være en måde at forbedre analysen af datamodeller ud over, hvad et enkelt beslutningstræ kan gøre.

Grundlæggende skaber en tilfældig skov mange individuelle beslutningstræer, der arbejder på vigtige variabler med et bestemt datasæt anvendt. En nøglefaktor er, at i en tilfældig skov vil datasættet og den variable analyse af hvert beslutningstræ typisk overlappe hinanden. Det er vigtigt for modellen, fordi den tilfældige skovmodel tager de gennemsnitlige resultater for hvert beslutningstræ og indgår i en vægtet beslutning. I det væsentlige tager analysen alle stemmer fra forskellige beslutningstræer og bygger en enighed om at give produktive og logiske resultater.

Et eksempel på at bruge en tilfældig skovalgoritme produktivt er tilgængelig på R-blogger-stedet, hvor forfatter Teja Kodali tager eksemplet med at bestemme vinkvalitet gennem faktorer som surhedsgrad, sukker, svovldioxidniveauer, pH-værdi og alkoholindhold. Kodali forklarer, hvordan en tilfældig skovalgoritme bruger en lille tilfældig undergruppe af funktioner til hvert enkelt træ og derefter bruger resulterende gennemsnit.

Med dette i tankerne, vil virksomheder, der ønsker at bruge tilfældige skovmaskinelæringsalgoritmer til forudsigelig modellering, først isolere de forudsigelige data, der skal koges ned i et sæt produktioner, og derefter anvende dem til den tilfældige skovmodel ved hjælp af et vist sæt træning data. Maskinlæringsalgoritmer tager disse træningsdata og arbejder med dem for at udvikle sig ud over begrænsningerne i deres oprindelige programmering. I tilfælde af tilfældige skovmodeller lærer teknologien at danne mere sofistikerede forudsigelige resultater ved hjælp af disse individuelle beslutningstræer til at opbygge sin tilfældige skovkonsensus.

En måde, dette kan bruges til erhvervslivet, er at tage forskellige produktegenskabsvariabler og bruge en tilfældig skov for at indikere potentiel kundeinteresse. For eksempel, hvis der er kendte kundeinteressefaktorer som farve, størrelse, holdbarhed, portabilitet eller noget andet, som kunderne har angivet interesse for, kan disse attributter indføres i datasættet og analyseres på grundlag af deres egen unikke effekt for multifaktor analyse.