Aký je rozdiel medzi ID3 a Random Forestom?

Ako dodávateľ vozidiel ID3 som sa často ponoril do zložitosti údajov - založených na rozhodovaní - tvorba modelov, podobne ako analyzujeme trendy na trhu pre naše vozidlá ID3. Jednou z bežných otázok, ktorá vzniká v komunite vedy o údajoch, je rozdiel medzi ID3 a Random Forestom. V tomto blogu preskúmam tieto rozdiely v detailoch a nakreslím paralely podľa našich skúseností v automobilovom priemysle.

ID3: k prvému

ID3, alebo iteratívny dichotomiser 3, je algoritmus rozhodovacieho stromu, ktorý vyvinul Ross Quinlan v roku 1986. Je navrhnutý na vytváranie rozhodovacích stromov z dátového súboru pomocou informácií o zisku informácií ako kritéria na výber najlepšieho atribútu na rozdelenie uzlov. Informácie získavajú opatrenia Zníženie entropie (neistota) Po rozdelení údajov na základe konkrétneho atribútu.

Zoberme si príklad z automobilového trhu. Predpokladajme, že máme súbor kupcov automobilov vrátane atribútov, ako sú vek, príjem a preferencia značky. ID3 by vypočítal zisk informácií pre každý atribút, aby určil, ktorý z nich je najúčinnejší pri klasifikácii kupujúcich. Napríklad, ak rozdelenie údajov na základe príjmu vedie k výraznému zníženiu entropie, ID3 by zvolil príjem ako koreňový uzol stromu rozhodnutia.

Hlavnou výhodou ID3 je jeho jednoduchosť. Je ľahké porozumieť a implementovať, čo z neho robí skvelý východiskový bod pre začiatočníkov vo vede o údajoch. Má však určité obmedzenia. ID3 je citlivý na šum v údajoch a ľahko sa overuje. Nadmerovanie nastane, keď je strom rozhodovania príliš zložitý a dobre funguje na údajoch o školeniach, ale zle na nových, neviditeľných údajoch. V kontexte nášho dodávateľa vozidiel ID3, ak prepravujeme model na predpovedanie dopytu zákazníkov na základe minulých údajov o predaji, mohli by sme skončiť s nepresnými prognózami budúceho predaja.

Náhodný les: Prehľad

Náhodný les je metóda učenia súboru, ktorá kombinuje viacero rozhodovacích stromov, aby vytvorila robustnejší a presnejší model. Namiesto spoliehania sa na jeden strom rozhodovania, náhodný les stavia les stromov, kde je každý strom trénovaný na náhodnej podskupine údajov a náhodnej podskupine funkcií.

Vráťte sa k príkladu nášho kupujúceho auta, náhodný les by vytvoril viac rozhodovacích stromov. Každý strom by bol vyškolený na inú vzorku kupujúcich automobilov a na inú skupinu atribútov (napr. Niektoré stromy môžu používať preferencie veku a značky, zatiaľ čo iné môžu používať príjmy a predchádzajúce vlastníctvo automobilov). Pri predpovedi náhodné lesy agreguje predpovede všetkých jednotlivých stromov, zvyčajne tým, že väčšinu hlasuje v prípade problémov s klasifikáciou alebo priemerom v prípade regresných problémov.

Jednou z kľúčových výhod náhodného lesa je jeho schopnosť znížiť nadmerné prispôsobenie. Kombináciou viacerých stromov môže zachytiť rôzne vzorce v údajoch a zovšeobecniť sa lepšie na nové údaje. Je tiež robustnejší pre hluk a odľahlé hodnoty v údajoch. Napríklad, ak je v našom súbore údajov o kupujúcich automobiloch niekoľko odľahlých hodnôt (napríklad veľmi vysoký kupujúci z príjmu s neobvyklou preferenciou značky), tieto odľahlé hodnoty bude mať menej pravdepodobné, že tieto odľahlé hodnoty ovplyvnia tieto odľahlé hodnoty v porovnaní s jedným stromom rozhodovania ID3.

Rozdiely v budovaní modelu

Proces budovania rozhodovacieho stromu ID3 je horný - chamtivý prístup. Začína sa celým súborom údajov v koreňovom uzle a rekurzívne rozdeľuje údaje na základe atribútu s najvyšším ziskom informácií v každom kroku. Akonáhle sa uskutoční rozdelenie, toto rozhodnutie sa neskôr v tomto procese nevráti.

Naopak, náhodný les používa stochastickejší prístup. Pri zostavovaní každého stromu náhodne vyberie podmnožinu údajov a podskupinu funkcií. Táto náhodnosť pomáha dekoretovať stromy v lese, čo robí celkový model robustnejším. Napríklad v automobilovom priemysle, ak používame náhodný les na predpovedanie popularity rôznych modelov automobilov, náhodný výber údajov a funkcií umožňuje modelu zachytiť širšiu škálu faktorov, ktoré ovplyvňujú popularitu.

Výkon a presnosť

Pokiaľ ide o výkon, ID3 je vo všeobecnosti rýchlejší trénovať a robiť predpovede v porovnaní s náhodným lesom. Pretože vytvára jediný strom rozhodovania, výpočtová zložitosť je relatívne nízka. Z hľadiska presnosti však náhodný les zvyčajne prekonáva ID3, najmä na veľkých a zložitých súboroch údajov.

Povedzme, že sa snažíme predpovedať pravdepodobnosť, že zákazník kupuje vozidlo ID3. Máme veľký súbor údajov s mnohými atribútmi, ako sú návyky riadenia, environmentálne povedomie a aktivita sociálnych médií. Náhodný les by bol schopný zachytiť zložité vzťahy medzi týmito atribútmi a urobiť presnejšie predpovede v porovnaní so stromom rozhodovania ID3.

Interpretabilita

ID3 má tú výhodu, že je vysoko interpretovateľný. Štruktúra rozhodovania nám umožňuje ľahko pochopiť, ako model prijíma rozhodnutia. Môžeme sledovať cestu od koreňového uzla do uzla listov a zistiť, ktoré atribúty sa použili na klasifikáciu konkrétnej inštancie. Táto interpretabilita je cenná v mnohých aplikáciách, a to aj v našom dodávke vozidiel ID3. Napríklad, ak chceme pochopiť, prečo určitý segment zákazníkov s väčšou pravdepodobnosťou kúpi naše vozidlá ID3, môžeme analyzovať strom rozhodovania, aby sme identifikovali kľúčové faktory.

Na druhej strane je náhodný les menej interpretovateľný. Pretože sa skladá z viacerých rozhodovacích stromov, je ťažké presne určiť, ako model dostane na konkrétnu predpoveď. Existujú však k dispozícii techniky na získanie určitého poznatkov o dôležitosti rôznych funkcií v náhodnom lese, napríklad skóre významu prvkov.

Aplikácie v automobilovom priemysle

V automobilovom priemysle majú ID3 aj Random Forest využitie. ID3 je možné použiť na rýchle a jednoduché analýzy, ako napríklad počiatočná segmentácia zákazníkov. Napríklad môžeme použiť strom rozhodovania ID3 na klasifikáciu zákazníkov do rôznych skupín na základe ich základných charakteristík, ako je vek a príjem, čo nám môže pomôcť prispôsobiť naše marketingové stratégie.

Na druhej strane je náhodný les vhodnejší pre zložité úlohy, ako je predpovedanie predaja vozidiel, odhady nákladov na údržbu a hodnotenie spoľahlivosti vozidla. Napríklad použitím náhodného lesného modelu môžeme analyzovať širokú škálu faktorov vrátane historických údajov o predaji, ekonomických ukazovateľov a recenzií zákazníkov, aby sme dosiahli presnejšie predajné predpovede pre naše vozidlá ID3.

Ak máte záujem preskúmať, ako sa tieto modely môžu uplatniť vo vašom automobilovom priemysle, alebo ak hľadáte od nás vozidlá ID3, boli by sme radi, keby sme diskutovali. Či už ste obchodným zastúpením automobilov, ktoré hľadáte spoľahlivé dodávky vozidla alebo automobilový analytik, ktorý má záujem o údaje - poháňané poznatky, náš tím je pripravený vám pomôcť. Kontaktujte nás a začnite vyjednávanie obstarávania a zistite, ako naše vozidlá ID3 môžu vyhovovať vašim potrebám.

Odkazy

Quinlan, Jr (1986). Uvedenie rozhodovacích stromov. Strojové učenie, 1 (1), 81 - 106.
Breiman, L. (2001). Náhodné lesy. Strojové učenie, 45 (1), 5 - 32.