Regresie liniară multiplă multivariată

Fluxul StatsTest: Predicție >> Variabilă dependentă continuă >> Mai mult de o variabilă independentă >> Fără măsuri repetate >> O singură variabilă dependentă

Nu sunteți sigur că aceasta este metoda statistică corectă? Utilizați fluxul de lucru Choose Your StatsTest pentru a selecta metoda corectă.

Ce este regresia liniară multiplă multivariată?

Regresia liniară multiplă multivariată este un test statistic utilizat pentru a prezice mai multe variabile de rezultat folosind una sau mai multe alte variabile. De asemenea, este utilizat pentru a determina relația numerică dintre aceste seturi de variabile și altele. Variabila pe care doriți să o preziceți trebuie să fie continuă, iar datele dumneavoastră trebuie să îndeplinească celelalte ipoteze enumerate mai jos.

Ipoteze pentru Regresia liniară multiplă multivariată

Care metodă statistică are ipoteze. Ipotezele înseamnă că datele dumneavoastră trebuie să satisfacă anumite proprietăți pentru ca rezultatele metodei statistice să fie corecte.

Ipotezele pentru regresia liniară multiplă multivariată includ:

  1. Liniaritate
  2. Nu există valori aberante
  3. Distribuție similară în intervalul de variație
  4. Normalitatea reziduurilor
  5. Nu există multicolinearitate

Să ne ocupăm de fiecare dintre acestea în parte.

Liniaritate

Variabilele care vă interesează trebuie să fie legate liniar. Acest lucru înseamnă că, dacă reprezentați grafic variabilele, veți putea trasa o linie dreaptă care să se potrivească formei datelor.

Fără valori aberante

Variabilele de care vă pasă nu trebuie să conțină valori aberante. Regresia liniară este sensibilă la valorile aberante, sau la punctele de date care au valori neobișnuit de mari sau mici. Vă puteți da seama dacă variabilele dvs. au valori aberante trasându-le și observând dacă vreun punct este departe de toate celelalte puncte.

Similar Spread across Range

În statistică, acest lucru se numește homoscedasticitate, care descrie situația în care variabilele au o răspândire similară de-a lungul intervalelor lor.

Normalitatea reziduurilor

Cuvântul “reziduuri” se referă la valorile care rezultă din scăderea variabilelor dependente așteptate (sau prezise) din valorile reale. Distribuția acestor valori ar trebui să corespundă unei forme de distribuție normală (sau curbă în formă de clopot).

Îndeplinirea acestei ipoteze asigură faptul că rezultatele regresiei sunt aplicabile în mod egal în toată gama de date și că nu există o distorsiune sistematică în predicție.

Fără multicoliniaritate

Multicoliniaritatea se referă la scenariul în care două sau mai multe variabile independente sunt corelate substanțial între ele. Atunci când este prezentă multicolinearitatea, coeficienții de regresie și semnificația statistică devin instabili și mai puțin demni de încredere, deși nu afectează cât de bine se potrivește modelul la date în sine.

Când să utilizați regresia liniară multiplă multivariată?

Ar trebui să folosiți Regresia liniară multiplă multivariată în următorul scenariu:

  1. Vreți să utilizați o variabilă într-o predicție a mai multor alte variabile sau doriți să cuantificați relația numerică dintre ele
  2. Variabilele pe care doriți să le preziceți (variabila dependentă) sunt continue
  3. Aveți mai multe variabile independente, sau o singură variabilă pe care o folosiți ca predictor
  4. Nu aveți măsuri repetate din aceeași unitate de observație
  5. Aveți mai mult de o variabilă dependentă

Să clarificăm aceste aspecte pentru a vă ajuta să știți când să folosiți Regresia liniară multiplă multivariată.

Predicție

Cercetați un test statistic pentru a prezice o variabilă folosind o alta. Aceasta este o întrebare de predicție. Alte tipuri de analize includ examinarea intensității relației dintre două variabile (corelație) sau examinarea diferențelor dintre grupuri (diferență).

Variabilă dependentă continuă

Variabila pe care doriți să o preziceți trebuie să fie continuă. Continuă înseamnă că variabila dvs. de interes poate lua practic orice valoare, cum ar fi ritmul cardiac, înălțimea, greutatea, numărul de batoane de înghețată pe care le puteți mânca în 1 minut etc.

Tipurile de date care NU sunt continue includ date ordonate (cum ar fi locul de sosire într-o cursă, clasamentul celor mai bune afaceri etc.), date categorice (sex, culoarea ochilor, rasă etc.) sau date binare (a cumpărat produsul sau nu, are boala sau nu etc.).

Dacă variabila dependentă este binară, ar trebui să folosiți Regresia logistică multiplă, iar dacă variabila dependentă este categorială, atunci ar trebui să folosiți Regresia logistică multinomială sau Analiza discriminantă liniară.

Mai mult de o variabilă independentă

Regresia liniară multiplă multivariată este utilizată atunci când există una sau mai multe variabile predictive cu valori multiple pentru fiecare unitate de observație.

Nu există măsuri repetate

Această metodă este potrivită pentru scenariul în care există doar o singură observație pentru fiecare unitate de observație. Unitatea de observare este ceea ce compune un “punct de date”, de exemplu, un magazin, un client, un oraș etc…

Dacă aveți una sau mai multe variabile independente, dar acestea sunt măsurate pentru același grup în mai multe momente în timp, atunci ar trebui să utilizați un model cu efecte mixte.

Mai mult de o variabilă dependentă

Pentru a rula Regresia liniară multiplă multivariată, ar trebui să aveți mai mult de o variabilă dependentă, sau variabila pe care încercați să o preziceți.

Dacă preziceți o singură variabilă, ar trebui să utilizați Regresia liniară multiplă.

Exemplu de Regresie liniară multiplă multivariată

Variabilă dependentă 1: Venituri
Variabila dependentă 2: Traficul de clienți
Variabila independentă 1: Dolari cheltuiți pe publicitate în funcție de oraș
Variabila independentă 2: Populația orașului

Ipoteza nulă, care este jargonul statistic pentru ceea ce s-ar întâmpla dacă tratamentul nu face nimic, este că nu există nicio relație între cheltuielile cu publicitatea și dolarii pentru publicitate sau populația în funcție de oraș. Testul nostru va evalua probabilitatea ca această ipoteză să fie adevărată.

Colectăm datele noastre și, după ce ne asigurăm că sunt îndeplinite ipotezele regresiei liniare, efectuăm analiza.

Această analiză execută efectiv o regresie liniară multiplă de două ori folosind ambele variabile dependente. Astfel, atunci când executăm această analiză, obținem coeficienți beta și valori p pentru fiecare termen din modelul “venituri” și din modelul “trafic clienți”. Pentru orice model de regresie liniară, veți avea un coeficient beta care este egal cu intercepția liniei dvs. de regresie liniară (adesea etichetat cu un 0 ca β0). Acesta este pur și simplu locul în care linia de regresie traversează axa y dacă ar fi să reprezentați grafic datele dumneavoastră. În cazul regresiei liniare multiple, există în plus încă doi alți doi coeficienți beta (β1, β2, etc.), care reprezintă relația dintre variabilele independente și dependente.

Acesti coeficienți beta suplimentari sunt cheia pentru a înțelege relația numerică dintre variabilele dumneavoastră. În esență, pentru fiecare creștere unitară (valoare de 1) a unei anumite variabile independente, se așteaptă ca variabila dvs. dependentă să se modifice cu valoarea coeficientului beta asociat cu acea variabilă independentă (menținând constante celelalte variabile independente).

Valoarea p asociată cu aceste valori beta suplimentare reprezintă șansa de a vedea rezultatele noastre presupunând că nu există de fapt nicio relație între acea variabilă și venituri. O valoare p mai mică sau egală cu 0,05 înseamnă că rezultatul nostru este semnificativ din punct de vedere statistic și putem avea încredere că diferența nu este datorată doar întâmplării. Pentru a obține o valoare p globală pentru model și valori p individuale care reprezintă efectele variabilelor în cele două modele, se utilizează adesea MANOVA.

În plus, această analiză va avea ca rezultat o valoare R pătrat (R2). Această valoare poate varia de la 0-1 și reprezintă cât de bine se potrivește linia de regresie liniară cu punctele de date. Cu cât R2 este mai mare, cu atât modelul dumneavoastră se potrivește mai bine datelor dumneavoastră.

Întrebări frecvente

Întrebare: Care este diferența dintre regresia liniară multiplă multivariată și rularea regresiei liniare de mai multe ori?
R: Acestea sunt similare din punct de vedere conceptual, deoarece coeficienții modelului individual vor fi aceiași în ambele scenarii. Cu toate acestea, o diferență substanțială este că testele de semnificație și intervalele de încredere pentru regresia liniară multivariată țin cont de variabilele dependente multiple.

Întrebare: Cum execut regresia liniară multiplă multivariată în SPSS, R, SAS sau STATA?
A: Această resursă se concentrează pe a vă ajuta să alegeți metoda statistică potrivită de fiecare dată. Există multe resurse disponibile pentru a vă ajuta să vă dați seama cum să rulați această metodă cu datele dumneavoastră:
Articolul R: https://data.library.virginia.edu/getting-started-with-multivariate-multiple-regression/

Ajutor!

Dacă tot nu vă puteți da seama de ceva, nu ezitați să ne contactați.

Lasă un răspuns

Adresa ta de email nu va fi publicată.