Extras din referat
Regresia liniară multiplă
A. Noţiuni teoretice
Regresia liniară, prin metoda celor mai mici pătrate, este metoda de modelare cea mai des
utilizată. Ea este intâlnită sub denumirea de “regresie”, “regresie liniară“, “regresie multiplă”
sau “cele mai mici pătrate” atunci când se construieşte un model.
Scopul regresiei multiple (termen utilizat de Pearson, 1908) este de a eviden ţia relaţia
dintre o variabilă dependentă (explicată, endogenă, rezultativă) şi o mulţime de variabile
independente (explicative, factoriale, exogene, predictori). Prin utilizarea regresiei multiple se
încearcă, adesea, obţinerea răspunsului la una dintre întrebările: “care este cea mai bună predicţie
pentru …?”, “cine este cel mai bun predictor pentru …?” .
De reţinut că metoda regresiei multiple este generalizată prin teoria “modelului liniar
general”, în care se permit mai multe variabile dependente simultan şi, de asemenea, variabile
factoriale care nu sunt independente liniar.
Clasa modelelor liniare poate fi exprimată :
y = x α + ε
unde
• y este variabila dependentă (explicată, endogenă, rezultativă),
• x este vectorul variabilelor independente (explicative, exogene), de dimensiune 1×p,
• α este vectorul coeficienţilor, de dimensiune p×1, parametrii modelului,
• ε este o variabilă, interpretată ca eroare (perturbare, eroare de măsurare etc.).
Cu alte cuvinte,
y = α1x1+α2x2+…+αpxp+ε
care exprimă relaţia liniară dintre y şi x.
Observaţii.
1. Liniaritatea relaţiei se referă la coeficienţi şi nu la variabile. Astfel, modelul
este tot un model liniar.
2. Considerând că x1 este constant egală cu 1, se obţine un model liniar care include un
termen constant (termenul liber al modelului).
3. Pentru p = 2 şi x1 ≡ 1 se obţine modelul liniar simplu, dreapta de regresie.
4. Utilitatea principală a unui model liniar este aceea a predicţiei valorii lui y din valorile
cunoscute ale variabilelor x.
Presupunem că avem un set de n observaţii efectuate asupra variabilelor implicate în
model. Prin urmare dispunem de (xi1, xi2, . . . . , xip, yi), i = 1, 2, . . . , n.
Notând cu y vectorul de tip n×1 având drept componente valorile măsurate pentru variabila y, cu
X matricea (xij)n×p a valorilor măsurate pentru variabilele x şi cu ε vectorul de tip n×1 având
drept componente valorile erorilor, modelul se rescrie în relaţia matriceală:
y = Xα + ε
Ipoteze iniţiale. În tot ceea ce urmează se presupun îndeplinite ipotezele:
1. Matricea de experienţe, n observaţii pentru p variabile, este fixată: Xn×p nu este stohastică. În plus, n >> p.
2. X este de rang p (coloanele sunt liniar independente – formează o bază a unui spaţiu vectorial p-dimensional).
3. a. Vectorul de perturbaţii (n-dimensional) ε constă din n variabile aleatoare independente cu media 0 şi aceeaşi dispersie:
Exp(ε) = 0
Var(ε) = Exp(εε') = σ2In , unde σ2 este un parametru necunoscut
b. Vectorul ε este o v.a. n-dimensională normală ε ~ N(0, σ2In ).
De remarcat că ultima ipoteză, a normalităţii, este, mai degrabă, o ipoteză simplificatoare decât una restrictivă, cum sunt primele două. Aceasta deoarece erorile se datorează, în general, în procesele studiate, acţiunilor simultane ale unor factori aleatorii, ceea ce prin teorema de limită centrală conduce la concluzia că ε, ca sumă a lor, tinde spre o repartiţie normală.
Problemele principale urmărite sunt:
• estimarea coeficienţilor α,
• calitatea estimării,
• verificarea ipotezelor,
• calitatea predicţiei,
• alegerea modelului.
Preview document
Conținut arhivă zip
- Regresie Liniara Multipla.pdf