Aller au contenu
Bullsnake

Problème Stat. (régression et R2)

Messages recommandés

Bonjour,

 

dans le cadre du boulot, je suis confronté à un problème de stat. concernant des régressions linéaires simples. Bon, je vous explique.

 

Pour faire simple, j'ai deux séries de données comprenant chacune trente données d'un même paramètre physico-chimique, correspondant à trente substances, on va l'appeler K. Les deux séries sont différentes car d'un côté, j'ai des K mesurés et de l'autre des K modélisés, pour chacune des trente substances.

 

Afin d'étudier la corrélation des deux séries (vous l'aurez compris, en fait l’efficacité d'un modèle), j'ai construit une droite de régression linéaire et extrait le R2.

 

Ensuite, je dois entrer ces données dans une autre modélisation simple qui permet de calculer une valeur X selon une relation que l'on peut simplifier comme :

 

X = A x B/(1 + (0,005 x K)) B est une constante, seul K et A change en fonction des substances.

 

J'ai donc au final, une série de X estimés grace aux K mesurés et de l'autre une série de X estimés grace aux K modélisés, chacune comprenant bien sûr trente données.

 

J'ai confronté les deux série de X via une régression linéaire et là surprise, en tout cas pour moi, le coefficient de détermination R2 obtenu est différent de celui obtenue lors de la régression réalisée entre les deux séries de K.

 

Qui pourrait me donner une explication claire, notamment au regard de la formule ci-dessus? Pour ma part, je pense que c'est parce que on introduit également A qui est variable dans le modèle, mais je n'en suis pas sûr.............????

Partager ce message


Lien à poster
Partager sur d’autres sites

Je n'avais aucun doute avant de faire un petite modélisation sous excel (pas le courage de lancer R à cette heure ci) mais même si je ne suis pas sûr à 100%, la valeur de A va clairement modifier la pente, l'ordonnée à l'origine et le coeff. de détermination R² par rapport à ta régression linéaire précédente.

 

Après, pour expliquer ça, je pense pas réussir à le faire clairement. Pour te convaincre, tu dois normalement retomber sur les mêmes R² si tu remplaces A par une constante...

 

EDIT : Bon après vérification, ce que j'avance est pas forcément vrai, je regarderai ça demain de plus près...

Partager ce message


Lien à poster
Partager sur d’autres sites

Merci schrenki,

 

je pensais bien également que c'était le A variable qui modifiait la dispersion. Aprés, il y a aussi ce facteur (1+0.005K) qui pourrait peut-être disperser les points...??

Partager ce message


Lien à poster
Partager sur d’autres sites

Je suis une grosse brêle en stats, donc je vais peut être dire une/des connerie(s) ;

Mais étant donné que certaines séries de données sont modifiées (par logarithme, racine, ...) dans le but d'être mieux réparties ou de permettre une meilleure analyse... Cela veut bien dire que modifier les données peut entraîner une modification des propriétés de la série de données (dont le R²) non ?

A partir du moment où tu modifies les données (pas de la même manière pour chacune en plus, vu que ton A est variable) ça me semblerait logique de trouver un R² différent de celui du jeu de donnée brut.

Partager ce message


Lien à poster
Partager sur d’autres sites

Créer un compte ou se connecter pour commenter

Vous devez être membre afin de pouvoir déposer un commentaire

Créer un compte

Créez un compte sur notre communauté. C’est facile !

Créer un nouveau compte

Se connecter

Vous avez déjà un compte ? Connectez-vous ici.

Connectez-vous maintenant

×