Chapitre 8 Analyse discriminante

8.1 Notation et formulation du problème

C’est en 1936 que Sir R. A. Fisher a introduit la méthode. Il s’intéressait à la taxonomie végétale, p.ex. déterminer l’espèce de fleurs à partir de diverses mesures (Fisher (1936))

Soit \({\bf X} = (X_{ij})\), qui est une matrice de dimension \(n \times p\), où \(n\) est le nombre d’individus dans l’échantillon, \(p\) est le nombre de variables et \(X_{ij}\) est la valeur de la \(j^e\) variable pour le \(i^e\) individu. On définit

  • \(I_k = \mbox{ensemble des individus du groupe } k\);
  • \(n_k = |I_k| = \mbox{cardinalité de } I_k\);
  • \(\Rightarrow n_1 + \cdots + n_q = n\), où \(q\) est le nombre de groupes.

On a donc des observations dans \(\mathbb{R}^p\). Pour faire la classification à partir de \(X_1,\ldots,X_p\), on doit partitionner \(\mathbb{R}^p\) en \(q\) sous-ensembles de sorte que chacun des \(q\) sous-ensembles est associé à un des \(q\) groupes.

La stratégie de Fisher:

  • passer de la dimension \(p\) à la dimension 1 en calculant un score \[f(x_1, \ldots, x_p) \in \mathbb{R},\] pour chaque observation;
  • utiliser ce score pour déterminer le groupe d’appartenance (donc partitionner \(\mathbb{R}\)).

Le score proposé par Fisher est une combinaison linéaire des variables, c’est-à-dire \[\begin{align*} f(X_1, \ldots , X_p) &= {\bf a}^\top {\bf X} + b \\ &= a_1 X_1 + \cdots + a_p X_p + b. \end{align*}\] On en déduira \(q\) intervalles de décision \({\cal{I}}_1, \ldots , {\cal{I}}_q\) associés aux groupes.

Sans perte de généralité, on peut choisir \[\begin{align*} -b &= a_1 {\bar X}_1 + \cdots + a_p {\bar X}_p = {\bf a}^\top {\bar {\bf X}}, \end{align*}\] ce qui permet de centrer les variables en enlevant le vecteur de moyenne

\[{\bar {\bf X}} = \left( {\tilde X}_1, \ldots , {\tilde X}_p \right)^\top.\]

Il ne reste plus qu’à choisir le vecteur \({\bf a} = (a_1, \ldots, a_p)\).

8.2 Calcul du meilleur score

On voudrait choisir le vecteur \({\bf a}\) de sorte que les scores soient

  • très différents entre les groupes;
  • très similaires à l’intérieur d’un groupe.

On s’intéresse donc à la variabilité des scores à l’intérieur des groupes et entre les groupes.

Étant donné \({\bf a} \in \mathbb{R}^p\), on a \[{\rm var} ({\bf a}^\top (X_1\ \cdots X_p)^\top) = {\bf a}^\top{\rm var} ((X_1\ \cdots X_p)^\top) {\bf a},\] que nous estimons à partir des \(n\) observations par \[\frac{1}{n} \, {\bf a}^\top {\bf S a}. \]

La base de l’analyse discriminante repose sur le fait que \[{\bf S}={\bf W}+{\bf B},\]\[\begin{align*} {\bf W} &= \mbox{matrice de variance intragroupe},\\ {\bf B} &= \mbox{matrice de variance intergroupe}. \end{align*}\] (\({\bf W}\) pour within et \({\bf B}\) pour between).

On peut prouver ce résultat en considérant la définition des matrices \({\bf S}\), \({\bf W}\) et \({\bf B}\).

La moyenne de la variable \(j\) pour tous les individus de l’échantillon est \[{\bar X}_j = \frac{1}{n} \, \sum_{i=1}^n X_{ij}\] La moyenne de la variable \(j\) pour les individus du groupe \(k\) est \[{\bar X}_{kj} = \frac{1}{n_k} \, \sum_{i \in I_k} X_{ij}\] La somme des carrés totale est \[s_{j j^\prime} = \sum_{i=1}^n \left( X_{ij} - {\bar X}_j \right) \left( X_{ij^\prime} - {\bar X}_{j^\prime} \right), \] (On tirerait de la matrice \({\bf S}\) une estimation de \({\rm cov} (X_j, X_{j^\prime})\) si toutes les observations provenaient d’un même groupe.) On définit \(s_{j j^\prime}\) comme étant \[s_{j j^\prime } = w_{j j^\prime } + b_{j j^\prime }\]\[\begin{align*} w_{j j^\prime} &= \sum_{k=1}^q \sum_{i \in I_k} (X_{ij} - {\bar X}_{kj} ) ( X_{ij^\prime} - {\bar X}_{k j^\prime}) , \\ b_{jj^\prime} &= \sum_{k=1}^q n_k ( {\bar X}_{kj} - {\bar X}_j )( {\bar X}_{kj^\prime} - {\bar X}_{j^\prime}). \end{align*}\]

On obtient \[\widehat{{\rm Var}} ({\bf a}^\top (X_1\cdots X_p)^\top) = \frac{1}{n} \, {\bf a}^\top {\bf S a} = \frac{1}{n} \, \left( {\bf a}^\top {\bf W a} + {\bf a}^\top {\bf B a} \right).\]

On se rappelle que l’on veut choisir le vecteur \({\bf a}\) pour que les scores puissent facilement séparer les groupes. En d’autres mots, on veut des scores les plus similaires possible à l’intérieur d’un groupe et des scores les plus différents possible entre les groupes.

On propose de choisir le vecteur \({\bf a} \in \mathbb{R}^p\) pour maximiser \[\frac{{\bf a}^\top {\bf B a} }{{\bf a}^\top {\bf W a}} \quad {\rm ou } \quad \frac{{\bf a}^\top {\bf B} {\bf a} }{{\bf a}^\top {\bf S a}} = \frac{1}{1 + \frac{{\bf a}^\top {\bf W a}}{{\bf a}^\top {\bf B a}}} \, . \] Ce vecteur est unique à une constante près. On peut formuler le problème de trois manières équivalentes.

  • Maximiser \({\bf a}^\top {\bf B a} / {\bf a}^\top {\bf S a}\) sous la contrainte que ${}^ =1 $.
  • Maximiser \({\bf a}^\top {\bf B a}\) sous la contrainte que \({\bf a}^\top {\bf S a} = 1\).
  • Maximiser \({\bf c}^\top {\bf S}^{-1/2} {\bf B S}^{-1/2} {\bf c}\) sous la contrainte que \({\bf c}^\top {\bf c} = 1\), où \({\bf c} = {\bf S}^{1/2}{\bf a}\).

En récrivant la 3e formulation \[{\bf c}^\top ~ \Big( {\bf S}^{-1/2} {\bf B S}^{-1/2} \Big) ~ {\bf c},\]

du chapitre sur l’ACP, on se souvient qu’il faut prendre \({\bf a} = {\bf S}^{-1/2} {\bf c}\), où \[{\bf c} = \mbox{vecteur propre normé}\]

associé à \[\lambda_1 = \mbox{première valeur propre de } {\bf S}^{-1/2} {\bf B S}^{-1/2}.\]

De façon équivalente, de la 2e formulation et du chapitre sur l’ACB on se souvient qu’on peut prendre \[{\bf a} = \mbox{vecteur propre normé}\] associé à \[\lambda_1 = \mbox{première valeur propre de } {\bf S}^{-1} {\bf B}.\] À noter que si \[{\bf S}^{-1/2}{\bf BS}^{-1/2} {\bf c} = \lambda {\bf c} \quad {\rm et} \quad {\bf a} = {\bf S}^{-1/2} {\bf c},\] alors \[{\bf S}^{-1/2}{\bf Ba} = \lambda {\bf S}^{1/2} {\bf a} \quad \Rightarrow \quad {\bf S}^{-1} {\bf B a} =\lambda {\bf a}.\] Les valeurs propres de \({\bf S}^{-1}{\bf B}\) et de \({\bf S}^{-1/2}{\bf BS}^{-1/2}\) sont donc les mêmes!

La fonction discriminante de Fisher est donc \[f({\bf x}) = {\bf a}^\top \left( {\bf x} - {\bar {\bf X}} \right),\]

\({\bf a}\) est le vecteur propre normé associé à la plus grande valeur propre de \({\bf S}^{-1}{\bf B}\).

Les scores \(Y_i={\bf a}^\top \left( {\bf X}_i - {\bar {\bf X}} \right)\) sont les scores linéaires en \({\bf X}_i\) qui ont le rapport (variance inter)/(variance intra) le plus élevé.

Puisque la matrice \({\bf S}^{-1/2}{\bf BS}^{-1/2}\) est symétrique et définie positive, ses valeurs propres sont toutes réelles et positives. De plus, on a que \({\bf S}^{-1}{\bf Ba} = \lambda_1 {\bf a}\). Ainsi, \[\begin{align*} {\bf Ba} = \lambda_1 {\bf Sa} &\Rightarrow {\bf a}^\top {\bf Ba} = \lambda_1 {\bf a}^\top {\bf Sa} \\ &\Rightarrow \lambda_1 = \frac{{\bf a}^\top {\bf Ba}}{{\bf a}^\top {\bf Sa}} \, . \end{align*}\]

On a donc \[0 \le \lambda_1 \le 1.\] La valeur propre \(\lambda_1\) peut donc être vue comme le pouvoir discriminant de \(f\):

  • \(\lambda_1=1\Rightarrow {\bf a}^\top {\bf Ba} = {\bf a}^\top {\bf Sa}\), donc 100% de la variabilité entre les groupes et 0 variabilité à l’intérieur des groupes;
  • \(\lambda_1=0\Rightarrow {\bf a}^\top {\bf Ba} = 0\), donc 0 variabilité entre les groupes et 100% de la variabilité à l’intérieur des groupes.

8.3 Fonction discriminante et classification

8.3.1 Règle de classification

Après avoir défini la fonction discriminante \(f({\bf x})\), on peut calculer le score moyen de chaque groupe défini comme étant

\[m_k = {\bf a}^\top \left( {\bar X}_{k1}, \ldots , {\bar X}_{kp} \right)^\top, \]

\[\begin{align*} {\bar X}_{kj}= & \mbox{ moyenne de la $j^e$ variable pour les } \\ & \mbox{ individus appartenant au $k^e$ groupe}. \end{align*}\]

Considérons une nouvelle observation \({\bf X}_0 \in \mathbb{R}^p\). Pour classer ce nouvel individu dans un groupe de la population,

  • on calcule son score \(f({\bf X}_0) = {\bf a}^\top {\bf X}_0\)
  • on l’assigne au groupe \(k_0\) qui lui ressemble le plus, c’est-à-dire le groupe tel que \[\left| {\bf a}^\top {\bf X}_0 - m_{k_0} \right| = \min _{1 \le k \le q} \left| {\bf a}^\top {\bf X}_0 - m_k \right|. \]

En appliquant cette règle à l’échantillon \({\bf X}_1, \ldots , {\bf X}_n\) lui-même, on peut estimer les risques de mauvaise classification avec la matrice de confusion.

8.3.2 Cas à 2 groupes

On peut montrer que le vecteur propre de l’analyse discriminante dans le cas où il n’y a que deux populations peut être défini ainsi: \[{\bf a} = {\bf S}^{-1} {\bf C} = \sqrt{\frac{n_1n_2}{n}} \, {\bf S}^{-1} \left( {\tilde {\bf X}}_1 - {\tilde {\bf X}}_2 \right),\]\[{\bf C} = \sqrt{\frac{n_1n_2}{n}} \left( {\tilde {\bf x}}_1 - {\tilde {\bf x}}_2 \right)\ \ \mbox{et}\ \ {\bf B}={\bf CC}^\top\] et \(\tilde{\bf x}_i\), \(i=1,2\) sont les moyennes des caractéristiques \({\bf x}\) dans chaque groupe.

Supposons que

\[m_1 = {\bf a}^\top {\tilde {\bf x}}_1 > {\bf a}^\top {\tilde {\bf x}}_2 = m_2.\] Alors, on classe un individu dans le premier groupe si \[{\bf a}^\top {\bf x} > {\bar m} = \frac{m_1+m_2}{2} = {\bf a}^\top \left( \frac{{\tilde {\bf x}}_1 + {\tilde {\bf x}}_2 } {2} \right).\]

\[\Leftrightarrow\left( {\tilde {\bf x}}_1 - {\tilde {\bf x}}_2 \right)^\top {\bf S}^{-1} {\bf x} > \left( {\tilde {\bf x}}_1 - {\tilde {\bf x}}_2 \right)^\top {\bf S}^{-1}\left( \frac{{\tilde {\bf y}}_1 + {\tilde {\bf x}}_2 } {2} \right). \] (Le facteur \(\sqrt{n_1n_2/n}\) divise les deux côtés de l’inégalité. C’est pour cette raison qu’il n’y apparaît pas.)

8.4 Qualité de la discrimination

On a vu que

  • la fonction discriminante de Fisher est \(f({\bf X}) = {\bf a}^\top ({\bf X} - {\bar {\bf X}})\);
  • le vecteur \({\bf a}\) est le premier vecteur propre de la matrice \({\bf S}^{-1}{\bf B}\),
  • la valeur propre associée à ce premier vecteur propre est \(\lambda_1 \in (0,1)\). Cette valeur propre représente le pouvoir discriminant de la fonction discriminante de Fisher.

Cette valeur propre est appelée la statistique de Roy.

Note: Le vecteur \({\bf a}\) est aussi le vecteur propre de \({\bf W}^{-1}{\bf B}\) associé à la première valeur propre, \(\xi_1\), de cette matrice.

Outre la statistique de Roy, d’autres statistiques sont utilisées pour tester l’égalité des vecteurs \(\mu_1,\ldots,\mu_q\).

  • Trace d’Hotelling-Lawley,: \({\rm trace} \left( {\bf BW}^{-1} \right) = \sum \xi_i\),; \[10pt]
  • Trace de Pillai,: \({\rm trace} ({\bf BS}^{-1}) = \sum \lambda_i\),; \[10pt]
  • Plus grande racine de Roy,: \(\xi_1 = \lambda_1/(1-\lambda_1)\),; \[10pt]
  • Lambda de Wilks,: \(\displaystyle \Lambda = \frac{|{\bf W}|}{|{\bf S}|} = \frac{1}{{\bf BW}^{-1} +1} = \prod \frac{1}{1+\xi_i}\),.

Les logiciels donnent souvent la valeur de p associée à chacun de ces tests. Si ces statistiques ne conduisent pas au rejet de

\[H_0: \mu_1 = \mu_2 = ... = \mu_q,\]

une analyse discriminante ne sera pas très prometteuse …

Références

Fisher, Ronald A. 1936. “The Use of Multiple Measurements in Taxonomic Problems.” Annals of Eugenics 7 (2): 179–88.