L'expression des gènes est le processus par lequel l'information génétique est traduite en macromolécules fonctionnelles. La transcription est la première étape de ce processus, qui consiste à synthétiser des ARN messagers (ARNm) à partir de la matrice d’ADN du gène correspondant. Au cours des dernières décennies, les approches de profilage transcriptionnel à l'échelle du génome entier ont permis d'évaluer les niveaux d'expression de milliers de gènes en parallèle dans divers contextes biologiques. Dans les analyses statistiques, l'expression d'un gène est estimée en comptant le nombre d’occurrence des séquences de l’ARNm correspondant sur un ensemble d'échantillons et est définie par deux dimensions : la moyenne et la variance.
L'écrasante majorité des analyses transcriptomiques basée sur l’étude des profils d’expression se concentre sur l'identification des gènes dont l'expression moyenne change de manière significative lorsque l'on compare des échantillons de différentes conditions, correspondant à des processus biologiques d’intérêt, tels que la biologie du développement, l’étiologie des maladies, la découverte de cibles thérapeutiques, etc. Dans cette approche classique, la variance n'est généralement considérée que comme un paramètre de bruit à estimer avant de comparer les moyennes d’expression. Et pourtant, l'estimation de la variance de l'expression peut être pertinente d'un point de vue physiologique, puisqu'une modification de ce paramètre peut refléter un changement biologique de la régulation de l'expression des gènes. Les fluctuations de l'expression des gènes peuvent en effet être dues à diverses sources intrinsèques à la vie cellulaire, comme par exemple la nature stochastique de la transcription des gènes, le cycle cellulaire, les modifications de la chromatine ou la dégradation des ARNm.
Les chercheurs de l’Irig proposent de comparer les performances des méthodes statistiques qui identifient de tels gènes différentiellement variants. Ils ont mis en évidence le potentiel de cette approche en analysant des ensembles de données d’expression sur divers cancers, ce qui a permis d'identifier des fonctions cellulaires clés dans la progression tumorale, qui n’auraient pas pu être identifiées par comparaison de la moyenne d’expression.
Les chercheurs ont évalué quatre méthodes récentes qui détectent les différences dans la moyenne et dans la dispersion des données de séquençage ARN. En appliquant ces méthodes sur des données simulées, cela permet de caractériser de manière fiable les paramètres pour détecter les gènes présentant une variance d'expression entre deux conditions. Les données de l'Atlas du génome du cancer ont ensuite été soumises à ces méthodes. Parmi les gènes présentant une variance d'expression accrue dans les tumeurs et sans changement dans l'expression moyenne, certaines fonctions cellulaires clés ont été identifiées, dont la majorité sont liées au catabolisme et sont surreprésentées dans la plupart des cancers analysés.
Il peut être biologiquement et physiologiquement pertinent de considérer une différence de variance dans l'expression des gènes. Ces résultats mettent en évidence l'autophagie dans la cancérogenèse, illustrant ainsi le potentiel de l'approche de variance différentielle pour acquérir de nouvelles connaissances sur les processus biologiques et pour découvrir de nouveaux biomarqueurs.