Le coût de la dichotomie des variables continues

les variables continues sont faites dans toutes les branches de la médecine, en aidant dans le diagnostic et le traitement des patients. En pratique clinique, il est utile d’étiqueter les individus comme ayant ou non un attribut, comme être “ hypertendus ” ou “ obèse ” ou ayant ” hypercholestérolémie, ” en fonction de la valeur d’une variable continue. La catégorisation des variables continues est également fréquente dans la recherche clinique, mais ici une telle simplicité est acquise à un certain coût. Bien que le regroupement puisse faciliter la présentation des données, notamment dans les tableaux, la catégorisation est inutile pour l’analyse statistique et présente de sérieux inconvénients.Nous considérons ici l’impact de la conversion de données continues en deux groupes (dichotomisation), car c’est l’approche la plus courante dans la recherche clinique. Quels sont les avantages perçus de forcer tous les individus en deux groupes? Un argument commun est qu’il simplifie grandement l’analyse statistique et conduit à une interprétation et une présentation faciles des résultats. Une division binaire — par exemple, à la médiane — conduit à une comparaison de groupes d’individus avec des valeurs élevées ou faibles de la mesure, conduisant dans le cas le plus simple à au test ou χ 2 test et une estimation de la différence entre les groupes (avec son intervalle de confiance). Cependant, il n’y a pas de bonne raison de supposer qu’il existe une dichotomie sous-jacente, et si l’on existe, il n’y a pas de raison qu’elle soit à la médiane2. La dichotomie conduit à plusieurs problèmes. Premièrement, beaucoup d’informations sont perdues, de sorte que le pouvoir statistique de détecter une relation entre la variable et le résultat du patient est réduit. En effet, dichotomiser une variable à la médiane réduit la puissance de la même quantité que si l’on écartait un tiers des données.2,3 Le rejet délibéré de données est certainement déconseillé lorsque les études de recherche ont tendance à être trop petites. La dichotomisation peut également augmenter le risque qu’un résultat positif soit un faux positif.4 Deuxièmement, on peut sérieusement sous-estimer l’ampleur de la variation des résultats entre les groupes, comme le risque d’un événement, et une variabilité considérable peut être subsumée dans chaque groupe. Les individus proches mais sur les côtés opposés du point de coupure sont caractérisés comme étant très différents plutôt que très similaires. Troisièmement, l’utilisation de deux groupes masque toute non-linéarité dans la relation entre la variable et le résultat. Vraisemblablement, beaucoup qui dichotomisent ne sont pas conscients des implications cliquez pour en savoir plus. Si la dichotomisation est utilisée où devrait être le point de coupure? Pour quelques variables, il existe des points de coupure reconnus, tels que > 25 kg / m2 pour définir “ surpoids ” basé sur l’indice de masse corporelle. Pour certaines variables, telles que l’âge, il est habituel de prendre un nombre rond, généralement un multiple de cinq ou de 10. Le point de coupure utilisé dans les études précédentes peut être adopté. En l’absence d’un seuil antérieur, l’approche la plus courante consiste à prendre la médiane de l’échantillon. Cependant, l’utilisation de la médiane de l’échantillon implique que différents points de coupure seront utilisés dans différentes études de sorte que leurs résultats ne peuvent être facilement comparés, entravant sérieusement la méta-analyse des études observationnelles.5 Néanmoins, toutes ces approches sont préférables à plusieurs analyses donne le résultat le plus convaincant. Utilisation de ce que l’on appelle “ optimal ” point de coupure (généralement celui qui donne la valeur P minimale) comporte un risque élevé de résultat faussement significatif; la différence de la variable de résultat entre les groupes sera surestimée, peut-être considérablement; et l’intervalle de confiance sera trop étroit. Cette stratégie ne devrait jamais être utilisée6,7. Lorsque la régression est utilisée pour ajuster l’effet d’une variable confondante, la dichotomisation risque de laisser subsister une partie substantielle de la confusion.4,7 La dichotomisation est peu utilisée dans les études épidémiologiques, où l’utilisation de plusieurs catégories est préférée. L’utilisation de plusieurs catégories (pour créer une variable “ ordinale ”) est généralement préférable à la dichotomie. Avec quatre ou cinq groupes, la perte d’information peut être assez faible, mais il y a des complexités dans l’analyse. Au lieu de catégoriser les variables continues, nous préférons les garder continues. Nous pourrions alors utiliser la régression linéaire plutôt qu’un test t à deux échantillons, par exemple. Si nous craignions qu’une régression linéaire ne représente pas vraiment la relation entre la variable de résultat et la variable prédictive, nous pourrions explorer si une transformation (telle qu’une transformation logarithmique) serait utile.7,8 À titre d’exemple, dans une analyse de régression à développer un modèle pronostique pour les patients atteints de cirrhose biliaire primitive, un modèle soigneusement développé avec la bilirubine en tant que variable explicative continue expliquait 31% de plus de la variabilité des données que lorsque la distribution de la bilirubine était divisée à la médiane.7 | Les citoyens américains de classe grandissent