Extraction de caractéristiques (Feature extraction)
Lorsqu’on mène une recherche, l’approche traditionnelle consiste à collecter de manière prospective et souvent manuelle des données simples et spécifiques en fonction de la question posée par le protocole de recherche, à l’aide d’un cahier de recueil de données (clinical report form en anglais). Ces données correspondent aux critères d’inclusion et aux variables, c’est-à-dire les résultats (par exemple, la durée du séjour à l’hôpital ou la survie), les expositions (par exemple, la prise d’un médicament ou une intervention chirurgicale) et les variables d’ajustement (par exemple, l’âge, le sexe et les antécédents du patient). Lors d’une étude prospective, ces données sont définies en amont, puis collectées manuellement dans le cadre de la pratique courante, avec l’aide d’experts, un dossier à la fois, en tenant compte du contexte. Si nécessaire, il est possible de consulter des sources de données tierces ou de faire appel à l’expertise des soignants. Cette approche est coûteuse et chronophage, et elle ne permet généralement d’obtenir qu’un échantillon de taille limitée pour un usage unique. Cependant, l’ensemble de données final contient des informations explicites qui ne nécessitent pas de calculs supplémentaires.
Malgré les nombreuses possibilités offertes par la réutilisation des données, sa mise en œuvre présente de nombreux défis, et les données brutes ne peuvent pas être réutilisées directement. Les informations ne sont pas toujours facilement accessibles dans la base de données source et doivent être calculées rétrospectivement à partir des données brutes afin de définir un algorithme.