Le développement rapide des technologies de l'information au cours des dernières décennies a conduit à une situation pouvant être décrite comme révolutionnaire, en ce qui concerne la manipulation et l'utilisation, à des fins différentes d'énormes volumes de données.
Dans un article publié dans les années quatre-vingt-dix, le spécialiste des systèmes informatiques des États-Unis John Mashey a introduit le terme "Big Data" pour identifier les grands ensembles de données qui font, de plus en plus, l’objet de la capture et du traitement à des fins diverses. Le consultant en affaires a également prédit l’énorme pression que l'afflux de ces données exercerait sur les ressources humaines et informatiques chargés de travailler avec.
À ces fins, aujourd'hui, on identifie les ensembles de données qui dépassent la capacité du logiciel d'habitude pour les capturer, les analyser et les gérer dans un délai raisonnable et souvent on utilise directement le terme anglais. Ces ensembles sont identifiés en Français par Big data, données massives, de grands volumes de données ou comme l'expression plus fréquente, les méga données. Sous l'avancée inexorable des moyens de calcul, la taille des ensembles à considérer dans cette catégorie est en constante augmentation.
Un expert reconnu, le professeur Viktor Mayer-Schönberger de l’Internet Institut à l'Université Harvard, a défini dans un sens plus général, les méga données comme «la capacité de la société à assimiler l'information par des moyens novateurs dans le but de produire des connaissances, des biens et des services de grande valeur ». À ce remarquable savant nous devons un livre qui est pour beaucoup une référence classique dans ce domaine et dont le titre original en anglais exprime toute une prédiction: Big Data: Une révolution qui va transformer la façon dont nous vivons, comment nous travaillons et comment nous pensons.
Il est un fait avéré que la marée de données a pénétré les diverses fonctions de l'industrie et des affaires en général. Selon les estimations, les principaux secteurs de l'économie américaine avaient en 2009 une moyenne de 200 téraoctets (un million de millions d'unités d'information) de données stockées par chaque entreprise avec plus de mille employés et, ce qui est beaucoup plus important, on a démontré diverses façons à travers lesquelles le traitement de données peut générer de la valeur pour les entreprises.
Les processus de la recherche scientifique dans le monde n’échappent pas à cette tendance écrasante, mais, au contraire, ils trouvent dans le contexte actuel une plate-forme puissante pour développer, relancer ou entreprendre des initiatives que, jusqu`à récemment étaient considérés comme trop difficiles ou tout simplement irréalisables. Un exemple classique de ce qu'on vient de dire c´est l'élucidation de la carte du génome humain. Cette tâche capitale, achevée avec succès en 2003, a pris plus de dix ans à cette époque-là, alors qu'aujourd'hui cela ne prendrait que quelques jours pour être complétée, et de surcroît, à un coût beaucoup plus faible.
Les organisations scientifiques internationales les plus représentatives telles que le Conseil mondial de la science, l'Association mondiale Inter Académie, la dénommée Académie mondiale des sciences et le Conseil international pour les sciences sociales, unissent leurs forces pour étudier, analyser et définir des lignes d'action communes à la lumière des nouvelles conditions créées. A cet effet, les entités susmentionnées ont convoqué conjointement plusieurs réunions l'année dernière, destinées à élaborer un accord global sur l'accès aux grands volumes de données, qui ont abouti à une conférence scientifique organisée sous le thème «Science Internationale».
Dans le projet de résolution issu de la conférence en question sont exprimés d’une manière claire des opportunités et concepts que nous partageons avec le lecteur. En examinant en détail les défis et les opportunités qui se présentent dans les conditions actuelles, on a identifié quelques domaines de recherche dans lesquels de nouvelles capacités technologiques ont créé des possibilités complètement inatteignables auparavant.
Ce que nous venons d’affirmer se concrétise dans la possibilité actuelle d'identifier les modèles dans un ensemble de données, ce que jusqu'à présent était impossible de détecter dû à l’énorme volume de données que doivent être traitées. Cela vaut également pour la capacité actuelle d’établir une corrélation entre les différents aspects d’un système donné, afin de mieux interpréter le rôle des différents facteurs qui déterminent leur comportement.
Peut-être et la plus importante, l'application de ces nouveaux outils serait d'exécuter de manière répétée de nombreuses opérations de corrélation entre d'une part, des paramètres décrivant l'état d'un système complexe (tels que l'atmosphère de la terre) et, d'autre part, les différentes simulations qui visent à prédire leur comportement dynamique.
L'énorme importance des capacités pour la recherche contemporaine, est évidente dans les prévisions météorologiques et climatiques, la compréhension du fonctionnement du cerveau, les phénomènes démographiques, les maladies transmissibles ou l'évaluation de la productivité agricole, entre autres exemples. Ce sont des objets d'étude dans lesquels il est essentiel d'avoir une perception combinée ainsi que le traitement de données et d’informations par les plusieurs disciplines scientifiques et tous se trouvent, sans aucun doute, parmi les plus importants défis mondiaux contemporains.
Une fois reconnue l'importance des nouvelles possibilités offertes, il est essentiel de relever le défi de la façon de diriger et de réglementer l'organisation et la conduite de la recherche scientifique. Avec raison, les experts soulignent que ce sont précisément les données obtenues et traitées celles qui devraient servir de fils rouge vers de nouvelles perspectives.
Dans le cadre des conditions préalables à la réalisation de ces objectifs, les experts identifient les appelés « quatre "V". Le premier V est le volume que le système informatique doit être en mesure d'intégrer, traiter et diffuser. La seconde c´est la variété et la complexité de l'ensemble de données examinées, qui a son origine dans la nature des individus et des institutions impliquées dans leur chaîne valeur. Le troisième correspond à la vitesse d’entrée et de sortie de données du système en temps réel.
Enfin et peut-être le plus important c´est la question de la Véracité, qui concerne l'incertitude pouvant être générée en raison de la possibilité d'un biais, de la présence de bruit ou d'une anomalie dans les données. Alors que la vérité n’est pas une caractéristique intrinsèque aux grands flux de données, c´est une qualité évidemment très souhaitable en ce qui concerne les objectifs scientifiques.
À des fins de recherche en particulier, la question de la précision de résultats obtenus à partir des "Big Data" et l'examen par d'autres spécialistes à qualification équivalente (pratique connue dans les milieux scientifiques comme «examen par les pairs ») crée des problèmes très graves pour son contrôle efficace. Notamment est à souligner la nécessité d'établir une certaine «reproductibilité standard » applicable à ces études.
Le principal problème est, certes, dans le fait que les formes actuelles de traitement de données dépassent les formes classiques utilisées par les scientifiques pour interpréter et vérifier les faits. En effet, une grande partie des relations les plus complexes qui visent à identifier et décrire aujourd'hui - en utilisant de méga données et d’autres y liées - dépassent la capacité d'analyse des méthodes classiques.
Cette situation détermine que les scientifiques doivent utiliser d'autres méthodes d'analyse pour assurer la validité des conclusions tirées de la gestion des données. L'utilisation intensive des machines pour l'analyse des données est une pratique généralisée, et l’appelé « apprentissage automatique » est de plus en plus répandu, ce qui ouvre la porte à une nouvelle et plus grande capacité de prendre des décisions fondées sur des preuves.
Le potentiel créatif dérivé du traitement de ces données volumineuses, la possibilité de relier entre elles différentes sources et notamment l’apprentissage automatique a des implications profondes, non seulement car il permettra de nouvelles découvertes scientifiques, mais aussi pour de nombreux autres domaines de la vie et en particulier, pour la configuration de ce qui est censé être un scientifique du 21èmesiècle.
D'où l'importance particulière des questions sur la manière de comprendre les phénomènes analysés par les machines et en général sur leur accessibilité pour la capacité du raisonnement humain. À ce propos la réflexion fournie par le professeur précité Meyer-Schönberger à un journaliste espagnol: «Le Big Data change la façon dont les machines pensent –et cela va d'essayer de leur apprendre de règles jusqu´au fait de disposer de statistiques pour résoudre les problèmes sans comprendre pourquoi. Cela change la façon dont nous laissons les ordinateurs réaliser les choses -de traduire des langues jusqu’à faire des recommandations de livres-mais cela ne change pas la façon dont nous pensons. » (J’ai ajouté la coursive, ICA).
Les technologies et procédés caractéristiques de la révolution numérique, du type décrit ci-dessus, constituent un outil très puissant pour réussir une multiplication de la productivité et la créativité grâce à l'échange rapide et le développement d'idées à travers le réseau d'interaction de nombreuses têtes. Pour la grande majorité des scientifiques, il est incontestable que la connaissance et la compréhension ont été et continuent d'être des aspects essentiels à des jugements humains, pour l'innovation et pour le bien-être social et personnel. Par conséquent, il est important de garantir une connaissance ouverte accessible à tous, pour générer des idées et des données, les partager largement par ceux qui y sont à l’origine tout en favorisant l’avancement de la connaissance universelle.
Une excellente manière d'exposer cette idée, souvent citée, c´est l'expression attribuée au célèbre prix Nobel de littérature l’irlandais Shaw Bernard George : « Si vous avez une pomme et j’en ai une autre et nous échangeons, alors vous et moi avons encore une pomme chacun. Mais si j'ai une idée et vous en avez une autre et nous l’échangeons, alors chacun de nous aura deux idées. »
L'accès libre aux données de recherche devient donc de plus en plus un principe fondamental de scientifiques dans différents forums. Pour ce faire, nous devrons faire face aux manœuvres puissantes et récurrentes visant à transformer les connaissances en objet d'appropriation individuelle et source de profit. Seulement si l’humanité peut affronter et mettre fin à ces tentatives, de nouveaux outils deviendront une réalité afin d’assurer efficacement le bien-être futur de l'Humanité
Deje un comentario