Modele mapreduce

Posted by deividuska on February 20th, 2019

Pour résoudre ces problèmes, nous avons le cadre MapReduce. À l`aide de MapReduce, les valeurs de clé K1 peuvent être les entiers 1 à 1100, chacun représentant un lot de 1 million enregistrements, la valeur de clé K2 pourrait être l`âge d`une personne en années, et ce calcul pourrait être réalisé en utilisant les fonctions suivantes: chez Google, MapReduce a été utilisé pour régénérer complètement l`index de Google du World Wide Web. Il a remplacé les anciens programmes ad hoc qui ont mis à jour l`index et exécuté les diverses analyses. le développement chez Google a depuis évolué vers des technologies telles que Percolator, FlumeJava [29] et MillWheel qui offrent un fonctionnement en continu et des mises à jour au lieu du traitement par lots, pour permettre l`intégration de résultats de recherche «en direct» sans reconstruire l`intégralité Index. [30] en général, les nœuds de calcul et les nœuds de stockage sont les mêmes, c`est-à-dire que l`infrastructure MapReduce et le système de fichiers distribués Hadoop (voir Guide de l`architecture HDFS) s`exécutent sur le même ensemble de nœuds. Cette configuration permet à l`infrastructure de planifier efficacement les tâches sur les nœuds où les données sont déjà présentes, ce qui entraîne une bande passante d`agrégation très élevée dans le cluster. La fonction map est appliquée en parallèle à chaque paire (clé par K1) dans le jeu de données en entrée. Ceci produit une liste de paires (indexées par K2) pour chaque appel. Après cela, le Framework MapReduce recueille toutes les paires avec la même clé (K2) de toutes les listes et les regroupe, créant un groupe pour chaque clé. Dans MapReduce, nous divisons le travail entre plusieurs nœuds et chaque nœud fonctionne simultanément avec une partie du travail.

Ainsi, MapReduce est basé sur le paradigme de diviser et conquérir qui nous aide à traiter les données en utilisant des machines différentes. Comme les données sont traitées par plusieurs machines au lieu d`une seule machine en parallèle, le temps pris pour traiter les données est réduit d`une quantité énorme, comme indiqué dans la figure ci-dessous (2). Le modèle est une spécialisation de la stratégie Split-Apply-combine pour l`analyse des données. Il est inspiré par la carte et réduit les fonctions couramment utilisées dans la programmation fonctionnelle [4], bien que leur but dans le cadre MapReduce ne soit pas le même que dans leurs formes originales [3]. [5] les principales contributions du cadre MapReduce ne sont pas la carte réelle et de réduire les fonctions (qui, par exemple, ressemblent à 1995 message passing interface standard [6] réduire [7] et Scatter [8] opérations), mais l`évolutivité et la tolérance aux pannes pour une variété d`applications en optimisant le moteur d`exécution. En tant que tel, une implémentation mono-thread de MapReduce ne sera généralement pas plus rapide qu`une implémentation traditionnelle (non MapReduce); tous les gains sont généralement vus uniquement avec des implémentations multi-thread sur le matériel multi-processeurs. [9] l`utilisation de ce modèle n`est bénéfique que lorsque l`opération de Shuffle distribué optimisée (qui réduit le coût de communication réseau) et les caractéristiques de tolérance de panne du cadre MapReduce entrent en jeu. L`optimisation du coût de communication est essentielle à un bon algorithme MapReduce.

[10] le Framework Hadoop MapReduce génère une tâche de mappage pour chaque InputSplit généré par le InputFormat pour le travail. Maintenant, supposons, nous devons effectuer un nombre de mots sur le sample. txt à l`aide de MapReduce. Ainsi, nous allons trouver les mots uniques et le nombre d`occurrences de ces mots uniques.

Comments are closed.