Les accumulateurs sont des variables qui ne sont "ajoutées" que par une opération associative et peuvent donc être efficacement prises en charge en parallèle. Ils peuvent être utilisés pour implémenter des compteurs (comme dans MapReduce) ou des sommes. Spark prend en charge nativement les accumulateurs de types numériques, et les programmeurs peuvent ajouter la prise en charge de nouveaux types.
Pourquoi utilisons-nous l'accumulateur ?
Les accumulateurs hydrauliques sont utilisés dans une grande variété de industries pour stocker l'énergie; maintenir la pression; amortir les vibrations, les pulsations et les chocs; et beaucoup plus. Stockage d'énergie - Les accumulateurs peuvent accepter, stocker et libérer de l'énergie sous forme de fluide sous pression pour améliorer l'efficacité de votre système hydraulique.
Quelle est la différence entre la diffusion et l'accumulateur dans Spark ?
La principale différence entre une variable de diffusion et un accumulateur est qu'alors que la variable de diffusion est en lecture seule, l'accumulateur peut être ajouté. … Chaque nœud de travail ne peut accéder et ajouter qu'à sa propre valeur d'accumulateur local, et seul le programme pilote peut accéder à la valeur globale.
Comment fonctionne l'accumulateur Spark ?
Les accumulateurs sont des variables qui sont utilisées pour agréger les informations entre les exécuteurs. Par exemple, ces informations peuvent concerner les données ou le diagnostic de l'API, comme le nombre d'enregistrements corrompus ou le nombre d'appels d'une API de bibliothèque particulière.
Pourquoi la variable d'accumulateur dans Spark ne doit-elle pas être utilisée par le travailleur pour les opérations de transformation ?
L'accumulateur donnera une mauvaise sortie. Si une tâche s'exécute lentement, Spark peut lancer une copie spéculative de cette tâche sur un autre nœud. Verdict: Non traité. L'accumulateur donnera une mauvaise sortie.