Parfois, la vie a une drôle de façon d’aligner les opportunités, et une s’est présentée lorsque Patrick de ServeTheHome a tendu la main et a dit :”Jeff, j’ai un serveur Ampere Altra Max. Tu veux venir le voir ?”

Bien sûr que je l’ai fait.

Mais vu que Patrick a plus de 800 à des kilomètres de là, je devais trouver une raison d’aller le voir, alors j’ai sorti mon cluster Raspberry Pi à 6 nœuds-avec ses 24 cœurs de processeur ARM Cortex A72-et j’ai décidé d’avoir un peu de concurrence.

Et bien sûr, cette compétition est documentée dans une vidéo YouTube :

Dans la vidéo, Patrick et moi parlons longuement des domaines où ARM est fort dans l’entreprise par rapport aux domaines où Intel et AMD sont encore dominants. En résumé :

ARM est excellent en termes de performances entières et pour les charges de travail telles que l’exécution de serveurs Web et de machines virtuelles. x86 est excellent en termes de performances en virgule flottante et de densité de calcul, en particulier avec la dernière génération de processeurs AMD EPYC (« Genoa » et les processeurs Intel Sapphire Rapids Xeon bientôt disponibles !). L’écosystème ARM a mûri au point d’être prêt pour l’entreprise, même s’il n’est pas sans verrues, et tandis que SystemReady est un pas dans la bonne direction, l’écosystème x86 a bénéficié de nombreuses années de stabilité relative. Il existe désormais des options matérielles ARM robustes et flexibles d’une gamme de fabricants de matériel tels que Gigabyte, Asa et Supermicro, y compris une bête d’une machine centrée sur le GPU que ServeTheHome examinera bientôt !

Mais dans cet article de blog, je voulais me concentrer sur l’analyse comparative que nous avons effectuée et sur la façon dont les différents systèmes ARM, y compris le M1 d’Apple, se comparent en termes de classement historique parmi les 500 top et d’efficacité des performances.

Analyse comparative d’ARM Processeurs

La référence multiplateforme incontournable de nos jours semble être Geekbench 5, principalement pour ces raisons :

Il est facile à exécuter Il fonctionne sur (presque) toutes les plates-formes Il donne un simple score simple cœur + multicœur

Et ce n’est pas une mauvaise façon d’avoir une idée rapide du potentiel d’un processeur. Mais mon principal reproche-comprendre qu’il s’agit d’un simple benchmark non étroitement lié aux benchmarks d’applications du monde réel-est qu’il ne teste vraiment que des performances en rafale.

L’autre défaut majeur— au moins pour mon analyse comparative de cluster, c’est qu’il s’agit d’un nœud unique uniquement. Ce n’est pas très utile lorsque vous voulez tester les performances de calcul d’un cluster complet.

Et donc je m’appuie sur Linpack. HPL n’est pas sans défaut, mais une chose qu’il fait très bien est de capturer un spectre plus large de performances du processeur, en particulier sous une charge prolongée, et en particulier dans les environnements en cluster via MPI.

De nombreux systèmes s’effondrent si vous les torturez, en fixant tous les cœurs à 100 % pendant plus de 30 minutes.

De plus… c’est assez amusant pour le sysadmin en moi pour voir comment ma construction se compare historiquement aux 500 meilleurs supercalculateurs.

Mais j’ai eu un problème : HPL est difficile à faire fonctionner sur plusieurs architectures et les types de systèmes. Essayer de le faire fonctionner sur des configurations de niche (comme les clusters Raspberry Pi) vous mène dans un trou de lapin de messages de blog obsolètes et de hacks délicats.

Donc, après avoir travaillé sur l’automatisation des exécutions HPL au cours des deux dernières années, j’ai enfin mis en place un nouveau projet, top500-benchmark, qui cible actuellement Ubuntu et Debian, et s’exécute sur un seul nœud ou un cluster.

Je l’ai testé avec mon cluster Pi, avec mon bureau AMD Ryzen 5 5600x, avec le système Supermicro Ampere Altra Max de Patrick, et même avec mon M1 Max Mac Mini (via Docker) !

Le playbook compile MPI, tente de définir le gouverneur de mise à l’échelle du processeur du système en mode”performance”(sinon les résultats peuvent être un peu instables), compile ATLAS, puis compile et exécute HPL à l’aide d’un fichier HPL.dat réglable.

Pour obtenir de l’aide sur l’exécution de la configuration sur votre propre serveur ou cluster, consultez le projet R EADME. Il peut y avoir encore quelques bugs, car je n’ai testé que sur 6 systèmes différents (2 clusters et 4 postes de travail/serveurs), mais n’hésitez pas à ouvrir un ticket si vous rencontrez des problèmes !

Résultats

Les Pis sont lents, mais relativement efficaces, battant mon système Ryzen 5 5600x, certes dans une version pas bien optimisée pour l’efficacité.

Le système Ampère surpasse le cluster Pi et le bureau AMD, mais n’est même pas à moitié aussi efficace que le petit Mac Studio M1 Max silencieux sur lequel j’écris ce post !

Mais l’efficacité n’est pas tout : pour chaque cas d’utilisation, vous devez prendre en compte des éléments tels que le bruit, les performances et les exigences d’alimentation, la compatibilité logicielle, etc.

Et nous ne comparons pas tout sur un pied d’égalité terrain de jeu non plus. Il y a infiniment plus d’extension dans le serveur Supermicro que mon M1 Max Mac Studio, et la configuration Ryzen que j’ai testée a été conçue pour les jeux et les tests d’IA, pas pour le silence ou l’efficacité énergétique.

Conclusion

Comme je l’ai dit au début de cet article, parfois la vie vous offre des opportunités intéressantes. Dans mon cas, j’ai eu la chance de passer un peu de temps avec l’Ampere Altra Max. J’ai maintenant un point de référence pour”le processeur ARM le plus rapide que l’on puisse acheter aujourd’hui”. C’est un point de référence utile car je passe la plupart de mes journées à jouer avec de minuscules systèmes ARM qui sont moins de 1/100e aussi puissants !

Cette opportunité a également été la dernière poussée vers l’abstraction de mon cluster outil d’analyse comparative HPL dans son propre projet. Espérons que davantage de personnes pourront ressentir le gémissement déchirant des fans de serveurs alors que leurs propres serveurs et clusters essaient de se placer au sommet de l’Ampere Altra Max.

By Maxwell Gaven

J'ai travaillé dans l'informatique pendant 7 ans. C'est amusant d'observer le changement constant dans le secteur informatique. L'informatique est mon travail, mon passe-temps et ma vie.