Ho guardato i tutorial/esempi/esericizi fino ad ora. Molto molto interessanti e belli, anche se devo spenderci un bel po' ora per impratichirmi.
Riguardo all'inizio del tuo ultimo post, quello che devo fare idealmente ora è risolvere sistemi lineari di grandi dimensioni (taglia 10^7) che sono dentro un ciclo for. Questi sistemi sono tutti indipendenti gli uni dagli altri e alla fine mi serve la somma delle varie soluzioni, perciò il problema è banalmente parallelizzabile. Sono inoltre relativamente pochi (sono $8$).
Credo che la cosa da fare qui sia semplicemente risolvere su ciascun nodo un sistema lineare e poi alla fine sommare il tutto. Da neofita di MPI mi viene da dire una cosa del tipo "8 processi in cui vengono calcolate le soluzioni e alla fine mando tutto al processo $0$ per sommare".
Oppure c'è un modo più efficiente (almeno in teoria) ?