Am un corp enorm de date text stocate în milioane de fișiere pe S3. Este foarte obișnuit că vreau să efectuez o operațiune pe fiecare dintre acele fișiere, care utilizează numai acel fișier și creează un fișier nou din el. De obicei, folosesc DataBrick-urile companiei mele pentru asta, dar este atât de blocat încât este greu să implementez cod complex acolo.
M-am gândit să folosesc AWS Batch cu Instanțe Spot ca alternativă la DataBricks pentru unele dintre aceste joburi. Cu siguranță aș dori să folosesc mai multe noduri, deoarece cel mai mare nod ar fi destul de incapabil să termine lucrarea într-un interval de timp rezonabil. Există, desigur, tehnologii precum Apache Spark care sunt concepute pentru calcularea distribuită, dar (a) nu sunt încrezător în capacitatea mea de a-mi configura propriul cluster Spark și (b) nu sunt convins că Spark este necesar pentru un astfel de simplu job de calcul distribuit. În principiu, tot ce am nevoie este ca nodurile să comunice pe ce fișiere intenționează să lucreze, ce au terminat și când se opresc.Ar fi simplu, chiar dacă obositor, să păstrez toate acele informații într-o bază de date și nu am nevoie să-mi traduc toate datele într-un alt sistem de fișiere distribuit.
Există o tehnologie bună existentă pentru acest tip de caz de utilizare?