Tehnologie bună pentru o operațiune pe lot la scară largă pe multe fișiere S3 în AWS Batch cu instanțe Spot

Zorgoth

23.09.2023, 15:44

Am un corp enorm de date text stocate în milioane de fișiere pe S3. Este foarte obișnuit că vreau să efectuez o operațiune pe fiecare dintre acele fișiere, care utilizează numai acel fișier și creează un fișier nou din el. De obicei, folosesc DataBrick-urile companiei mele pentru asta, dar este atât de blocat încât este greu să implementez cod complex acolo.

M-am gândit să folosesc AWS Batch cu Instanțe Spot ca alternativă la DataBricks pentru unele dintre aceste joburi. Cu siguranță aș dori să folosesc mai multe noduri, deoarece cel mai mare nod ar fi destul de incapabil să termine lucrarea într-un interval de timp rezonabil. Există, desigur, tehnologii precum Apache Spark care sunt concepute pentru calcularea distribuită, dar (a) nu sunt încrezător în capacitatea mea de a-mi configura propriul cluster Spark și (b) nu sunt convins că Spark este necesar pentru un astfel de simplu job de calcul distribuit. În principiu, tot ce am nevoie este ca nodurile să comunice pe ce fișiere intenționează să lucreze, ce au terminat și când se opresc.Ar fi simplu, chiar dacă obositor, să păstrez toate acele informații într-o bază de date și nu am nevoie să-mi traduc toate datele într-un alt sistem de fișiere distribuit.

Există o tehnologie bună existentă pentru acest tip de caz de utilizare?

0 + 0

procesare în loturi

servicii-web-amazon

calcul-distribuit

Tim

23.09.2023, 19:57

Ați menționat AWS Batch. Ce ți-a spus cercetările despre dacă a fost potrivit pentru cazul tău de utilizare?

Răspunde

Zorgoth

23.09.2023, 20:05

Oh, idee bună. Tocmai mi-am dat seama după ce am căutat că lucrările cu mai multe noduri nu sunt acceptate cu instanțe Spot. Se pare că aș fi forțat să trimit mai multe joburi cu un singur nod dacă am de gând să-l folosesc, ceea ce este oarecum mai puțin atrăgător.

Răspunde

SEF 777

întrebarea această in alte limbi:

EN: Good technology for a large-scale batch operation on many S3 files in AWS Batch with Spot instances

TH: เทคโนโลยีที่ดีสำหรับการดำเนินการเป็นชุดขนาดใหญ่ในไฟล์ S3 จำนวนมากใน AWS Batch พร้อมอินสแตนซ์ Spot

RO: Tehnologie bună pentru o operațiune pe lot la scară largă pe multe fișiere S3 în AWS Batch cu instanțe Spot

RU: Хорошая технология для крупномасштабной пакетной обработки множества файлов S3 в AWS Batch with Spot instances.

VI: Công nghệ tốt cho hoạt động hàng loạt quy mô lớn trên nhiều tệp S3 trong AWS Batch với phiên bản Spot

Postează un răspuns

Majoritatea oamenilor nu înțeleg că a pune multe întrebări deblochează învățarea și îmbunătățește legătura interpersonală. În studiile lui Alison, de exemplu, deși oamenii își puteau aminti cu exactitate câte întrebări au fost puse în conversațiile lor, ei nu au intuit legătura dintre întrebări și apreciere. În patru studii, în care participanții au fost implicați în conversații ei înșiși sau au citit transcrieri ale conversațiilor altora, oamenii au avut tendința să nu realizeze că întrebarea ar influența – sau ar fi influențat – nivelul de prietenie dintre conversatori.