Puncte:0

Configurarea unei arhitecturi pentru analiza fluxurilor de date din fluxul de timp din mai multe surse

drapel sl

Care ar fi cea mai bună practică în ceea ce privește AWS pentru următoarele:

  • Multe dispozitive medicale IOT adună date la aproximativ 256kBps
  • Datele sunt date în serie de timp (o matrice de [Canale X Eșantioane], pot exista milioane de mostre și zeci de canale)
  • Datele sunt salvate în fișiere în S3 și fiecare sesiune este înregistrată într-o bază de date cu unele metadate. Până acum folosim RDS pentru asta.
  • Fiecare set de date este de aproximativ 5 GB
  • Avem acces la seturile de date și am dori să rulăm un flux de analiză:
    • Accesați fișierul de date
    • Etapa de analiza:
      • Executați codul (versiunea gestionată) care acceptă fișierul de date și produce un rezultat (alt fișier sau un JSON)
      • Înregistrați pasul de analiză într-o bază de date (care?) și înregistrați rezultatul (dacă este produs un fișier, înregistrați locația acestuia)
    • Efectuați încă N pași de analiză în mod similar. Pașii de analiză pot depinde unul de celălalt, dar pot fi și paraleli.
    • Rezultatul pasului N' este rezultatul final al fluxului de analiză.

Ideea este de a oferi o modalitate ușoară de a rula codul pe date în AWS fără a descărca efectiv fișierele și de a păstra un jurnal al analizei efectuate asupra datelor.

Aveți idee ce servicii și baze de date să utilizați? Cum să transmiteți datele? Care ar fi o interfață ușor de utilizat pentru cercetătorul de date care lucrează cu Python, de exemplu?

Am urmatoarea idee in minte:

  • Pașii de analiză sunt repoziții de cod gestionate în CodeCommit (pot fi containere)
  • Oamenii de știință de date definesc fluxurile (în format JSON)
  • Când un cercetător de date dă ordin, fluxul său este executat
  • Fluxul este înregistrat ca intrare într-o bază de date
  • Un manager de flux distribuie fluxurile între agenții de execuție
  • Un agent este un mecanism care primește fluxul, extrage datele și containerele și execută fluxul
  • Fiecare agent înregistrează fiecare pas din flux într-o bază de date

Exemple de etape de analiză:

  1. Filtrare
  2. Etichetarea artefactelor din date (marcate temporale)
  3. Calculul parametrilor statistici
Puncte:2
drapel cn

Se pare că doriți să utilizați Elastic MapReduce pentru a face analiza - este un serviciu gestionat de date mari.Ar trebui să puteți utiliza EMR Notebook-uri pentru analiză. Introducerea datelor ar fi probabil cel mai bine cu ceva de genul Kinesis. Există, de asemenea, o mulțime de servicii IoT specifice, dar acestea nu sunt domeniul meu de expertiză.

Aceasta este o întrebare destul de mare, larg deschisă - efectiv vă întrebați „cum construiesc o platformă de analiză a datelor mari”, care este una complicată! Vă sugerez să citiți informațiile despre serviciile enumerate mai sus și să vedeți dacă acestea corespund nevoilor dvs. sau să solicitați companiei dvs. să contacteze AWS pentru servicii profesionale. Nu trebuie să coste o avere!

Postează un răspuns

Majoritatea oamenilor nu înțeleg că a pune multe întrebări deblochează învățarea și îmbunătățește legătura interpersonală. În studiile lui Alison, de exemplu, deși oamenii își puteau aminti cu exactitate câte întrebări au fost puse în conversațiile lor, ei nu au intuit legătura dintre întrebări și apreciere. În patru studii, în care participanții au fost implicați în conversații ei înșiși sau au citit transcrieri ale conversațiilor altora, oamenii au avut tendința să nu realizeze că întrebarea ar influența – sau ar fi influențat – nivelul de prietenie dintre conversatori.