Care ar fi cea mai bună practică în ceea ce privește AWS pentru următoarele:
- Multe dispozitive medicale IOT adună date la aproximativ 256kBps
- Datele sunt date în serie de timp (o matrice de [Canale X Eșantioane], pot exista milioane de mostre și zeci de canale)
- Datele sunt salvate în fișiere în S3 și fiecare sesiune este înregistrată într-o bază de date cu unele metadate. Până acum folosim RDS pentru asta.
- Fiecare set de date este de aproximativ 5 GB
- Avem acces la seturile de date și am dori să rulăm un flux de analiză:
- Accesați fișierul de date
- Etapa de analiza:
- Executați codul (versiunea gestionată) care acceptă fișierul de date și produce un rezultat (alt fișier sau un JSON)
- Înregistrați pasul de analiză într-o bază de date (care?) și înregistrați rezultatul (dacă este produs un fișier, înregistrați locația acestuia)
- Efectuați încă N pași de analiză în mod similar. Pașii de analiză pot depinde unul de celălalt, dar pot fi și paraleli.
- Rezultatul pasului N' este rezultatul final al fluxului de analiză.
Ideea este de a oferi o modalitate ușoară de a rula codul pe date în AWS fără a descărca efectiv fișierele și de a păstra un jurnal al analizei efectuate asupra datelor.
Aveți idee ce servicii și baze de date să utilizați? Cum să transmiteți datele?
Care ar fi o interfață ușor de utilizat pentru cercetătorul de date care lucrează cu Python, de exemplu?
Am urmatoarea idee in minte:
- Pașii de analiză sunt repoziții de cod gestionate în CodeCommit (pot fi containere)
- Oamenii de știință de date definesc fluxurile (în format JSON)
- Când un cercetător de date dă ordin, fluxul său este executat
- Fluxul este înregistrat ca intrare într-o bază de date
- Un manager de flux distribuie fluxurile între agenții de execuție
- Un agent este un mecanism care primește fluxul, extrage datele și containerele și execută fluxul
- Fiecare agent înregistrează fiecare pas din flux într-o bază de date
Exemple de etape de analiză:
- Filtrare
- Etichetarea artefactelor din date (marcate temporale)
- Calculul parametrilor statistici