Puncte:1

Agentul de valori GKE înregistrează multe erori

drapel cn

Am creat clusterul GKE și primim erori de la gke-metrics-agent. Erorile apar la fiecare aproximativ 30 de minute. Sunt întotdeauna aceleași 62 de erori.

Toate erorile au etichetă k8s-pod/k8s-app: „gke-metrics-agent”.

Prima eroare este:

eroare exporterhelper/queued_retry.go:245 Exportarea a eșuat. Încercați să activați opțiunea de configurare retry_on_failure. {"kind": "exportator", "name": "googlecloud", "error": "rpc error: code = DeadlineExceeded desc = Termenul limită a expirat înainte ca operațiunea să poată fi finalizată."  

Această eroare este urmată de aceste erori în ordine

  • „go.opentelemetry.io/collector/exporter/exporterhelper.(*retrySender).send”
  • „/go/src/gke-logmon/gke-metrics-agent/vendor/go.opentelemetry.io/collector/exporter/exporterhelper/queued_retry.go:245”
  • go.opentelemetry.io/collector/exporter/exporterhelper.(*metricsSenderWithObservability).send
  • /go/src/gke-logmon/gke-metrics-agent/vendor/go.opentelemetry.io/collector/exporter/exporterhelper/metrics.go:120

Există aproximativ 40 de erori ca aceasta. Două erori care ies în evidență sunt:

- eroare exporterhelper/queued_retry.go:175 Exportarea a eșuat. Aruncarea datelor.Încercați să activați sending_queue pentru a supraviețui eșecurilor temporare. {"kind": "exportator", "name": "googlecloud", "dropped_items": 19}"

- warn batchprocessor/batch_processor.go:184 Sender failed {"kind": "processor", "name": "batch", "error": "rpc error: code = DeadlineExceeded desc = Termenul limită a expirat înainte ca operațiunea să se poată finaliza."} "

Am incercat sa caut acele erori pe google dar nu am gasit nimic. Nici măcar nu găsesc nicio documentație pentru gke-metrics-agent.

Lucruri pe care le-am incercat:

  • verifica cotele
  • actualizați GKE la o versiune mai nouă (versiunea actuală este 1.21.3-gke.2001)
  • actualizare nodurile
  • dezactivați toate regulile de firewall
  • dați toate permisiunile nodurilor k8s

Pot oferi mai multe informații despre clusterul nostru kubernetes, dar nu știu ce informații pot fi importante pentru a rezolva această problemă.

Srividya avatar
drapel cn
**âTermen limită depășitâ** este o [problemă cunoscută](https://github.com/census-ecosystem/opencensus-go-exporter-stackdriver/releases/tag/v0.13.6) și pornind de la Kubernetes 1.16, valorile sunt trimise către Cloud Monitoring prin agentul GKE Metrics, care este construit pe [Open Telemetry](https://opentelemetry.io/). Puteți furniza detalii despre versiunea pe care o utilizați pentru exportator OpenCensus și verifica prin actualizarea versiunii de export OpenCensus, ceea ce mărește timpul de expirare și anunțați-mă dacă funcționează?
Melchy avatar
drapel cn
Mersi pentru raspuns. Se pare că nu știu cum să actualizez exportatorul OpenCensus. Am găsit gke-metrics-agent pod în kubernetes și am încercat să schimb adnotarea components.gke.io/component-version: 0.6.0 la 0.13.6. Acest lucru a repornit pod-urile, dar eroarea este prezentă. De asemenea, am încercat să schimb monitorizarea pentru a deschide telemetria, dar nu știu cum. Este posibil să setați acest lucru folosind terraform? Am găsit doar setarea monitoring_service care este setată implicit la monitoring.googleapis.com/kubernetes.
Srividya avatar
drapel cn
Puteți verifica acest link pentru actualizarea exportatorului [OpenCensus](https://github.com/census-ecosystem/opencensus-go-exporter-stackdriver/releases/tag/v0.13.6) și pentru [OpenTelemetry](https:/ /github.com/GoogleCloudPlatform/opentelemetry-operations-java) operațiuni pe google cloud?
Maciek Leks avatar
drapel kw
Cum s-a terminat? Observ același comportament și cu 1.20.10-gke.301.
Melchy avatar
drapel cn
Încă nu am idee ce să fac. Am verificat linkul către OpenCensus și văd că există o versiune nouă, dar încă nu am idee cum să o actualizez. Poate ar trebui să șterg exportatorul implicit și să creez un exportator personalizat cu o nouă versiune?
Puncte:1
drapel cn

âTermen limită depăşitâ este o problemă cunoscută, valorile sunt trimise către Cloud Monitoring prin agentul GKE Metrics, care este construit pe Open Telemetry. În prezent, există două soluții, după cum urmează, pentru a rezolva problema:

1.Actualizare pauză.

De când noua versiune a inclus o modificare care crește timpul de expirare implicit de la 5 la 12 secunde. Deci, ar putea fi necesar să reconstruiți și să redistribuiți volumul de lucru cu noua versiune care ar putea remedia această eroare rpc.

2.Pentru a utiliza versiuni superioare GKE, această problemă are o remediere cu versiunile gke-metrics-agent: 1.18.6-gke.6400+ 1.19.3-gke.600+ 1.20.0-gke.600+.

Chandra Kiran Pasumarti avatar
drapel fr
@Melchy, Dacă crezi că răspunsul de mai sus te-a ajutat, te rog să-l accepți (âï¸).
Puncte:0
drapel cn

Dacă încă vedeți aceste erori, vă rugăm să aruncați o privire la valorile dvs. În principal kubernetes.io/container/... metrics pentru containerele care rulează pe același nod cu gke-metrics-agent care înregistrează erorile. Vedeți lacune în valorile care nu ar trebui să existe?

Erorile depășite de context se pot întâmpla din când în când, dar nu ar trebui în cantități uriașe. Pot fi probleme de rețea sau doar scăpări ocazionale. Aveți politici de rețea/reguli de firewall care ar putea împiedica gke-metrics-agent să discute cu Cloud Monitoring?

Din păcate, nu puteți actualiza open-telemetry în interiorul gke-metrics-agent. O versiune de cluster mai nouă poate ajuta și ea, deoarece actualizează agentul, așa că încercați să vă actualizați clusterul, dacă este posibil. Dacă problema vă afectează valorile, contactați asistență.

Melchy avatar
drapel cn
Salut, multumesc pentru raspuns, nu mai vad erorile. După actualizarea clusterului k8s și așteptarea de aproximativ o săptămână, erorile au dispărut brusc. Habar n-am de ce.
kwiesmueller avatar
drapel cn
Atunci este posibil să fi primit o nouă versiune de gke-metrics-agent cu o remediere.

Postează un răspuns

Majoritatea oamenilor nu înțeleg că a pune multe întrebări deblochează învățarea și îmbunătățește legătura interpersonală. În studiile lui Alison, de exemplu, deși oamenii își puteau aminti cu exactitate câte întrebări au fost puse în conversațiile lor, ei nu au intuit legătura dintre întrebări și apreciere. În patru studii, în care participanții au fost implicați în conversații ei înșiși sau au citit transcrieri ale conversațiilor altora, oamenii au avut tendința să nu realizeze că întrebarea ar influența – sau ar fi influențat – nivelul de prietenie dintre conversatori.