Riggen_HomeLab_Senors - itnett/FTD02H-N GitHub Wiki

Proxmox VE viser i utgangspunktet ikke detaljerte maskinvareovervåkingsdata (som sensorer for temperatur, vifter eller strømforbruk) direkte på webgrensesnittet. Men det finnes metoder for å utvide funksjonaliteten ved å bruke tredjepartsverktøy eller skript.

Alternativer for å få flere sensordata synlige i Proxmox

  1. Bruke pve-perfmon-script:

    • pve-perfmon er et skript som kan brukes til å samle data fra sensorer og presentere dem på Proxmox VE-webgrensesnittet. Dette krever imidlertid litt tilpassing og konfigurering.
    • Skriptet kan hente data fra lm-sensors og andre kilder og deretter integrere disse i Proxmox VE's REST API for å gjøre dem synlige i grensesnittet.
  2. Bruke collectd med lm-sensors plugin:

    • collectd er en fleksibel overvåkingsdaemon som kan samle inn systemytelsesdata. Den støtter lm-sensors-plugin, som kan brukes til å samle inn sensordata og sende disse til en grafikkserver som Grafana.
    • For å bruke denne metoden må du:
      1. Installere collectd og lm-sensors plugin:
        apt install collectd collectd-utils
      2. Redigere konfigurasjonsfilen for collectd (/etc/collectd/collectd.conf) for å aktivere sensors plugin:
        <LoadPlugin sensors>
        </LoadPlugin>
      3. Restarte collectd tjenesten:
        systemctl restart collectd
  3. Bruke Grafana og Prometheus:

    • Du kan sette opp en løsning med Prometheus som overvåker lm-sensors-data på Proxmox-hosten og deretter visualiserer dataene i Grafana.
    • Denne løsningen er kraftig, men krever ekstra serverressurser og konfigurasjon.

Fremgangsmåte for å vise flere sensorer

1. Installere lm-sensors og konfigurere collectd

  1. Installer collectd og lm-sensors:
    apt install collectd lm-sensors
  2. Aktiver sensors plugin i collectd konfigurasjonen:
    • Rediger /etc/collectd/collectd.conf:
      nano /etc/collectd/collectd.conf
    • Legg til følgende linjer for å aktivere sensorer:
      LoadPlugin sensors
      
      <Plugin "sensors">
        ReportFan true
        ReportVoltage true
        ReportTemperature true
      </Plugin>
  3. Start collectd på nytt:
    systemctl restart collectd

2. Integrere data i Proxmox-grensesnittet

Integrasjon med Proxmox VE-webgrensesnittet krever tilpasset skripting eller utvikling, da Proxmox VE standard ikke tilbyr dette ut av boksen. Et enklere alternativ er å bruke Grafana for mer avanserte visualiseringer.

Konklusjon

Mens Proxmox VE ikke direkte støtter visning av sensordata som standard, kan du bruke verktøy som collectd og lm-sensors sammen med overvåkingssystemer som Grafana for å få et mer detaljert innblikk i maskinvarens ytelse. Dette vil gi deg sanntidsdata og muligheten til å tilpasse hvordan dataene presenteres.

Outputen fra sensors viser en oversikt over sensordataene som leses fra de forskjellige komponentene i systemet ditt, inkludert spenninger, temperaturer og viftehastigheter.

Tolkning av sensordata

  1. Spenningsverdier (inX):

    • De fleste spenningsverdier (in0 til in14) er innenfor det forventede området, men alle viser ALARM, som indikerer at verdien er utenfor de konfigurerte min/max-grensene. Dette kan være på grunn av at grensene ikke er riktig satt for din spesifikke maskinvare.
    • Verdier som 0.00 V og noen som 600.00 mV kan være uriktige målinger eller indikerer frakoblede linjer.
  2. Viftehastigheter (fanX):

    • fan1, fan4, og fan5 viser 0 RPM, noe som kan indikere at disse viftene er av eller ikke tilkoblet. fan2 og fan3 viser verdier som virker å være i normal hastighet (663 RPM og 1885 RPM).
  3. Temperaturer:

    • SYSTIN og CPUTIN viser temperaturer rundt 31°C, noe som er normalt for et system i tomgang eller med lav belastning.
    • PECI Agent 0 og prosessorkjernene (Core 0 til Core 5) viser temperaturer som er innenfor sikre grenser.
    • AUXTIN1 viser 127°C, noe som kan være en feilmåling siden andre sensorer viser mye lavere verdier.
    • Noen av verdiene for PCH_CHIP- og PCH_CPU-sensorene viser 0.0°C, noe som kan tyde på at disse sensorene ikke er konfigurert riktig eller ikke støttes på din maskinvare.
  4. NVMe-temperatur (nvme-pci-0200):

    • Din NVMe-enhet (lagringsenhet) viser en temperatur på 39.9°C, som er normal for en SSD under typiske forhold.
  5. Intrusion-detektering:

    • intrusion0 og intrusion1 viser ALARM, noe som kan indikere at innbruddsdeteksjonsbryteren på kabinettet ditt har blitt utløst, eller at sensoren ikke er konfigurert riktig.

Hva bør du gjøre videre?

  • Verifiser konfigurasjonen: Vurder å sjekke hvilke sensorer som er relevante for din maskinvare og juster grenseverdiene i konfigurasjonsfilen (/etc/sensors3.conf) for å unngå falske alarmer.
  • Overvåking: Fortsett å bruke sensors-kommandoen regelmessig for å overvåke temperaturen og viftenes status, spesielt under høy belastning, for å sikre at maskinvaren fungerer som forventet.
  • Logging og varsling: Vurder å sette opp overvåkingsverktøy som Prometheus eller Grafana for mer avansert overvåking og varslingsmekanismer hvis du bruker systemet i produksjon.

Automatisk oppdatering av sensorer

Du kan også konfigurere lm-sensors til å overvåke systemet automatisk og gi varsler hvis noen verdier går utenfor de angitte grensene. Dette kan bidra til å identifisere maskinvareproblemer tidlig.

For å kjøre en hardware-sjekk av din Proxmox-server, kan du bruke flere verktøy som er tilgjengelige på Linux, inkludert Proxmox VE. Dette vil hjelpe deg med å identifisere potensielle problemer med maskinvaren, som defekte RAM-moduler, diskfeil, CPU-problemer, og andre feil.

Metoder for å kjøre en hardware-sjekk på Proxmox

1. MemTest for RAM-sjekk

For å teste RAM for feil, kan du bruke memtest86+, som er et populært verktøy for RAM-diagnostikk. For å kjøre en RAM-sjekk:

  1. Installer memtest86+: Du må bruke en separat oppstartbar USB for å kjøre memtest86+, da det ikke kan kjøres direkte fra Proxmox. Last ned ISO-filen fra memtest86+ sitt offisielle nettsted, og bruk et verktøy som Rufus eller Etcher for å lage en oppstartbar USB.

  2. Kjør memtest86+: Start serveren fra den oppstartbare USB-en og kjør memtest86+. La testen kjøre i minst ett par timer (eller over natten) for å sikre at det ikke er noen RAM-feil.

2. SMART Status for Disk-sjekk

For å sjekke helsestatusen til lagringsenheter kan du bruke smartctl fra smartmontools.

  1. Installer smartmontools: Hvis det ikke allerede er installert, kan du installere det på Proxmox:

    apt update
    apt install smartmontools
  2. Kjør SMART-sjekker: Du kan sjekke statusen for hver disk ved å bruke kommandoen:

    smartctl -a /dev/sda
    smartctl -t long /dev/sda  # Kjører en grundig, langsiktig test

    Erstatt /dev/sda med den riktige disken du vil teste. Denne kommandoen vil vise deg en detaljert statusrapport og resultatene av noen av de automatiske testene som allerede er blitt kjørt.

3. CPU Stress-test med stress-ng

For å teste CPU og generell systemstabilitet kan du bruke stress-ng, et verktøy for å utføre stress-testing på ulike maskinvarekomponenter.

  1. Installer stress-ng:

    apt update
    apt install stress-ng
  2. Kjør en CPU-stresstest: For eksempel, for å stresse alle CPU-kjerner i 60 sekunder:

    stress-ng --cpu 4 --timeout 60s --metrics-brief

    Dette vil kjøre en test på 4 CPU-kjerner i 60 sekunder. Tilpass etter antallet CPU-kjerner du har.

4. Overvåke Systemhelse med sensors

Hvis du vil overvåke temperaturer og spenningsnivåer, bruk lm-sensors:

  1. Installer lm-sensors:

    apt update
    apt install lm-sensors
  2. Konfigurer lm-sensors: Kjør sensors-detect for å oppdage tilgjengelige sensorer på systemet:

    sensors-detect

    Svar "yes" på alle spørsmål for å automatisk oppdage sensorer.

  3. Se sensorlesninger: For å vise sensorlesninger:

    sensors

5. Bruk inxi for å få et helhetsbilde av maskinvaren

inxi er et kommandolinjeverktøy som gir et sammendrag av maskinvareinformasjonen på systemet ditt.

  1. Installer inxi:

    apt update
    apt install inxi
  2. Kjør inxi for en maskinvareoversikt:

    inxi -Fxz

    Dette vil gi deg en detaljert rapport om systemets maskinvare, inkludert CPU, RAM, disker, temperaturer, og mer.

6. Kontroller systemloggene

Du kan sjekke systemloggene for maskinvarefeil og advarsler:

dmesg | grep -i error
journalctl -p err -b

Disse kommandoene vil vise feilmeldinger som kan indikere maskinvareproblemer som har oppstått.

Oppsummering

Ved å bruke verktøy som memtest86+, smartctl, stress-ng, lm-sensors, og inxi, kan du utføre en grundig sjekk av maskinvaren på Proxmox-serveren din. Dette vil hjelpe deg med å identifisere problemer tidlig og ta nødvendige tiltak for å forhindre systemfeil.

⚠️ **GitHub.com Fallback** ⚠️