Riggen_HomeLab_Senors - itnett/FTD02H-N GitHub Wiki
Proxmox VE viser i utgangspunktet ikke detaljerte maskinvareovervåkingsdata (som sensorer for temperatur, vifter eller strømforbruk) direkte på webgrensesnittet. Men det finnes metoder for å utvide funksjonaliteten ved å bruke tredjepartsverktøy eller skript.
-
Bruke
pve-perfmon
-script:-
pve-perfmon
er et skript som kan brukes til å samle data fra sensorer og presentere dem på Proxmox VE-webgrensesnittet. Dette krever imidlertid litt tilpassing og konfigurering. - Skriptet kan hente data fra
lm-sensors
og andre kilder og deretter integrere disse i Proxmox VE's REST API for å gjøre dem synlige i grensesnittet.
-
-
Bruke
collectd
medlm-sensors
plugin:-
collectd
er en fleksibel overvåkingsdaemon som kan samle inn systemytelsesdata. Den støtterlm-sensors
-plugin, som kan brukes til å samle inn sensordata og sende disse til en grafikkserver som Grafana. - For å bruke denne metoden må du:
- Installere
collectd
oglm-sensors
plugin:apt install collectd collectd-utils
- Redigere konfigurasjonsfilen for
collectd
(/etc/collectd/collectd.conf
) for å aktiveresensors
plugin:<LoadPlugin sensors> </LoadPlugin>
- Restarte
collectd
tjenesten:systemctl restart collectd
- Installere
-
-
Bruke
Grafana
ogPrometheus
:- Du kan sette opp en løsning med
Prometheus
som overvåkerlm-sensors
-data på Proxmox-hosten og deretter visualiserer dataene iGrafana
. - Denne løsningen er kraftig, men krever ekstra serverressurser og konfigurasjon.
- Du kan sette opp en løsning med
- Installer
collectd
oglm-sensors
:apt install collectd lm-sensors
- Aktiver
sensors
plugin icollectd
konfigurasjonen:- Rediger
/etc/collectd/collectd.conf
:nano /etc/collectd/collectd.conf
- Legg til følgende linjer for å aktivere sensorer:
LoadPlugin sensors <Plugin "sensors"> ReportFan true ReportVoltage true ReportTemperature true </Plugin>
- Rediger
- Start
collectd
på nytt:systemctl restart collectd
Integrasjon med Proxmox VE-webgrensesnittet krever tilpasset skripting eller utvikling, da Proxmox VE standard ikke tilbyr dette ut av boksen. Et enklere alternativ er å bruke Grafana
for mer avanserte visualiseringer.
Mens Proxmox VE ikke direkte støtter visning av sensordata som standard, kan du bruke verktøy som collectd
og lm-sensors
sammen med overvåkingssystemer som Grafana
for å få et mer detaljert innblikk i maskinvarens ytelse. Dette vil gi deg sanntidsdata og muligheten til å tilpasse hvordan dataene presenteres.
Outputen fra sensors
viser en oversikt over sensordataene som leses fra de forskjellige komponentene i systemet ditt, inkludert spenninger, temperaturer og viftehastigheter.
-
Spenningsverdier (
inX
):- De fleste spenningsverdier (
in0
tilin14
) er innenfor det forventede området, men alle viserALARM
, som indikerer at verdien er utenfor de konfigurerte min/max-grensene. Dette kan være på grunn av at grensene ikke er riktig satt for din spesifikke maskinvare. - Verdier som
0.00 V
og noen som600.00 mV
kan være uriktige målinger eller indikerer frakoblede linjer.
- De fleste spenningsverdier (
-
Viftehastigheter (
fanX
):-
fan1
,fan4
, ogfan5
viser0 RPM
, noe som kan indikere at disse viftene er av eller ikke tilkoblet.fan2
ogfan3
viser verdier som virker å være i normal hastighet (663 RPM og 1885 RPM).
-
-
Temperaturer:
-
SYSTIN
ogCPUTIN
viser temperaturer rundt 31°C, noe som er normalt for et system i tomgang eller med lav belastning. -
PECI Agent 0
og prosessorkjernene (Core 0
tilCore 5
) viser temperaturer som er innenfor sikre grenser. -
AUXTIN1
viser 127°C, noe som kan være en feilmåling siden andre sensorer viser mye lavere verdier. - Noen av verdiene for
PCH_CHIP
- ogPCH_CPU
-sensorene viser0.0°C
, noe som kan tyde på at disse sensorene ikke er konfigurert riktig eller ikke støttes på din maskinvare.
-
-
NVMe-temperatur (
nvme-pci-0200
):- Din NVMe-enhet (lagringsenhet) viser en temperatur på 39.9°C, som er normal for en SSD under typiske forhold.
-
Intrusion-detektering:
-
intrusion0
ogintrusion1
viserALARM
, noe som kan indikere at innbruddsdeteksjonsbryteren på kabinettet ditt har blitt utløst, eller at sensoren ikke er konfigurert riktig.
-
-
Verifiser konfigurasjonen: Vurder å sjekke hvilke sensorer som er relevante for din maskinvare og juster grenseverdiene i konfigurasjonsfilen (
/etc/sensors3.conf
) for å unngå falske alarmer. -
Overvåking: Fortsett å bruke
sensors
-kommandoen regelmessig for å overvåke temperaturen og viftenes status, spesielt under høy belastning, for å sikre at maskinvaren fungerer som forventet. -
Logging og varsling: Vurder å sette opp overvåkingsverktøy som
Prometheus
ellerGrafana
for mer avansert overvåking og varslingsmekanismer hvis du bruker systemet i produksjon.
Du kan også konfigurere lm-sensors
til å overvåke systemet automatisk og gi varsler hvis noen verdier går utenfor de angitte grensene. Dette kan bidra til å identifisere maskinvareproblemer tidlig.
For å kjøre en hardware-sjekk av din Proxmox-server, kan du bruke flere verktøy som er tilgjengelige på Linux, inkludert Proxmox VE. Dette vil hjelpe deg med å identifisere potensielle problemer med maskinvaren, som defekte RAM-moduler, diskfeil, CPU-problemer, og andre feil.
For å teste RAM for feil, kan du bruke memtest86+
, som er et populært verktøy for RAM-diagnostikk. For å kjøre en RAM-sjekk:
-
Installer
memtest86+
: Du må bruke en separat oppstartbar USB for å kjørememtest86+
, da det ikke kan kjøres direkte fra Proxmox. Last ned ISO-filen fra memtest86+ sitt offisielle nettsted, og bruk et verktøy somRufus
ellerEtcher
for å lage en oppstartbar USB. -
Kjør
memtest86+
: Start serveren fra den oppstartbare USB-en og kjørmemtest86+
. La testen kjøre i minst ett par timer (eller over natten) for å sikre at det ikke er noen RAM-feil.
For å sjekke helsestatusen til lagringsenheter kan du bruke smartctl
fra smartmontools
.
-
Installer
smartmontools
: Hvis det ikke allerede er installert, kan du installere det på Proxmox:apt update apt install smartmontools
-
Kjør SMART-sjekker: Du kan sjekke statusen for hver disk ved å bruke kommandoen:
smartctl -a /dev/sda smartctl -t long /dev/sda # Kjører en grundig, langsiktig test
Erstatt
/dev/sda
med den riktige disken du vil teste. Denne kommandoen vil vise deg en detaljert statusrapport og resultatene av noen av de automatiske testene som allerede er blitt kjørt.
For å teste CPU og generell systemstabilitet kan du bruke stress-ng
, et verktøy for å utføre stress-testing på ulike maskinvarekomponenter.
-
Installer
stress-ng
:apt update apt install stress-ng
-
Kjør en CPU-stresstest: For eksempel, for å stresse alle CPU-kjerner i 60 sekunder:
stress-ng --cpu 4 --timeout 60s --metrics-brief
Dette vil kjøre en test på 4 CPU-kjerner i 60 sekunder. Tilpass etter antallet CPU-kjerner du har.
Hvis du vil overvåke temperaturer og spenningsnivåer, bruk lm-sensors
:
-
Installer
lm-sensors
:apt update apt install lm-sensors
-
Konfigurer
lm-sensors
: Kjørsensors-detect
for å oppdage tilgjengelige sensorer på systemet:sensors-detect
Svar "yes" på alle spørsmål for å automatisk oppdage sensorer.
-
Se sensorlesninger: For å vise sensorlesninger:
sensors
inxi
er et kommandolinjeverktøy som gir et sammendrag av maskinvareinformasjonen på systemet ditt.
-
Installer
inxi
:apt update apt install inxi
-
Kjør
inxi
for en maskinvareoversikt:inxi -Fxz
Dette vil gi deg en detaljert rapport om systemets maskinvare, inkludert CPU, RAM, disker, temperaturer, og mer.
Du kan sjekke systemloggene for maskinvarefeil og advarsler:
dmesg | grep -i error
journalctl -p err -b
Disse kommandoene vil vise feilmeldinger som kan indikere maskinvareproblemer som har oppstått.
Ved å bruke verktøy som memtest86+
, smartctl
, stress-ng
, lm-sensors
, og inxi
, kan du utføre en grundig sjekk av maskinvaren på Proxmox-serveren din. Dette vil hjelpe deg med å identifisere problemer tidlig og ta nødvendige tiltak for å forhindre systemfeil.