Ein Buch über Icinga 2

Erscheint am 27. Juni 2016

 
41suqaLOyCL._SX336_BO1,204,203,200_April 2015, nach Monaten des Schwankens machten sich dann zwei verbliebene Möchtegernautoren doch auf ein Buch zum Thema Icinga 2 zu verfassen. Wir wollten ein sehr praxisnahes Werk mit vielen Beispielen wie und mit welchen Plugins etwas zu überwachen ist. Herausgekommen sind 344 Seiten von denen sich 100 mit Plugins und deren Verwendung in Icinga 2 befassen. Vorweg erfolgt eine generelle Einführung, die Vorstellung des neuen Webinterfaces Icingaweb 2 als auch eine ausführliche Erläuterung wie man lokale Werte wie Load bzw. CPU bei Windows oder Disk Usage mit NRPE/NSClient++, SSH und selbstverständlich mit dem neuen Icinga Agenten ermittelt.

Dem Kapitel über Plugins ist noch die Vorstellung einer fiktiven Firma vorangestellt. Diese betreibt ein zweigeteiltes Netzwerk mit einem internen Netz und eine durch Perimeter abgetrennte DMZ. Anhand dieses Beispiels wird eine verteilte Überwachung implementiert. Im internen Netz ist ein Icinga-Server (Master) für die Überwachung der dortig angesiedelten Server und Dienste zuständig. Für die DMZ wird ein weiterer Icinga-Server (Satellit) verwendet, der die ermittelten Ergebnisse an den Master meldet.

Diese Icinga-2-Infrastruktur wird dann im Folgenden benutzt, um eine Vielzahl von Diensten zu überwachen:

  • Host Erreichbarkeit
  • Zeitserver und lokale Zeit
  • Webservices incl. Apache und Ngnix
  • Domain Name Services
  • DHCP
  • Kerberos
  • Mailempfang und -versand
  • Proxy-Server
  • Generische Portüberwachung am Beispiel von Jabber
  • Javabasierte Application-Server
  • SAP
  • Kibana
  • Microsoft-Infrastrukturdienste: CIFS, Terminalservice, Domaincontroller, Exchange
  • Datenbanken: MySQL, PostgreSQL, MS SQL, Oracle
  • LDAP
  • Redis
  • Elasticsearch
  • VMware vSphere
  • Hardware: IPMI, HP, Oracle Solais, Thomas Krenn, Netzwerk, Festplatten
  • NetApp
  • Qnap

Das letzte Drittel ist Graphing mit PNP4Nagios und Graphite, Logmangement, Reporting und Businessprozessen gewidmet.

Teilbereiche werden von den beiden Autoren in einem Workshop vor der diesjährigen Open Source Monitoring Conference mit den Teilnehmern zusammen praktisch umgesetzt.

Lennart Betz

Autor: Lennart Betz

Der diplomierte Mathematiker arbeitet bei NETWAYS im Bereich Consulting und bereichert seine Kunden mit seinem Wissen zu Icinga, Nagios und anderen Open Source Administrationstools. Im Büro erleuchtet Lennart seine Kollegen mit fundierten geschichtlichen Vorträgen die seinesgleichen suchen.

Monthly Snap November: OSMC, Icon Fonts & Jaspersoft Studio

November presented an exciting 10th OSMC, featured Jasper reporting and offered DevOps tips for sys admins, developer and tinkerer.weekly snap

Beginning with events, our 10th Open Source Monitoring Conference with many special guests took place and Daniela reported on day one and Dirk summarized the other days of the conference while Jean-Marcel gave us an overview of his two favorite presentations.

Eric then described how to create Icon-Fonts and Alexander explained how to upgrade python-driven servers.

Lastly, Christoph looked at Jaspersoft Studio and Kay shared a guide to control home automation components with Rasperry PI and a web interface.

Stephanie Kotilge

Autor: Stephanie Kotilge

Steffi kümmert sich bei NETWAYS ums Office-Management und ist die gute Seele der Fabrik. Auch unsere Kunden kommen an ihr nicht vorbei und wollen dies natürlich auch nicht. Da sie ein überdurchschnittliches sprachliches Talent besitzt und neben Deutsch noch fliessend in Englisch und Französisch unterwegs ist, kümmert sie sich auch um einen Großteil der Übersetzungen. In diesem Sinn ... Merci

Neues vom Reporting

Jaspersoft Studio

Jaspersoft Studio

Lange Zeit war iReport die führende Lösung, wenn es daran ging Reportingaufgaben für Icinga im speziellen und im Allgemeinen zu übernehmen. Dieses Kapitel wird allerdings im kommenden Monat geschlossen, da iReport  ab Ende Dezember nicht mehr aktiv weiterentwickelt wird. Das bedeutet zwar nicht, dass iReport sofort verschwindet, aber mehr als ein paar Bugfixes für bestehende Probleme wird es nicht mehr geben.
Eine gute Gelegenheit also, sich mal das nächste Tool zum erstellen und managen von Reports anzuschauen.

Der designierte Nachfolger von iReport nennt sich Jaspersoft Studio und weist ein paar unterschiede zu iReport auf.
Während iReport auf der IDE Netbeans basierte, basiert Studio auf Eclipse. Beide Programme kann man zwar als Bundle herunterladen, es lohnt sich aber gerade bei Eclipse sich die Software über den integrierten Marketplace zu besorgen, weil man so eine neuere Version von Eclipse erhält.

Einige Verbesserungen von Studio sind der übersichtlichere SQL-Designer und eine bessere Integration von Bibliotheken und Subreports. Neuerdings muss man nur noch auf speichern klicken, und der einmal publizierte Report wandert in aktualisierter Form direkt wieder auf den JasperServer.

Und zum Schluss die wichtigste Verbesserung: Alle Buttons sind jetzt beschriftet und mit Quicktips erklärt!

Christoph Niemann

Autor: Christoph Niemann

Christoph hat bei uns im Bereich Managed Service begonnen und sich dort intensiv mit dem internen Monitoring auseinandergesetzt. Seit 2011 ist er nun im Consulting aktiv und unterstützt unsere Kunden vor Ort bei größeren Monitoring-Projekten und PERL-Developer-Hells.

check_smartvalues Release … YEAH!!!

Endlich bin ich dazu gekommen, den schon im Post vom letzten Sommer angekündigten Check für S.M.A.R.T. -Werte zu veröffentlichen.

Ich hatte es ja schon angedroht, nun mache ich es wahr. 😉

Wir haben diesen Check nun schon ein gutes Jahr im Betrieb und er liefert seine Daten von daher kann ich ihn nur wärmstens empfehlen.

Bilder gibt es dieses Mal auch zu sehen, lasst sie am besten einfach mal auf euch wirken.

Wenn der Eine oder Andere von euch noch weitere tolle Ideen/Vorschläge hat, dann lasst es uns wissen. Wir lieben Monitoring, von daher stehen die Chancen recht gut, dass wir noch mehr umsetzen wollen.

Ich schrieb ja auch schon, dass die freundlichen Kollegen der Thomas Krenn AG auch ein Plugin für das Ermitteln der S.M.A.R.T. -Werte gebaut haben, dieses erfüllt im Wesentlichen auch die gleichen Aufgaben. Ich wollte das Ganze aber doch noch ein wenig toppen.

Hier ein paar Beispiele wie es aufzurufen ist:

# cd /path/to/check/smartvalues
# ./check_smartvalues -db check_smartvalues.db.json -c check_smartvalues.db.json -s -d 'megaraid,22 /dev/sda'
OK: [ 22 OK ] - [ 0 WARNING ] - [ 0 CRITICAL ] - [ 0 UNKNOWN ] in 0.163578987121582ms ( for details pls take a look in longoutput )
OK: on LSI MegaRAID - [ DeviceID 22 ] - #5 - Reallocated_Sector_Ct is [ 100 ]
OK: on LSI MegaRAID - [ DeviceID 22 ] - #9 - Power_On_Hours is [ 100 ] - [ w: 200, c: 300 ]
OK: on LSI MegaRAID - [ DeviceID 22 ] - #12 - Power_Cycle_Count is [ 100 ]
OK: on LSI MegaRAID - [ DeviceID 22 ] - #170 - Available_Reserved_Space is [ 100 / 010 ]
OK: on LSI MegaRAID - [ DeviceID 22 ] - #171 - Program_Fail_Count is [ 100 ]
OK: on LSI MegaRAID - [ DeviceID 22 ] - #172 - Erase_Fail_Count is [ 100 ]
OK: on LSI MegaRAID - [ DeviceID 22 ] - #174 - Unexpected_Power_Loss is [ 100 ]
OK: on LSI MegaRAID - [ DeviceID 22 ] - #183 - Runtime_Bad_Block is [ 100 ]
OK: on LSI MegaRAID - [ DeviceID 22 ] - #184 - End-to-End_Error is [ 100 / 090 ]
OK: on LSI MegaRAID - [ DeviceID 22 ] - #187 - Reported_Uncorrect is [ 100 ]
OK: on LSI MegaRAID - [ DeviceID 22 ] - #190 - Airflow_Temperature_Cel is [ 31 ]
OK: on LSI MegaRAID - [ DeviceID 22 ] - #192 - Power-Off_Retract_Count is [ 100 ]
OK: on LSI MegaRAID - [ DeviceID 22 ] - #199 - UDMA_CRC_Error_Count is [ 100 ]
OK: on LSI MegaRAID - [ DeviceID 22 ] - #225 - Host_Writes is [ 100 ]
OK: on LSI MegaRAID - [ DeviceID 22 ] - #226 - Timed_Workload_Media_Wear is [ 100 ]
OK: on LSI MegaRAID - [ DeviceID 22 ] - #227 - Timed_Workload_Host_Read/Write _Ratio is [ 100 ]
OK: on LSI MegaRAID - [ DeviceID 22 ] - #228 - Power-off_Retract_Count is [ 100 ]
OK: on LSI MegaRAID - [ DeviceID 22 ] - #232 - Available_Reservd_Space is [ 100 / 010 ]
OK: on LSI MegaRAID - [ DeviceID 22 ] - #233 - Media_Wearout_Indicator is [ 043 ] - [ w: 35, c: 25 ]
OK: on LSI MegaRAID - [ DeviceID 22 ] - #241 - Total_LBAs_Written is [ 100 ]
OK: on LSI MegaRAID - [ DeviceID 22 ] - #242 - Total_LBAs_Read is [ 100 ]
OK: on LSI MegaRAID - [ DeviceID 22 ] - #249 - Total_NAND_Writes is [ 100 ]

oder mit mehr als nur einer Platte …

# ./check_smartvalues -db check_smartvalues.db.json -c check_smartvalues.db.json -s -d 'megaraid,22 /dev/sda' -d 'megaraid,21 /dev/sda'
OK: [ 44 OK ] - [ 0 WARNING ] - [ 0 CRITICAL ] - [ 0 UNKNOWN ] in 0.18438987121582ms ( for details pls take a look in longoutput )
OK: on LSI MegaRAID - [ DeviceID 22 ] - #5 - Reallocated_Sector_Ct is [ 100 ]
OK: on LSI MegaRAID - [ DeviceID 22 ] - #9 - Power_On_Hours is [ 100 ] - [ w: 200, c: 300 ]
OK: on LSI MegaRAID - [ DeviceID 22 ] - #12 - Power_Cycle_Count is [ 100 ]
OK: on LSI MegaRAID - [ DeviceID 22 ] - #170 - Available_Reserved_Space is [ 100 / 010 ]
OK: on LSI MegaRAID - [ DeviceID 22 ] - #171 - Program_Fail_Count is [ 100 ]
OK: on LSI MegaRAID - [ DeviceID 22 ] - #172 - Erase_Fail_Count is [ 100 ]
OK: on LSI MegaRAID - [ DeviceID 22 ] - #174 - Unexpected_Power_Loss is [ 100 ]
OK: on LSI MegaRAID - [ DeviceID 22 ] - #183 - Runtime_Bad_Block is [ 100 ]
OK: on LSI MegaRAID - [ DeviceID 22 ] - #184 - End-to-End_Error is [ 100 / 090 ]
OK: on LSI MegaRAID - [ DeviceID 22 ] - #187 - Reported_Uncorrect is [ 100 ]
OK: on LSI MegaRAID - [ DeviceID 22 ] - #190 - Airflow_Temperature_Cel is [ 31 ]
OK: on LSI MegaRAID - [ DeviceID 22 ] - #192 - Power-Off_Retract_Count is [ 100 ]
OK: on LSI MegaRAID - [ DeviceID 22 ] - #199 - UDMA_CRC_Error_Count is [ 100 ]
OK: on LSI MegaRAID - [ DeviceID 22 ] - #225 - Host_Writes is [ 100 ]
OK: on LSI MegaRAID - [ DeviceID 22 ] - #226 - Timed_Workload_Media_Wear is [ 100 ]
OK: on LSI MegaRAID - [ DeviceID 22 ] - #227 - Timed_Workload_Host_Read/Write _Ratio is [ 100 ]
OK: on LSI MegaRAID - [ DeviceID 22 ] - #228 - Power-off_Retract_Count is [ 100 ]
OK: on LSI MegaRAID - [ DeviceID 22 ] - #232 - Available_Reservd_Space is [ 100 / 010 ]
OK: on LSI MegaRAID - [ DeviceID 22 ] - #233 - Media_Wearout_Indicator is [ 043 ] - [ w: 35, c: 25 ]
OK: on LSI MegaRAID - [ DeviceID 21 ] - #241 - Total_LBAs_Written is [ 100 ]
OK: on LSI MegaRAID - [ DeviceID 21 ] - #242 - Total_LBAs_Read is [ 100 ]
OK: on LSI MegaRAID - [ DeviceID 21 ] - #249 - Total_NAND_Writes is [ 100 ]
OK: on LSI MegaRAID - [ DeviceID 21 ] - #5 - Reallocated_Sector_Ct is [ 100 ]
OK: on LSI MegaRAID - [ DeviceID 21 ] - #9 - Power_On_Hours is [ 100 ] - [ w: 200, c: 300 ]
OK: on LSI MegaRAID - [ DeviceID 21 ] - #12 - Power_Cycle_Count is [ 100 ]
OK: on LSI MegaRAID - [ DeviceID 21 ] - #170 - Available_Reserved_Space is [ 100 / 010 ]
OK: on LSI MegaRAID - [ DeviceID 21 ] - #171 - Program_Fail_Count is [ 100 ]
OK: on LSI MegaRAID - [ DeviceID 21 ] - #172 - Erase_Fail_Count is [ 100 ]
OK: on LSI MegaRAID - [ DeviceID 21 ] - #174 - Unexpected_Power_Loss is [ 100 ]
OK: on LSI MegaRAID - [ DeviceID 21 ] - #183 - Runtime_Bad_Block is [ 100 ]
OK: on LSI MegaRAID - [ DeviceID 21 ] - #184 - End-to-End_Error is [ 100 / 090 ]
OK: on LSI MegaRAID - [ DeviceID 21 ] - #187 - Reported_Uncorrect is [ 100 ]
OK: on LSI MegaRAID - [ DeviceID 21 ] - #190 - Airflow_Temperature_Cel is [ 32 ]
OK: on LSI MegaRAID - [ DeviceID 21 ] - #192 - Power-Off_Retract_Count is [ 100 ]
OK: on LSI MegaRAID - [ DeviceID 21 ] - #199 - UDMA_CRC_Error_Count is [ 100 ]
OK: on LSI MegaRAID - [ DeviceID 21 ] - #225 - Host_Writes is [ 100 ]
OK: on LSI MegaRAID - [ DeviceID 21 ] - #226 - Timed_Workload_Media_Wear is [ 100 ]
OK: on LSI MegaRAID - [ DeviceID 21 ] - #227 - Timed_Workload_Host_Read/Write _Ratio is [ 100 ]
OK: on LSI MegaRAID - [ DeviceID 21 ] - #228 - Power-off_Retract_Count is [ 100 ]
OK: on LSI MegaRAID - [ DeviceID 21 ] - #232 - Available_Reservd_Space is [ 100 / 010 ]
OK: on LSI MegaRAID - [ DeviceID 21 ] - #233 - Media_Wearout_Indicator is [ 041 ] - [ w: 35, c: 25 ]
OK: on LSI MegaRAID - [ DeviceID 21 ] - #241 - Total_LBAs_Written is [ 100 ]
OK: on LSI MegaRAID - [ DeviceID 21 ] - #242 - Total_LBAs_Read is [ 100 ]
OK: on LSI MegaRAID - [ DeviceID 21 ] - #249 - Total_NAND_Writes is [ 100 ]

und hier das Ergebnis im neuen Icinga Web 2 …

sdd22-smart-values

 

Nützliche Links:

Enrico Labedzki

Autor: Enrico Labedzki

Enrico ist beruflich ganz schön rumgekommen – IT hat ihn aber immer beschäftigt. Nach einem Ausflug in die Selbstständigkeit im Bereich Webentwicklung und Network Solutions, wurde es dann Zeit Nägel mit Köpfen zu machen und endlich den Weg als Softwareentwickler und Systemintegrator einzuschlagen. In seiner Freizeit widmet sich der passionierte Bastler der Elektrotechnik und Animatronik. Bei Netways bereichert er mit seinem vielseitigen Know-How das Managed Service-Team.

SLA Reporting: Beta-Tester gesucht!

Icinga Availability ReportGute Neuigkeiten habe ich heute für Freunde von SLA Reports. Und natürlich auch für all jene, die die Anforderungen derjeniger ausbaden dürfen, die ebensolche Reports haben wollen. Ein neues Reporting-Package für Icinga ist auf dem Weg und steht unter dem Feature-Request #2972 “Proposal – new SLA reporting strategy” bereits in einer kleinen Vorschau zum Testen bereit.

Kern des Ganzen ist eine neue Funktion für die Datenbank, welche versucht die Komplexität des Themas vor den SQL-Abfragen die uns eigentlich interessieren zu verbergen. Um die Funktionsweise des Ganzen zu veranschaulichen, klaue ich am Besten meine Beispiel-Abfrage aus dem Feature-Request:

SELECT
  name1 AS host,
  COALESCE(name2, 'Host availability') AS service,
  icinga_availability(object_id, '2012-01-01 00:00:00', NOW()) AS sla
 FROM icinga_objects
WHERE is_active = 1
  AND objecttype_id IN (1, 2)
ORDER BY host, objecttype_id, service;

Das Ergebnis dieser einfachen Abfrage kann dann wie folgt aussehen:

host service sla
c1-db1 Host availability 91.5496
c1-db1 MySQL 91.5700
c1-db1 PING 91.5696
c1-db2 Host availability 91.5569
c1-db2 MySQL 100.0000
c1-db2 PING 91.5689

Jeder hat so seine eigenen Vorstellungen, wie sein SLA-Reporting ticken soll. Manche wollen Filter auf Hostgruppen-Ebene, andere per CustomVariable – und wieder andere werfen lieber gleich ein paar eigene Tabellen mit in die Query.

Auch speziellere Abfragen sind nun möglich, so z.B. jene nach allen Services, deren Verfügbarkeit im Juli besser als im Juni war. Und noch viel, viel mehr! Berücksichtigt werden jetzt auch Downtimes – was wunderbare Möglichkeiten zum nachträglichen “Feintunen” der SLA-Werte eröffnet.

Das Unterfangen war recht anspruchsvoll, und wurde durch kleinere Bugs in Icinga/IDO sowie älteren MySQL-Versionen nicht gerade erleichtert. Um möglichst viele Spezialfälle abdecken und korrekt behandeln zu können deshalb hier mein Appell: bitte runterladen und auf Herz und Nieren testen! Weiterführende Infos samt aller benötigten Komponenten finden sich im bereits erwähnten Icinga-Ticket.

Und jetzt viel Spaß damit – ich freue mich auf Feedback aller Art!

Thomas Gelf

Autor: Thomas Gelf

Der gebürtige Südtiroler Tom arbeitet als Principal Consultant für Systems Management bei NETWAYS und ist in der Regel immer auf Achse: Entweder vor Ort bei Kunden, als Trainer in unseren Schulungen oder privat beim Skifahren in seiner Heimatstadt Bozen. Neben Icinga und Nagios beschäftigt sich Tom vor allem mit Puppet.

NETWAYS Schulungen – Entscheidung leicht(er) gemacht!

Für das kommende Jahr haben wir den Ausbau unseres Schulungsangebots geplant und daher bereits zum Start ins Jahr 2012 einige Neuerungen zu vermelden.

Entscheiden Sie selbst wann und wo Sie Ihr Know-How updaten möchten:

Icinga Availability Monitoring, Nagios Availability Monitoring und Puppet Configuration Management laden mit ihren Terminangeboten nun nicht mehr “nur” nach Nürnberg ein. So lockt beispielsweise unsere Icinga und Nagios Schulung nun auch nach Düsseldorf und deckt damit erstmals auch den Nord-Westen Deutschlands ab.
Mit dem Puppet-Lehrgang verschaffen Sie sich jetzt zusätzlich auch in Zürich einen umfassenden Überblick über das bekannte Configuration Management Tool.

Auch bei unserer SLA Reportig Schulung gibt es Änderungen. Zwar wird diese vorerst in Nürnberg verbleiben, aber sie findet nun in neuer Umgebung, nämlich unserer zweiten Schulungslocation, dem Park Inn Hotel Nürnberg, statt.

Bei aller Innovation bleiben wir unseren Grundsätzen natürlich treu:

Intensive Wissensvermittlung in kleinen Gruppen, sowie der Austausch der Kursteilnehmer untereinander stehen bei unseren Schulungen immer an erster Stelle. Erfahrene und kompetente Dozenten, die sich in unzähligen Praxiseinsätzen beim Kunden vor Ort bewährt und ihre Kompetenz in den ausgefallensten Systemen unter Beweis gestellt haben, geben ihr Wissen in gewohnt lockerer, angenehmer, aber immer ergebnisorientierter Atmosphäre weiter.

Rund um Open Source in den Bereichen Systems Management und Data Center Lösungen wird NETWAYS durch die Erweiterung des Schulungsangebots im neuen Jahr etliche zusätzliche Möglichkeiten bieten, umfassendes und profundes Praxiswissen zu erwerben. Alle Informationen zu den neuen Schulungsorten, den nächsten Terminen, sowie die derzeit in Planung befindlichen neuen Schulungsthemen, sind auf unserer Webseite zu finden.

Markus Neder

Autor: Markus Neder

Nach langen Jahren im Hotelgewerbe, hat sich Markus auf die andere Seite geschlagen und leitet nun bei NETWAYS die Event-Abteilung. Seine langjährige Erfahrung als Hotelmeister hilft uns jedes Jahr die beste Konferenz von allen die noch kommen werden zu veranstalten. Wenn er privat nicht mit seinen Kindern unterwegs ist, entspannt er am liebsten bei der Gartenarbeit oder beim Gitarrespielen.