Riesige Mengen unstrukturierter Daten effizient speichern

Wenn es um die Bewältigung der rasant ansteigenden Flut unstrukturierter Daten geht, sind neue Ansätze gefragt, wie sie GlusterFS bietet. Das Scale-Out File System bildet das technische Fundament von Red Hat Storage.Von Gerald Sternagl, EMEA Business Unit Manager Storage bei Red Hat.

  • 11 years ago Posted in

GlusterFS stammt ursprünglich von dem Unternehmen Gluster Inc. Der Name Gluster rührt daher, dass die Software zusätzlich zum verteilten File System auch alle Komponenten enthält, um das Computercluster, auf dem das File System läuft, steuern und über¬wachen zu können. Da Clusterware vollständig in GlusterFS integriert ist, reduziert sich die ansonsten übliche hohe Komplexität und der Aufwand für die Administration.

Red Hat erwarb im Oktober 2011 GlusterFS und bietet es nach dem Subskriptionsmodell als Red Hat Storage an, wobei die aktuelle Version 2.0 von Red Hat Storage Server auf GlusterFS 3.3 beruht.

Die Gluster Community (www.gluster.org), ein von Red Hat unterstütztes Konsortium, ist aktiv in die Weiterentwicklung von GlusterFS involviert. Ähnlich wie die Fedora Community Innovationen für Red Hat Enterprise Linux vorantreibt, ist es Ziel der Gluster Community, softwaredefinierte Storagelösungen zu forcieren, die dann – getestet und validiert – nach dem Upstream-Modell in Red Hat Storage einfließen.

Shared Storage Pool

Die grundlegende Speichereinheit von GlusterFS bilden Bricks; sie enthalten die Pfadangaben zum physischen Speicherort, typischerweise die lokalen Festplatten in einem Server. Server Nodes enthalten die Bricks. Volumes entstehen dann aus den Bricks verschiedener Server. Für Benutzer bilden diese Volumes einen Shared Storage Pool mit einem globalen Namespace. GlusterFS stattet die einzelnen Bricks mit sogenannten Translatoren aus, die bestimmte Funktionen bereitstellen.

Mit Hilfe dieser „Übersetzer“ lässt sich das File System funktional erweitern, etwa um die POSIX-Schnittstelle zu nutzen oder zu definieren, gezielte Aktionen wie zum Beispiel einen Virus-Scan auszulösen oder auch einen verteilten RAID-Verbund über mehrere Bricks aufzubauen. Einige Translatoren lassen sich miteinander kombinieren und daraus entsteht eine logische Addition von Funktionen, die als Brick Graph bezeichnet wird.

GlusterFS bietet mehrere Möglichkeiten, um auf Volumes zuzugreifen: einen nativen GlusterFS Client, NFS, SMB, HTTP/REST (via SWIFT) und ein Hadoop-Plugin. Der GlusterFS Client ist über FUSE (Filesystem in Userspace) eingebunden und damit kein Teil des Linux-Kernels. Beim Zugriff per NFS sind keine Besonderheiten zu beachten, denn GlusterFS enthält einen eigenen NFS Server. GlusterFS Volumes sind automatisch per NFS zugänglich. Samba stellt den Zugriff per SMB bereit.

Flexibel erweiterbare Architektur

Bei GlusterFS wachsen Kapazität und Performance im Gleichschritt. Damit entsteht eine leistungsfähige Storage-Infrastruktur zur Speicherung unstrukturierter Daten auf standardbasierten x86-Servern. Zu den bedeutenden Herausforderungen einer softwarebasierten, verteilten Storagelösung zählen die logische und physische Lokalisierung von Daten. Die meisten verteilten Systeme lösen das Problem mit einem von der Speicherung getrennten Index, der Dateinamen und Metadaten zur Lokation enthält. Das Ergebnis ist jedoch ein Single Point of Failure und ein beachtlicher Performance-Bottleneck.

GlusterFS geht einen anderen Weg und beseitigt damit eine häufige Quelle für I/O-Engpässe oder gar die Anfälligkeit für Ausfälle. Um den Speicherort einer Datei oder eines Objektes festzulegen, verwendet GlusterFS ein Distributed Hash Table. Mit einem Algorithmus wird ein Hashwert für den Dateinamen berechnet, um damit den Speicherort von Files oder Objekten zu ermitteln.

Vorteile im Vergleich zu proprietären Storage Arrays

Mit einer rein softwarebasierten Lösung wie Gluster FS werden Unternehmen unabhängig von oftmals teuren, schwer skalierbaren monolithischen Storage Arrays. Zusätzliche interessante Perspektiven ergeben sich aus einer Einbindung von GlusterFS in OpenStack-Lösungen. Mit GlusterFS, und ebenso mit Red Hat Storage, können Administratoren eine Open Hybrid Cloud aufbauen sowie verwalten. Grundlage dafür bildet eine optimale Abstimmung von GlusterFS mit Red Hat OpenStack. Die Unified Storage Services unterstützen Blockspeicher (Cinder), Image-Services (Glance) und Objektspeicher (Swift) aus einem gemeinsamen Speicher-Pool.

Um die Betriebskosten einer OpenStack-Infrastruktur weiter zu reduzieren, sieht GlusterFS beziehungsweise Red Hat Storage vor, dass die Speicher- und Verarbeitungsfunktionen auf dem gleichen physischen oder virtuellen Server ausgeführt werden. Dies ist ein deutlicher Vorteil gegenüber der herkömmlichen SAN-Welt, in der es eine klare Trennung von physischer oder virtueller Server- und der Storage-Infrastruktur gibt.

Fazit: Softwarebasierte Lösungen eignen sich sehr gut zum Speichern unterschiedlicher unstrukturierter Daten, zur Verwaltung umfangreicher Medieninhalte und einer arbeitsplatznahen Archivierung. Einsatzgebiete sind beispielsweise Audio- und Videodaten wie sie von Content Delivery Networks benötigt werden. Typische Einsatzbereiche im Nearline-Storagebereich sind Archive für medizinische Daten oder auch Daten aus metereologischen Beobachtungen und Aufzeichnungen.

Gerade in dem letztgenannten Anwendungsfall sind die Übergänge zum High Performance Computing fließend, wo ein hoher Durchsatz oder eine gute Skalierbarkeit gefragt sind. Typische Einsatzgebiete einer softwarebasierten Storagelösung erstrecken sich damit von On-Premise über Private und Public bis zu Open Hybrid Clouds.

 

 

 

New state-of-the-art data centre features Vultr’s first AMD GPU supercompute cluster.
Only a quarter (25%) think their approach to the cloud is carefully considered and successful.
Moving to AWS Cloud will enable The Co-operative Bank to adopt cutting edge IT Infrastructure.
The global airline group will upgrade the value of its data and get its AI & generative AI ready...
Barracuda Networks’s award-winning Email Protection and Cloud Backup security solutions will be...
Leading company in renewables to leverage HPE’s unique turnkey AI infrastructure solution to...
The four-year project extension focuses on cloud transformation and enhanced operational efficiency...
Businesses in the UK are risking slower development as they fail to fully embrace technologies that...