Home › Wissen › UTF-8

UTF-8

Stand: 01.08.2022

Beim Thema UFT-8 sind vor allem ITler und Technikspezialisten angesprochen, die entsprechendes Hintergrundwissen mitbringen. UFT-8 steht als Abkürzung für den „Unicode Transformation Format“ auf Basis 8 Bits. Die 8 Bits werden für die Blöcke berechnet, die zur Zeichendarstellung notwendig sind. Pro Zeichen werden für die Darstellung ein bis vier dieser Blöcke benötigt. Die Größe der Dateien hängt von der Länge des Textes und der Art der Zeichen ab. Neben Buchstaben sind auch verschiedene weitere Unicode-Zeichen möglich.

Zeichenübersicht:

Buchstaben des Alphabets
Zahlen (arabisch), numerische Werte
Emojis
weitere Spezial-Symbole wie Einheitendarstellungen, Währungen oder Symbole der Mathematik
Interpunktion

Über 90 % aller Webseiten arbeiten mit dem UFT-8-Standard. Die Vormachtstellung dieser Darstellung ist vor fast 15 Jahren (2009) erreicht worden.

Ursprünge von UTF-8

Ken Thompson und Rob Pike gelten als die Väter von UFT-8, welches sie für das sogenannte „Plan-9-Betriebssystem“ entwickelten. Das war schon Anfang der 1990er Jahre. Die Ursprungsbezeichnung bis zur Standardisierung war „FSS-UTF“.

Das zeichnet UTF-8 aus

Ein dominantes System war lange Zeit ASCII. Die ersten 128 Zeichen von ASCII und UFT-8 sind aus Kompatibilitätsgründen identisch. Damit ist das System sozusagen abwärtskompatibel. Wie erwähnt findet die Kodierung variabel mit unterschiedlicher Länge statt, wobei jeweils 1 bis vier Byte benötigt werden: 1 Byte entspricht genau 8 Bits. Ziel ist jedoch immer die Darstellung mit einem Byte, damit die Dateigröße möglichst begrenzt bleibt. Zeichen-Ökonomie ist hier das Stichwort.

Sein Vorläufer ASCII – „American Standard Code for Information Interchange“ war nur auf das englische Alphabet und diverse Zeichen sowie Satzzeichen und Zahlen ausgelegt. Durch die Ausbreitung des Internets ergab sich jedoch eine zu große Eingrenzung, da die Userzahl stieg, die jeweils etliche Sprachen nutzen und ein einheitlicheres System musste gefunden werden. ASCII wurde im Computerzusammenhang ab 1967 genutzt und hielt sich somit rund 40 Jahre als dominantes System. Es wird teilweise auch heute noch verwendet und gehört zu den Basics in vielen Themenbereichen.

Funktionsweise UFT-8

Das Bit ist die grundlegende Einheit im Binärsystem. Dieses (bestehend aus Nullen und Einsen) wird von Computern verwendet. Damit lassen sich alle Arten von Informationen darstellen. Nach den Bits ist die folgende Größe ein Byte, das aus 8 Bits besteht, beispielsweise: 01110010.

Das UTF-8 oder Unicode Transformation Format stellt eine Erweiterung von ASCII dar und wandelt sogenannte Codepunkte mit 1 bis 4 Bytes um. Es ist eine simple Form der Codierung. Dank der Codierung sind Zeichen aller Art, also auch Buchstaben fernab des lateinischen Alphabets realisierbar. Die unterschiedlichen Codepoints stellen stellvertretend für Buchstaben und Zeichenkombinationen. Im Unicode wird jedem Codepoint eine Nummer zugeordnet. Hier liegt das Aufgabenfeld der UTF-Codierungen.

Was meint Unicode Transportation Format also? Es geht um Speicher- und Übertragungsformate, mit denen letztlich Unicode-Texte entstehen. Eine unmittelbare Codierungsmöglichkeit für den Unicode ist UTF-32. Durch die Verwendung dieser Variante wird Speicherplatz allerdings manchmal vergeudet. Um dem entgegenzuwirken, entstanden variable Codierungen, die bis heute dominant sind. So werden häufige Zeichen in wenigen Bytes dargestellt und eher seltene Zeichen fordern mehr Platz ein.

UTF-8
UTF-16
UTF-32

UTF-8-Struktur

1 Byte: 128 Zeichen (wie bei den ASCII-Zeichen)
2 Bytes: 1920 Zeichen verlangen zwei Bytes für die Kodierung (Arabisch, Griechisch, Hebräisch, Kyrillisch, Latein)
3 Bytes: Chinesisch, Japanisch, Koreanisch
4 Bytes: Emojis, Einheitenzeichen und mathematische Symbole, historische Schriftzeichen

Verbreitung von UTF-8 im Netz

E-Mails und Internetseiten werden in allen gängigen Zeichensätzen abgespeichert. In Mails und HTML-Dateien sind Meta-Daten implementiert, die wiederrum Meta-Informationen an die Empfänger übermitteln. Sie werden am Ziel decodiert und ausgelesen. Wenn es doch dazu kommt, dass Codes nicht passgenau sind, müssen Konvertierungen stattfinden. Um das zu vermeiden, wird die Vereinheitlichung immer weiter vorangetrieben.

Steffen Pfeiffer

Senior SEO Manager, SEO Scientist

Sie interessieren sich für das Thema "UTF-8"

Löwenstark bietet als Full-Service-Marketing-Agentur umfassende Beratung und professionelle Leistungen. Lassen Sie sich von Steffen Pfeiffer kostenfrei beraten.

Jetzt Kontakt aufnehmen

Über den Autor

Steffen Pfeiffer

Steffen ist unser Senior SEO Manager und SEO Scientist. Seit 2014 im Bereich SEO tätig und seit 2018 bei Löwenstark, bringt Steffen seine Leidenschaft für Automatisierung, Webseitentechnik, Ladezeiten, KI, und Onpage SEO ein. Er ist besonders versiert in den Bereichen SEO Skalierungs-Strategien, strukturierte Daten, SERP Optimierung und Local SEO. Mit seinem umfassenden Wissen entdeckt Steffen kontinuierlich neue Strategien und Wege, um unsere Kunden auf dem neuesten Stand der Suchmaschinenoptimierung zu halten und ihre Online-Präsenz zu maximieren. Seine Expertise sorgt dafür, dass Löwenstark-Kunden stets die besten Ergebnisse erzielen.

Auch interessant:

Facebook Werbeanzeigenmanager

Facebook ist zwar in die Jahre gekommen, aber nach wie vor die zentrale soziale Plattform für viele Menschen und Unternehmen....

Startpage

Startpage ist eine anonyme Suchmaschine, die die gleiche Qualität und Genauigkeit wie Google bietet, ohne jedoch in die Privatsphäre einzugreifen....

Advertiser

Advertiser: für eine starke Performance und mehr Besucher Online-Marketing verfügt über viele Kanäle, in denen Umsätze generiert werden. Ob Affiliate-Marketing, App-Marketing...

User-Intent

Welche Antrieb hat ein User, etwas bestimmtes über eine Suchmaschine zu suchen? Sucht er Rat, ein Geschenk, eine Anleitung, ein...