Das Format UTF-8

9 Mai 2011 von admin Kommentieren »
Was ist UTF-8?

Unicode ist der Standard, für die Kodierung aller bekannten Schriftzeichen und Zeichensysteme auf der Erde .
UTF-8 ist die Abkürzung. für 8-bit UCS Transformation Format. Es ist die derzeit bedeutendste Zeichenkodierung und arbeitet auf der Basis von Unicode.
Das Format kann also im Gegensatz zu ASCII nicht nur die bekannten lateinischen Schriftzeichen kodieren, sondern auch arabische, indische oder japanische Schriftzeichen genauso wie Verkehrszeichen, Währungszeichen und sehr vieles mehr.
Da es auch zur Zeichenkodierung im Internet benutzt wird unterstützen immer mehr Webbrowsern das Format.

Wie funktioniert UTF-8?

UTF-8 unterstützt, wie alle anderen UTF-Formate vier Byte, auf denen sich alle Unicode-Zeichen abbilden lassen.

Es belegt im Vergleich zu anderen UTF-Formaten, jedoch wesentlich weniger Speicher, da es bei allen auf dem lateinischen Alphabet beruhenden Schriften mit einem Byte pro Zeichen auskommen muss.
Die 1 Byte-Kodierung der ersten 128 Zeichen entspricht nämlich ganz genau dem ASCII-CODE. Somit sind alle älteren auf den üblichen ASCII-CODE beruhenden Dokumente weiterhin voll kompatibel.
UTF-8 kann laut Normierung bis zu 1.114.112 Zeichen kodieren, obwohl praktisch über 4 Billionen Zeichenkodierungen möglich wären.

Die Kodierung funktioniert bei UTF-8 auf folgende Weise,:$
UTF-8 ordnet jedem Unicode-Zeichen eine binäre Ziffernfolge mit höchstens 4 Byte zu.
Der Buchstabe „a“ ist als ASCII-Zeichen mit nur einem Byte als 01100001 kodiert
Das Eurozeichen € ist, da es kein ASCII-Zeichen ist, mit 4 Byte als 11100010 10000010 10101100 kodiert:

Weitergehende Informationen:

Die aktuelle Definition von UTF-8 ist in den folgenden Normdokumenten festgehalten

The Unicode Standard, Version 4.0,
RFC 3629 / STD 63
ISO/IEC 10646-1:2000

Werbung

Kommentare geschlossen.