ASCII – Code für Informationsaustausch

9 Mai 2011 von admin Keine Kommentare »

ASCII (American Standard Code for Information Interchange) ist der amerikanische Standard-Code für Informationsaustausch und diente anfänglich der Darstellung von englischsprachigen Schriftzeichen basierend auf dem lateinischen Alphabet. Als Erweiterung zu dem ASCII-Code wurde der nach ISO-8859 zertifizierte ANSI-Code durch das Amrikanische Institut für nationale Standards entwickelt, um die Codierung an die jeweiligen Sprachbereiche der Länder anpassen zu können. Der ASCII-Code ist zudem der Vorgänger von Unicode und definiert 128 Zeichen, die weltweit am häufigsten genutzt werden. Der Zeichensatz wird von nahezu jedem System zur Textdarstellung verwendet.

Bei der Codierung werden digital dargestellte Ganzzahlen den Zeichen der Schriftsprache zugeordnet, wodurch digitale Geräte bestimmte Textinhalte als Zahlenfolgen senden, verarbeiten sowie empfangen können. Auf Grund der Tatsache, dass digitale Geräte nur Zahlen verarbeiten können, ist die Nutzung eines solchen Codes zwingend notwendig.

Der ASCII-Code umfasst insgesamt 128 genormte Zeichen, wozu Groß- und Kleinbuchstaben sowie Ziffern, Sonderzeichen und Steuerzeichen zählen, unter Verwendung einer 7-Bit-Zeichnkodierung. Jedes Zeichen von 0 bis 127 besitzt eine eindeutig zugewiesene Nummer. Eine durch IBM hervorgerufene Erweiterung des ASCII-Codes (Extended ASCII) verwendet eine 8-Bit-Zeichenkodierung und ermöglicht die Codierung von insgesamt 256 Zeichen. Mit Hilfe dieser 128 zusätzlichen Zeichen können beispielsweise Sonderzeichen, Symbole sowie länderspezifische Zeichen codiert werden. Diese Erweiterung des ASCII-Codes ist jedoch nicht einheitlich und kann zwischen Programmen, Computern, graphischen Zeichensätzen und Schriften variieren.

Die ersten 32 Zeichen des ASCII-Codes sind Steuerzeichen (control character), welche keine Schriftzeichen beinhalten, sondern lediglich zur Steuerung von Geräten dienen. Beispielweise verwenden Drucker den ASCII zum Wagenrücklauf beim Zeilenumbruch. Diese Steuerzeichen werden auch als nicht-druckbare Zeichen bezeichnet. Hingegen sind die übrigen Zeichen druckbar und daher graphisch darstellbar.

Das Kodierungssystem Unicode

9 Mai 2011 von admin Keine Kommentare »
Unicode ist ein international standardisiertes Kodierungssystem, welches nach ISO zertifiziert ist und die Darstellung von Zeichen in Form binärer Zahlen ermöglicht. Das bedeutet, dass jedem Zeichen aus dem Undicode-Zeichensatz eine eindeutige Nummer zugeordnet werden kann. Mit Zeichen sind alle bekannten Zeichensysteme sowie Schriftkulturen gemeint. Beispielsweise wird einem Zeichen a eine Zahl z zugeordnet.

Die erste Version des Unicode stammt aus dem Jahr 1990 und wurde seither stets aktualisert. Mit dieser genormten Zuordnungsregel können derzeit über 100.000 unterschiedliche Zeichen codiert werden. Der so genannte Vorgänger von Unicode ist der ASCII-Zeichensatz, mit dem nur ca. 100 Zeichen verschlüsselt werden können. Diese Unterschiede in der Größe der Zeichensätze ergeben sich aus der Verwendung der 8-Bit-Zeichencodierung des ASCII-Code im Gegensatz zu der 16-Bit-Zeichencodierung des Unicode. Jedes Zeichen im Unicode-System hat verschiedenen Eigenschaften, wie beispielsweise die Schriftrichtung von links nach rechts oder umgekehrt.

Unicode wird genutzt, um weltweit Texte austauschen zu können, ohne dass Informationen verloren gehen. Damit sollen die unterschiedlichen inkompatiblen Kodierungen in verschiedenen Ländern beseitigt werden. Voraussetzung ist lediglich, dass das jeweils ausgeführte Programm bzw. der Computer den Unicode-Zeichensatz unterstützt. Beispielsweise werden wird Unicode für die Codierung von HTML oder JAVA im Internet verwendet.

Die Besonderheit bei Unicode ist, dass die Zeichenkodierung nicht mehr rückgängig gemacht werden kann, was zur Gewährleistung der Langlebigkeit von digitalen Daten dient. Damit ein Zeichen überhaupt in den Unicode aufgenommen werden kann, bedarf es einer strengen, sorgfältigen und zum Teil jahrelangen Prüfung. Im Falle eines Fehlers bei der Normierung von einem Zeichen, wird dieses lediglich nicht mehr verwendet bzw. wird von der Verwendung abgeraten.

Das Format UTF-8

9 Mai 2011 von admin Keine Kommentare »
Was ist UTF-8?

Unicode ist der Standard, für die Kodierung aller bekannten Schriftzeichen und Zeichensysteme auf der Erde .
UTF-8 ist die Abkürzung. für 8-bit UCS Transformation Format. Es ist die derzeit bedeutendste Zeichenkodierung und arbeitet auf der Basis von Unicode.
Das Format kann also im Gegensatz zu ASCII nicht nur die bekannten lateinischen Schriftzeichen kodieren, sondern auch arabische, indische oder japanische Schriftzeichen genauso wie Verkehrszeichen, Währungszeichen und sehr vieles mehr.
Da es auch zur Zeichenkodierung im Internet benutzt wird unterstützen immer mehr Webbrowsern das Format.

Wie funktioniert UTF-8?

UTF-8 unterstützt, wie alle anderen UTF-Formate vier Byte, auf denen sich alle Unicode-Zeichen abbilden lassen.

Es belegt im Vergleich zu anderen UTF-Formaten, jedoch wesentlich weniger Speicher, da es bei allen auf dem lateinischen Alphabet beruhenden Schriften mit einem Byte pro Zeichen auskommen muss.
Die 1 Byte-Kodierung der ersten 128 Zeichen entspricht nämlich ganz genau dem ASCII-CODE. Somit sind alle älteren auf den üblichen ASCII-CODE beruhenden Dokumente weiterhin voll kompatibel.
UTF-8 kann laut Normierung bis zu 1.114.112 Zeichen kodieren, obwohl praktisch über 4 Billionen Zeichenkodierungen möglich wären.

Die Kodierung funktioniert bei UTF-8 auf folgende Weise,:$
UTF-8 ordnet jedem Unicode-Zeichen eine binäre Ziffernfolge mit höchstens 4 Byte zu.
Der Buchstabe „a“ ist als ASCII-Zeichen mit nur einem Byte als 01100001 kodiert
Das Eurozeichen € ist, da es kein ASCII-Zeichen ist, mit 4 Byte als 11100010 10000010 10101100 kodiert:

Weitergehende Informationen:

Die aktuelle Definition von UTF-8 ist in den folgenden Normdokumenten festgehalten

The Unicode Standard, Version 4.0,
RFC 3629 / STD 63
ISO/IEC 10646-1:2000