ASCII: Ein 7 Bit Zeichensatz 0-127
ANSI: Ein Zeichen – Ein 8 Bit Zeichensatz
UTF-8: Multibyte: Ein Zeichen – Ein bis drei Bytes
ISO 8859-1 Latin-1: Ein 8 Bit Zeichensatz
ISO 8859-15 Eurosymbol und Französisch
Windows 1252 (Wie ISO 8859-1, aber Steuerzeichen sind druckbare Zeichen): Ein 8 Bit Zeichensatz
Websiteverwendung:
Windows 1252 Westeuropäisch 0,6%
Windows 1251 Kyrillisch 0,6%
ISO 8859-1 3,5%
UTF-8 93%
Beispieltext und deren Hexdarstellung:
ANSI: Bytes: 61 / 41 / a6 / 80
UTF-8 Ohne BOM: Bytefolge: 61 / 41 / c2 a6 / e2 82 ac
UFT-8 Mit BOM: Bytefolge: ef bb bf / 61 / 41 / c2 a6 / e2 82 ac
Die UTF-8-Kodierung des BOM besteht aus der Bytesequenz EF BB BF
, die in nicht UTF-8-fähigen Texteditoren und Browsern meist als ISO-8859-1-Zeichen 
UTF-8 Ohne BOM: Am Anfang keine 3 Byte für BOM
UTF-8 mit BOM: Am Anfang 3 Byte für BOM: EF BB BF
Vergleich: ANSI ASCII Windows-1252 ISO-8859-1
ANSI Zeichencode | Typ | Verfügbar in Zeichensatz | ||
---|---|---|---|---|
ASCII | Windows-1252 | ISO-8859-1 | ||
0 – 31 | Steuerzeichen | JA | JA | JA |
32 – 126 | Druckbare Zeichen | JA | JA | JA |
127 | Steuerzeichen | JA | JA | JA |
128 – 159 | Druckbare Zeichen | NEIN | JA | NEIN (nur als Steuerzeichen) |
160 – 255 | Druckbare Zeichen | NEIN | JA | JA |
Aus
https://de.wikipedia.org/wiki/Byte_Order_Mark#Tabellarische_%C3%9Cbersicht
Darstellung der BOM
Kodierung | hexadezimale Darstellung | dezimale Darstellung | Darstellung nach Windows-1252 |
---|---|---|---|
UTF-8 | EF BB BF [4] | 239 187 191 |  |
UTF-16 (BE) | FE FF | 254 255 | þÿ |
UTF-16 (LE) | FF FE | 255 254 | ÿþ |
UTF-32 (BE) | 00 00 FE FF | 0 0 254 255 | ␀␀þÿ |
UTF-32 (LE) | FF FE 00 00 | 255 254 0 0 | ÿþ␀␀ |
UTF-7 | 2B 2F 76 und ein Zeichen aus:[ 38 | 39 | 2B | 2F ] [5] | 43 47 118 und ein Zeichen aus:[ 56 | 57 | 43 | 47 ] | +/v und ein Zeichen aus:[ 8 | 9 | + | / ] |
UTF-1 | F7 64 4C | 247 100 76 | ÷dL |
UTF-EBCDIC | DD 73 66 73 | 221 115 102 115 | Ýsfs |
SCSU | 0E FE FF (von anderen möglichenBytefolgen wird abgeraten)[6] | 14 254 255 | ␎þÿ |
BOCU-1 | FB EE 28 optional gefolgt von FF [7] | 251 238 40 optional gefolgt von 255 | ûî( optional gefolgt von ÿ |
GB 18030 | 84 31 95 33 | 132 49 149 51 | „1•3 |
Latin-1 ISO8859-1
Latin-9 ISO8859-15
Windows 1252
Codepunkte(::Hexvalues/Bytefolge) der Zeichen in Unicode