Encoding ANSI UTF-8 ISO8859-1 (Latin1) Windows 1252

ASCII: Ein 7 Bit Zeichensatz 0-127

ANSI: Ein Zeichen – Ein 8 Bit Zeichensatz

UTF-8: Multibyte: Ein Zeichen – Ein bis drei Bytes

ISO 8859-1 Latin-1: Ein 8 Bit Zeichensatz

ISO 8859-15 Eurosymbol und Französisch

Windows 1252 (Wie ISO 8859-1, aber Steuerzeichen sind druckbare Zeichen): Ein 8 Bit Zeichensatz

Websiteverwendung:

Windows 1252 Westeuropäisch 0,6%

Windows 1251 Kyrillisch 0,6%

ISO 8859-1 3,5%

UTF-8 93%

Beispieltext und deren Hexdarstellung:

ANSI: Bytes: 61 / 41 / a6 / 80

UTF-8 Ohne BOM: Bytefolge: 61 / 41 / c2 a6 / e2 82 ac

UFT-8 Mit BOM: Bytefolge: ef bb bf / 61 / 41 / c2 a6 / e2 82 ac

Die UTF-8-Kodierung des BOM besteht aus der Bytesequenz EF BB BF, die in nicht UTF-8-fähigen Texteditoren und Browsern meist als ISO-8859-1-Zeichen ï»¿

UTF-8 Ohne BOM: Am Anfang keine 3 Byte für BOM

UTF-8 mit BOM: Am Anfang 3 Byte für BOM: EF BB BF

Vergleich: ANSI ASCII Windows-1252 ISO-8859-1

ANSI ZeichencodeTypVerfügbar in Zeichensatz
ASCIIWindows-1252ISO-8859-1
0 – 31SteuerzeichenJAJAJA
32 – 126Druckbare ZeichenJAJAJA
127SteuerzeichenJAJAJA
128 – 159Druckbare ZeichenNEINJANEIN
(nur als Steuerzeichen)
160 – 255Druckbare ZeichenNEINJAJA

Aus

https://de.wikipedia.org/wiki/Byte_Order_Mark#Tabellarische_%C3%9Cbersicht

Darstellung der BOM

Kodierunghexadezimale Darstellungdezimale DarstellungDarstellung nach Windows-1252
UTF-8EF BB BF[4]239 187 191
UTF-16 (BE)FE FF254 255þÿ
UTF-16 (LE)FF FE255 254ÿþ
UTF-32 (BE)00 00 FE FF0 0 254 255␀␀þÿ
UTF-32 (LE)FF FE 00 00255 254 0 0ÿþ␀␀
UTF-72B 2F 76 und ein Zeichen aus:
[ 38 | 39 | 2B | 2F ][5]
43 47 118 und ein Zeichen aus:
[ 56 | 57 | 43 | 47 ]
+/v und ein Zeichen aus:
[ 8 | 9 | + | / ]
UTF-1F7 64 4C247 100 76÷dL
UTF-EBCDICDD 73 66 73221 115 102 115Ýsfs
SCSU0E FE FF (von anderen möglichen
Bytefolgen wird abgeraten)[6]
14 254 255␎þÿ
BOCU-1FB EE 28 optional gefolgt von FF[7]251 238 40 optional gefolgt von 255ûî( optional gefolgt von ÿ
GB 1803084 31 95 33132 49 149 51„1•3

Latin-1 ISO8859-1

Latin-9 ISO8859-15

Windows 1252

Codepunkte(::Hexvalues/Bytefolge) der Zeichen in Unicode