Thema
Charset, Encoding & Font
Termin
2016-10-10 20:15
Ort
Uni Ulm, Hörsaal H22
Vortragende
meillo
Archiv

Dieser Vortrag bringt Licht in die Verwirrungen und das Unwissen im Themenfeld um Zeichensaetze (Charsets), Zeichenkodierungen (Encodings) und Schriften (Fonts).

Fonts:

Zeichensaetze:

Encodings:

Sollte man ausrotten:

Unicode-Zeichen und deren Repraesentation in verschiedenen Kodierungen:

Wie man’s richtig macht:

Guter Uebersichtsartikel. Der Hauptfokus ist zwar auf Windows gelegt (weil dort der Bedarf am groessten ist), aber es wird viel allgemeines Wissen vermittelt:

Ein Klassiker von Blogpost, wenn auch technisch nicht unbedingt der exakteste:

Eine Erklaerung der Situation der Schriftsysteme in Ostasien (der Titel passt nicht unbedingt zum Inhalt):

Auch Google vermischt Charsets und Encodings:

Was zur Folge hatte, dass diese abgeleitete Grafik jahrelang in der Wikipedia zu finden war – im Namen Unicode, im Inhalt UTF-8:

Bei PHP muss man der Charset-Methode ein Encoding uebergeben. Man hat einfach den Fehler von Mysql uebernommen, Charsets und Encodings in einen Topf zu werfen:

Wir sollten uns mit der groessten Anstrengung bemuehen, Charsets und Encodings auseinander zu halten und als orthogonal zueinander anzusehen. (Orthogonalitaet ist eine so wertvolle Eigenschaft; sie sollte geschaetzt und angestrebt werden.) 90% der Verwirrung im Gebiet um Charsets und Encodings stammt daher, dass die beiden nicht so klar getrennt werden wie es ihre Natur ist. Es ist notwendig, dass wir anfangen, die zwei Dinge explizit auseinander zu halten, auf dass wir es der zukuenftigen Informatikwelt ermoeglichen, in diesem Thema klar zu sehen!