|
|
Autor | Beitrag |
---|
025 10.12.2010, 14:11 Kriz |
Javas und QTs Sources bezüglich Zeichen und Strings decken genau das auf. Ich finde es beispielsweise bemerkenswert, daß QT bewußt auf wchar_t als Unicode-Basis verzichtet und stattdessen uint16_t nimmt, weil wchar_t wieder unter dieser "Mindestens so breit wie char"-Definition leidet, also 16 Bit niemals garantiert werden. Ein Blick in den Source lohnt sich und man merkt, wie kompliziert doch ein Unicode-Character sein kann. --K:R-I)Z++ |
Profil || Suche |
026 11.12.2010, 14:53 caedes |
Unicode ist krank. Beispiel: "blâb" in UTF-8 wird mit folgenden Bytes dargestellt (kann man sich im Hexeditor so angucken): Also: Ein Unicode Code Point besteht aus einem oder mehreren Code-Units (außer bei UTF-32, da ist ein 32bit Integer gleichzeitig Code Point und Code Unit), und ein dargestelltes Zeichen besteht aus einem oder mehreren Code Points. caedes Deutschland rückt nach Einschätzung der Sicherheitsbehörden im Superwahljahr verstärkt ins Visier von Terroristen. |
Profil || Suche |
|