Gentoo Archives: gentoo-user-de

From: Klaus Fabritius <kfk@××××××××××.de>
To: gentoo-user-de@l.g.o
Subject: Re: [gentoo-user-de] UTF-8
Date: Mon, 16 Jan 2006 10:04:58
Message-Id: 20060116100054.GA10127@mid.wasserhase.de
In Reply to: Re: [gentoo-user-de] UTF-8 by Max Bloch
1 * Max Bloch schrieb:
2
3 [...]
4 > Zusätzlicher Punkt: So weit
5 > ich mich gerade erinnere, ist UTF-8 die Standardkodierung für für XML
6 > und somit auch für XHTML, falls nicht explizit eine andere Kodierung
7 > angegeben wird.
8 [...]
9
10 | Authors should also be careful about character encoding issues. A typical
11 | misunderstanding is that since an XHTML document is an XML document, the
12 | character encoding of an XHTML document should be treated as UTF-8 or UTF-16 in
13 | the absence of an explicit character encoding information. This is NOT the
14 | case when an XHTML document is served as 'text/html'. "6. Charset default
15 | rules" of [RFC2854] notes as follows:
16 |
17 | The use of an explicit charset parameter is strongly recommended. While [MIME]
18 | specifies "The default character set, which must be assumed in the absence of a
19 | charset parameter, is US-ASCII." [HTTP] Section 3.7.1, defines that "media
20 | subtypes of the 'text' type are defined to have a default charset value of
21 | 'ISO-8859-1'". Section 19.3 of [HTTP] gives additional guidelines. Using an
22 | explicit charset parameter will help avoid confusion.
23 <http://www.w3.org/TR/xhtml-media-types/>
24
25 Kurz: wenn die Angabe zur Kodierung fehlt, weiß keiner was Sache ist ;-)
26
27
28 | The document character set for XML and HTML 4.0 is Unicode (aka ISO
29 | 10646). This means that HTML browsers and XML processors should behave
30 | as if they used Unicode internally. But it doesn't mean that documents
31 | have to be transmitted in Unicode. As long as client and server agree on
32 | the encoding, they can use any encoding that can be converted to
33 | Unicode.
34 <http://www.w3.org/International/O-charset.html>
35
36 Der interne Zeichensatz ist Unicode (was BTW nicht notwendigerweise
37 UTF-8 bedeutet, praktischerweise aber schon). D.h., daß verarbeitende
38 (zB. Browser) und transportierende (Protokolle) Software mit Unicode
39 klar kommen sollte (siehe RFC 2277, der sich auch auf UTF-8 festlegt).
40
41 Aber das Dokument (meist die Webseite) muß lediglich in einem Format
42 vorliegen, welches nach Unicode /konvertiert/ werden kann.
43
44 Eine türkischsprachige Webseite mit Kochrezepten in ISO-8859-9 ist also
45 absolut OK. Warum sollte sich der Gestalter der Website irgendeines City
46 Community College Gedanken jenseits von us-ascii machen? Google oder
47 Wikipedia dagegen müssen mit UTF-8 daherkommen.
48
49 Kurz: Ob us-ascii, euc-kr, iso8859-3 oder iso-2022-jp - alles
50 standardkonform (nur deklarieren sollte man es).
51
52
53 -kfk
54
55 --
56 Object-oriented design is the roman numerals of computing.
57 Rob Pike, 1991
58 --
59 gentoo-user-de@g.o mailing list