Zur Boardunity Forenstartseite
  #1  
Alt 22.08.2004, 21:01
Benutzerbild von Fabchan
früher Dracaelius
 
Registriert seit: 10.2003
Ort: Seesen
Beiträge: 354

UTF-8 oder iso-8859-1?


Hi Leute!

Ich beschäftige mich in letzter Zeit mal wieder ein wenig mehr mit PHP und fange nach den Sommerferien, in denen ich meist andere Dinge im Kopf hatte, als vorm Rechner zu sitzen, mal wieder an, an meinem aktuellen PHP-Projekt weiterzuarbeiten.

Ich würde mich gerne ein bisschen mehr über UTF-8 und iso-8859-1 informieren, kennt jemand von euch Quellen, bei denne man sich informieren kann?

Welches Zeichenformat würdet ihr für HTML-Seiten bevorzugen?
__________________
Fabian Michael
"Ein Tag, an dem du nicht lächelst, ist ein verlorener Tag."
- Charlie Chaplin

Wiki
  #2  
Alt 22.08.2004, 21:05
Benutzerbild von Jan Stöver
Boardunity Team
 
Registriert seit: 12.2003
Ort: Lübeck
Beiträge: 2.326
ISO 8859 x
http://www.lexitron.de/main.php?detail=true&eintrag=897
http://de.wikipedia.org/wiki/ISO_8859

UTF 8
http://www.lexitron.de/main.php?deta...e&eintrag=1037


ISO-Zeichensätze
ftp://ftp.unicode.org/Public/MAPPINGS/ISO8859/

__________________
Jan Stöver
  #3  
Alt 22.08.2004, 21:18
Benutzerbild von Fabchan
früher Dracaelius
 
Registriert seit: 10.2003
Ort: Seesen
Beiträge: 354
@: Danke für die schnelle Antwort. Was würdest du bevorzugen?

__________________
Fabian Michael
"Ein Tag, an dem du nicht lächelst, ist ein verlorener Tag."
- Charlie Chaplin

Wiki
  #4  
Alt 22.08.2004, 21:24
Benutzerbild von Jan Stöver
Boardunity Team
 
Registriert seit: 12.2003
Ort: Lübeck
Beiträge: 2.326
Ich habe mich mit dem Thema noch nicht großartig auseinander gesetzt.

Ich wage aber die Behauptung, dass beide Zeichensätze die entsprechende Unterstützung inne haben. Standard ist die ISO wenn man sich mal umschaut.

Bei <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> wird die Meta Angabe <meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1"> als valide angenommen. Das ist bei UTF aber nicht anders.

__________________
Jan Stöver
  #5  
Alt 22.08.2004, 22:13
Benutzerbild von MrNase
Mitglied
 
Registriert seit: 06.2003
Ort: /
Beiträge: 2.639
Nun, UTF-8 findet man öfters bei amerikanischen Seiten wohingegen ISO-8859-1 bzw. ISO-8859-15 bei europäischen Seiten verwendet wird. Kann aber auch daran liegen, dass ö, ä, ü bei UTF-8 nicht korrekt (für uns) dargestellt wird. Da empfiehlt sich dann z.B. &Auml; oder & #196; (ohne Leerzeichen dazwischen) verwenden

  #6  
Alt 22.08.2004, 22:20
Mitglied
 
Registriert seit: 07.2002
Beiträge: 357
Für den deutschen Sprachraum entweder ISO 8859 15 (Umlaute kann 1 zwar auch, aber das kennt kein EURO-Zeichen) oder UTF-16 verwenden. Oder Du brichts alles runter und benutzt us-ascii.

Worum genau gehts denn?

Einige Hinweise zur Geschichte der Zeichensätze und Links findest Duhier.

  #7  
Alt 23.08.2004, 17:12
Benutzerbild von Fabchan
früher Dracaelius
 
Registriert seit: 10.2003
Ort: Seesen
Beiträge: 354
@itst: Es geht um eine in PHP und MySQL geschriebene Software zur Verwaltung von Online-Fotoalben, kurz: eine Galerie, wie Coppermine oder Gallery. Also eine Software, bei der es normalerweise nicht auf so starke Umlautunterstützung wie zum Beispiel bei einem Wiki oder einem Wörterbuch ankommt, aber wenn die Möglichkeit besteht, warum nicht?

Was ich bisher mitgekriegt habe: UTF-8 kann anscheinend net überall richtig dargestellt werden, kennt aber deutlich mehr Zeichen, als die ISO-Zeichensätze.
Da meine Software zumindest im Frontend bei möglichst vielen Benutzern funktionieren soll, empfielt sich hier wohl eher ISO 8859 15, der Zeichensatz wird allerdings auch in jeder Sprachdatei extra definiert und normalerweise braucht wohl auch niemand eine Galerie, in der sowohl Araber, Russen und Europäer gleichtzeitig Inhalte verfassen.

__________________
Fabian Michael
"Ein Tag, an dem du nicht lächelst, ist ein verlorener Tag."
- Charlie Chaplin

Wiki
  #8  
Alt 23.08.2004, 20:10
Benutzerbild von LonelyPixel
UNB-Entwickler
 
Registriert seit: 01.2004
Ort: Erlangen
Beiträge: 974
Du kannst verwenden, was du magst. Aber UTF-8 (Unicode) ist IMO die sauberere Lösung. Umlaute gibt's in beiden Varianten fehlerfrei, um das kurz klarzustellen. Probleme treten nur bei unsauberer Bezeichnung des Codes auf, wenn man z.B. UTF-8 Zeichen verwendet, aber das nicht angibt und der Browser von selbst auch nicht draufkommt.

Wenn du UTF-8 verwendest, muss das auch entsprechend so im HTML Code angegeben sein, dann klappt das auch mit allen gängigen Browsern. Vorteil: Alle Unicode-Zeichen (oder nur fast alle?) können dargestellt werden.

Wenn du ISO...1/15 verwendest, dann können die Unicode-Zeichen nur mit &#...; (oder &#x...;) dargestellt werden. Wenn jemand jetzt gerne russisch reden würde, dann merkt der Browser, dass der aktuelle Zeichensatz das nicht kann, und codiert die Zeichen in eben dieser HTML-Darstellung. Die werden also nicht in einem gültigen Zeichensatz (wie z.B. UTF-8) gespeichert auf deinem Server, sondern in ganz hässlicher HTML-Umschrift. Das ist an sich kein Problem, aber wenn du jetzt zur Anzeige alle & in &amp; umwandelst, dann haut das natürlich nicht mehr hin. Ich hab meine text->html-Funktion anfangs deshalb so gemacht, dass sie genau diese Hex-Codes nicht umwandelt, alle anderen & < > aber schon. Ist etwas tricky, geht aber auch.

Mein Tipp: Lass den Quatsch, mach es von anfang an sauber und verwende Unicode. Wenn du Umlaute in den HTML-Dateien speichern willst, sag deinem Texteditor, dass er das Zeug als UTF-8 (am besten ohne BOM) speichern soll. Und vergiss nicht, den character set in den entsprechenden Headerfeldern anzugeben. So hast du praktisch keine Probleme mehr. Ich hab mein Forum nach ner Weile auch komplett auf UTF-8 umgestellt und so löuft das jetzt seit nem Jahr.

__________________
Yves Goergen
Softwareentwicklung, Fotografie, Webhosting, UNB Components (in Arbeit)
  #9  
Alt 14.09.2004, 19:48
Benutzerbild von Fabchan
früher Dracaelius
 
Registriert seit: 10.2003
Ort: Seesen
Beiträge: 354
Muss das Tehma nochmal ankratzen. Hatte mich nach euren zahlreichen Antowrten letztendlich doch für ISO entschieden, heute habe ich mich mal wieder dran gesetzt und festgestellt, dass mein bisheriger treuer Weaverslave kein UTF-8 unterstützt. Kann jemand von euch einen Editor, der das kann, empfehlen?

__________________
Fabian Michael
"Ein Tag, an dem du nicht lächelst, ist ein verlorener Tag."
- Charlie Chaplin

Wiki
  #10  
Alt 14.09.2004, 20:09
Benutzerbild von codethief
Visionär
 
Registriert seit: 09.2003
Beiträge: 811
Wiesao brauchst du jetzt 'nen Editor mit UTF-8, wenn du ISO 8859-1 benutzen willst?

  #11  
Alt 14.09.2004, 20:25
Benutzerbild von LonelyPixel
UNB-Entwickler
 
Registriert seit: 01.2004
Ort: Erlangen
Beiträge: 974
Weaver-was? Google sagt mir, dass das Teil ne optisch richtig schön verspielte Oberfläche hat...
Weiß nich, ich bin mit meinem minimalistisch konfigurierten Textpad eigentlich zufrieden. Kann UTF-8 perfekt, und noch weitere Formate/Kodierungen/etc. Leider kann man da keine Zeichen außerhalb des aktuell im System eingestellten Zeichensatzes eingeben. Das wird in deren Forum schon seit längerem bemängelt, aber die tun da scheinbar nix.
UltraEdit kann das zwar, aber machte mir nen recht komplexen Eindruck, als ich's vor einiger Zeit mal kurz angeschaut hab. Weiß nicht, in wie weit man das noch runterkonfigurieren kann.

__________________
Yves Goergen
Softwareentwicklung, Fotografie, Webhosting, UNB Components (in Arbeit)
  #12  
Alt 14.09.2004, 20:35
Mitglied
 
Registriert seit: 10.2003
Ort: Bottrop
Beiträge: 779
JEdit.org kann das (hab damit allerdings nur scherereien, weil der zwar UTF-8 kodieren kann, jedoch dann die meisten Dateien auf meinem PC nicht mehr entziffern kann (d.h. ich müsste jedesmal beim speichern der Datei auf UTF-8 umschalten...)).

Soweit ich mich erinnere ist das bei Java-Sachen aber Standard (UTF-16)... (könntest also auch mal das Teil in meiner Sig testen, ist zwar noch nicht fertig, aber ich arbeite schon recht gern damit).

__________________
Patrick Gotthardt
Patrick Gotthardt on Software
  #13  
Alt 14.09.2004, 20:37
Benutzerbild von Fabchan
früher Dracaelius
 
Registriert seit: 10.2003
Ort: Seesen
Beiträge: 354
@codethief: Ich bin auf die tolle Idee gekommen, das Ganze jetzt doch noch komplett auf UTF-8 umzustellen, aber anscheined macht das zuviel Ärger.

Wenn ich die Dateien nicht als UTF-8 abspeichere, gibt der Browser es zwar korrekt aus, wenn ich die Umlaute nicht umschreibe, dann meckert allerdings der W3-Validator, selbst wenn ich UTF-8 HTTP-Header mitsende.

Wenn ich als UTF-8 abspeichere, kann ich die Datei mit vielen Editoren nicht mehr korrekt darstellen (und andere Leute, denen ich meine Skripte gebe, dann wohl auch nicht.)...

__________________
Fabian Michael
"Ein Tag, an dem du nicht lächelst, ist ein verlorener Tag."
- Charlie Chaplin

Wiki
  #14  
Alt 14.09.2004, 20:43
Benutzerbild von LonelyPixel
UNB-Entwickler
 
Registriert seit: 01.2004
Ort: Erlangen
Beiträge: 974
Ähm, ich nehm mal an, dass du unter "alt UTF-8 abspeichern" die Version inkl. BOM verstehst. Dann kannst du doch keinen UTF-8-Header senden, wenn die Daten ANSI sind. Außerdem ist der Header wenig interessant, wichtiger ist die Definition im DocType, IIRC. Jedenfalls bei XHTML. HTML4 kenn ich dafür nicht gut genug.

Wenn du die Datei als UTF-8 speicherst (inkl. BOM), dann kann das natürlich nur so ein Editor verarbeiten, der das auch versteht. Windows Notepad z.B. Wenn du das ohne BOM speicherst, so dass PHP besser damit zurecht kommt, dann muss ein guter Editor natürlich raten, und wenn zu wenige Sonderzeichen vorkommen, wird er es u.U. falsch erkennne.

__________________
Yves Goergen
Softwareentwicklung, Fotografie, Webhosting, UNB Components (in Arbeit)
  #15  
Alt 14.09.2004, 21:00
Benutzerbild von Fabchan
früher Dracaelius
 
Registriert seit: 10.2003
Ort: Seesen
Beiträge: 354
Das sich der Validator auch nicht aufregt, wenn ich bei XHTML die Umlaute direkt in die Datei packe, ohne die Sonderzeichenkombinationen zu verwenden, mache ich das jetzt einfach so, habe die bisher immer umschrieben, weil ich immer dachte, das müsste ich so machen.

Naja, egal. Falls es irgendwem was bringt, kann ich die UTF-8-Unterstützung ja immer noch irgendwann mal integrieren, am besten in Version 5.0 oder so, bis dahin habe ich ja noch ordentlich Zeit!

Trotzdem vielen Dank für eure Mühe, mir zu helfen.

__________________
Fabian Michael
"Ein Tag, an dem du nicht lächelst, ist ein verlorener Tag."
- Charlie Chaplin

Wiki
  #16  
Alt 14.09.2004, 23:03
Benutzerbild von LonelyPixel
UNB-Entwickler
 
Registriert seit: 01.2004
Ort: Erlangen
Beiträge: 974
Du kannst wahrscheinlich alle Zeichen verwenden, die du magst, solange du einen Zeichensatz angibst, in dem die auch vorkommen.

__________________
Yves Goergen
Softwareentwicklung, Fotografie, Webhosting, UNB Components (in Arbeit)
Antwort


Stichworte
-

Themen-Optionen
Thema bewerten
Thema bewerten:

Forumregeln
Es ist dir nicht erlaubt, neue Themen zu verfassen.
Es ist dir nicht erlaubt, auf Beiträge zu antworten.
Es ist dir nicht erlaubt, Anhänge hochzuladen.
Es ist dir nicht erlaubt, deine Beiträge zu bearbeiten.
Gehe zu

Ähnliche Themen
Thema Autor Forum Antworten Letzter Beitrag
Würde sich ein Wechsel auf wbb2 oder vBulletin wirklich lohnen? Silmarillion Forensoftware 61 01.11.2005 17:13
CMS oder Portalsystem für mich? DJ Iltiz Blog, CMS, Wiki und Sonstige 11 19.02.2005 10:50
(Welches) CMS – oder anderes Skript? Winters Blog, CMS, Wiki und Sonstige 19 06.04.2004 21:09
THWB 2.84 (2.9) oder phpBB 2.2? Fabchan Forensoftware 15 13.01.2004 16:17
Forum und Board oder doch ein FoBo/BoFo ;) Michael Przybyla Boardunity-Talk 6 08.09.2003 19:42






1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25