Page 1 of 1

äöü problem bei html content

Posted: 11 Feb 2018, 13:02
by effel
hallo guten abend,
beim parsen einer mit urldownloadtofile heruntergeladenen html seite
bekomme ich als ergebnis bei äöü seltsame sonderzeichen angezeigt.

gibt es eine möglichkeit den html content mit z.b.
stringreplace, html, html, zauberwort, ergebnis_html, all
oder so ähnlich wieder lesbar zu machen?

Code: Select all

Treffen könnten z. B. in der Stadtbibliothek Köln erfolgen.

Re: äöü problem bei html content  Topic is solved

Posted: 12 Feb 2018, 03:03
by just me
Moin,

je nachdem, wie Du die Datei einliest, gibt es unterschiedliche Möglichkeiten, die Dateikodierung vorzugeben. Deine 'Problemzeichen' sind UFT-8 kodiert. Die Dateikodierung sollte deshalb UTF-8-RAW bzw. CP65001 sein. Im Header von HTML Dateien findet sich oft ein Hinweis auf die Kodierung.

FAQ: Warum werden die ASCII-fremden Zeichen in meinen Skript falsch angezeigt oder gesendet?

Re: äöü problem bei html content

Posted: 12 Feb 2018, 07:47
by effel
ich habe nun am anfang des scripts
FileEncoding, UTF-8
stehen, damit sind alle probleme gelöst

danke just me