Конвертиране от Unicode към UTF-8 или CP-1251

Случвало ли ви се е да експортирате от OpenOffice към HTML и да сорса да е в някакъв странен енкодинг. Създадения HTML файл се чете и вижда по всякакъв начин, но ако решите да четете кода ще ви бъде малко трудно :). Днес трябваше да конвертирам един документ от DOC > HTML , но създадения html файл да има възможност за ръчна обработка. В случая е невъзможно поне енкодинга е доста нечовеко приемен :)(lol). Направих един малък Research и видях, че OpenOfifce експортва в Unicode.
Да приемем за пример, че искаме да изведем съобщение "Архипелак". Ако се експортне в OpenOffice html кода ще бъде следния:

&#1072;&#1088;&#1093;&#1080;&#1087;&#1077;&#1083;&#1072;&#1075;

Това е абсурдно за ръчно едитване. За целта се ползва html_entity_decode чрез които се конвертира напълно успешно във всякакъв енкодинг. Пример за конвертиране от Unicode към UTF-8 и Unicode към CP-1251:

print html_entity_decode($string, ENT_NOQUOTES,'UTF-8')."\n";

print html_entity_decode($string, ENT_NOQUOTES,'CP1251')."\n";

PS: Забелязах че на OpenOffice под Windows не се ползва Unicode. Проблема може също да се реши и чрез смяна на експортиращия енкодинг за HTML

Rating: 5.0/5 (1 vote cast)

Rating: 0 (from 0 votes)

Конвертиране от Unicode към UTF-8 или CP-1251, 5.0 out of 5 based on 1 rating

Блога на Мартин

Конвертиране от Unicode към UTF-8 или CP-1251

Вашият коментар Отказ

Личен Блог на Мартин Петров