Мартин Петров – Личен блог

Конвертиране от Unicode към UTF-8 или CP-1251

22.07.2009

Случвало ли ви се е да експортирате от OpenOffice към HTML и да сорса да е в някакъв странен енкодинг. Създадения HTML файл се чете и вижда по всякакъв начин, но ако решите да четете кода ще ви бъде малко трудно :). Днес трябваше да конвертирам един документ от DOC > HTML , но създадения html файл да има възможност за ръчна обработка. В случая е невъзможно поне енкодинга е доста нечовеко приемен :)(lol). Направих един малък Research и видях, че OpenOfifce експортва в Unicode.
Да приемем за пример, че искаме да изведем съобщение „Архипелак“. Ако се експортне в OpenOffice html кода ще бъде следния:

&#1072;&#1088;&#1093;&#1080;&#1087;&#1077;&#1083;&#1072;&#1075;

Това е абсурдно за ръчно едитване. За целта се ползва html_entity_decode чрез които се конвертира напълно успешно във всякакъв енкодинг. Пример за конвертиране от Unicode към UTF-8 и Unicode към CP-1251:

print html_entity_decode($string, ENT_NOQUOTES,’UTF-8′).“\n“;

print html_entity_decode($string, ENT_NOQUOTES,’CP1251′).“\n“;

PS: Забелязах че на OpenOffice под Windows не се ползва Unicode. Проблема може също да се реши и чрез смяна на експортиращия енкодинг за HTML

Категория: Web

Logged in as {{omniform_current_user_display_name}}. Edit your profile. Log out? Required fields are marked *

Your email address will not be published. Required fields are marked *

Comments are closed.

You must be logged in to post a comment.