Случвало ли ви се е да експортирате от OpenOffice към HTML и да сорса да е в някакъв странен енкодинг. Създадения HTML файл се чете и вижда по всякакъв начин, но ако решите да четете кода ще ви бъде малко трудно :). Днес трябваше да конвертирам един документ от DOC > HTML , но създадения html файл да има възможност за ръчна обработка. В случая е невъзможно поне енкодинга е доста нечовеко приемен :)(lol). Направих един малък Research и видях, че OpenOfifce експортва в Unicode.
Да приемем за пример, че искаме да изведем съобщение „Архипелак“. Ако се експортне в OpenOffice html кода ще бъде следния:
архипелаг
Това е абсурдно за ръчно едитване. За целта се ползва html_entity_decode чрез които се конвертира напълно успешно във всякакъв енкодинг. Пример за конвертиране от Unicode към UTF-8 и Unicode към CP-1251:
print html_entity_decode($string, ENT_NOQUOTES,’UTF-8′).“\n“;
print html_entity_decode($string, ENT_NOQUOTES,’CP1251′).“\n“;
PS: Забелязах че на OpenOffice под Windows не се ползва Unicode. Проблема може също да се реши и чрез смяна на експортиращия енкодинг за HTML
Logged in as {{omniform_current_user_display_name}}. Edit your profile. Log out? Required fields are marked *
Your email address will not be published. Required fields are marked *
Comments are closed.
You must be logged in to post a comment.