Конвертиране от Unicode към UTF-8 или CP-1251

ФонтСлучвало ли ви се е да експортирате от OpenOffice към HTML и да сорса да е в някакъв странен енкодинг. Създадения HTML файл се чете и вижда по всякакъв начин, но ако решите да четете кода ще ви бъде малко трудно :). Днес трябваше да конвертирам един документ от DOC > HTML , но създадения html файл да има възможност за ръчна обработка. В случая е невъзможно поне енкодинга е доста нечовеко приемен :)(lol). Направих един малък Research и видях, че OpenOfifce експортва в Unicode.
Да приемем за пример, че искаме да изведем съобщение "Архипелак". Ако се експортне в OpenOffice html кода ще бъде следния:

архипелаг

Това е абсурдно за ръчно едитване. За целта се ползва html_entity_decode чрез които се конвертира напълно успешно във всякакъв енкодинг. Пример за конвертиране от Unicode към UTF-8 и Unicode към CP-1251:

print html_entity_decode($string, ENT_NOQUOTES,'UTF-8')."\n";

print html_entity_decode($string, ENT_NOQUOTES,'CP1251')."\n";

PS: Забелязах че на OpenOffice под Windows не се ползва Unicode. Проблема може също да се реши и чрез смяна на експортиращия енкодинг за HTML

VN:F [1.9.22_1171]
Rating: 5.0/5 (1 vote cast)
VN:F [1.9.22_1171]
Rating: 0 (from 0 votes)
Конвертиране от Unicode към UTF-8 или CP-1251, 5.0 out of 5 based on 1 rating

Вашият коментар

Вашият email адрес няма да бъде публикуван Задължителните полета са отбелязани с *