Четене на pptx със счупен енкодинг


1

Здравейте,

 

Отварям pptx презентация посредством JavaScript (с JSZIp) и имам нужда да парсна информацията от вътре. Всичко окей, докато не се получи така, че данните, които са на кирилица излизат малко счупено.

 

Например:

Нека Всички Заедно да се НАДЯВАМЕ това да работи СКОРО

 

Ужкем пише, че е UTF8, но някак си не мога да го възстановя. При опитите ми да взимам char кодовете на отделните символи достигам до някакъв извод, който може да няма нищо общос истината, но прилича на нещо като extended ASCII. Проблемът ми обаче не се решава, когато се опитвам да възстановя низа спрямо char кодовете, отново се чупи и на места нещата не се получават.

 

Ако някой има някаква идея, ще се радвам, ако я сподели. Благодаря предварително за отделеното внимание :)




Отговори



1
Javascript не поддържа Unicode... особено. Най-добре кажи какъв е крайният резултат който търсиш, може би има друг начин.

от staafl (5770 точки)


0
Предвид, че кодировките за Unicode са:
1. UTF-8 - Използва 8 бита (1 байт) за знаците от американския стандарт ASCII, което го прави съвместим с всички стари програми когато се използват само знаците от ASCII.
2. UTF-16 - Използва най-малко 16 бита (2 байта) за знаците.
3. UTF-32 - Всички знаци заемат 32 бита.
как да разбирам изречението: "Javascript не поддържа Unicode... особено"?
Какви енкодинги поддържа езика?

от Dobromir (777 точки)

0
Ползва UCS2 (нещо като subset на UTF16). Знаците са два байта и толкоз.

от staafl (5770 точки)



0

Може би за нещо такова говориш. Чрез Гугъл можеш да потърсиш (и да намериш) много и най-различни дешифратори. С малко повечко "игра" ще намериш "модулатор-дешифратор". Също трябва да провериш този pptx документ на какъв енкодинг е записан - там също може да е проблема.

Пожелавам ти успех!!!


от Dobromir (777 точки)


0

 

<meta http-equiv="Content-Type" content="text/plain; charset=UTF-8">

Ако не става text/html пробвай с text/plain




0
Мисля, че в случая не опира до енкодинга на страницата, защото той е коректен, и кирилизирания текст си излиза нормално.
Прочетеният от zip-a на pptx-a обаче излиза счупен. Латиницата е окей, с кирилицата нищо не става. Видях за някакви начини да се сложи енкодинг на javascript скриптовете, но отново безуспех, а и не знам колко би помогнало, ако текста излиза счупен.
Друг е въпроса обаче, че на файловата система, когато разглеждам XML файловете, там няма никакви проблеми. Все още съм пас, но все пак благодаря за съвета и отделеното внимание :)

от valkirilov (15 точки)

0
А пробва ли този zip-file да го разархивираш, да го сейфнеш като уникод-8 (или уникод-16) и после пак да го архивираш?
Такива "маймуници" на мен са ми излизали, когато системата се опитва да чете файла като уникод, а той да е записан като Windows-1251 (т.е. като ASCII код).
И другото - направи проверка с няколко различни браузъра. Може самият ти браузър да е по-стара версия и да не е способен да се справя с предизвикателството.

от Dobromir (777 точки)