12.01.2013

Конвертация PDF в HTML на Java.

PDF может и хороший формат, но согласитесь - зачастую просматривать его оналйн менее удобно, чем просто веб-страницу. Когда мне потребовалось сделать автоматическую конвертацию имеющихся PDF файлов в HTML, первое что я нашел вот этот конвертер - pdfonline. Вполне неплохо работает и есть API для разных языков ( C#, VB, ASP, C+). Однако Java API там нет. Для Java, я нашел отличную библиотеку - PDF2HTML5. Она не бесплатная, но есть 30-дневный триальный период. Для того чтобы сконвертировать PDF файл в веб-страницы можно воспользоваться приведенным на сайте примером, а это буквально одна строка кода. Здесь первый аргумент является входным PDF файлом, второй - путь к директории, куда будет сохранен результат (HTML файлы помещаются в директорию, название которой совпадает с названием входного PDF файла без расширения):
public static void main (String args[]) {

  new ExtractPagesAsHTML(args);

}

Кроме того, чтобы проверить, насколько корректно конвертируется ваш PDF документ, на сайте есть онлайн конвертер Online PDF to HTML5 Converter. К слову, для множества других задач при работе с PDF в Java, обратите внимание на отличную (и кстати бесплатную) библиотеку ItextPdf



Теги: java programming

comments powered by Disqus