12.01.2013
Конвертация PDF в HTML на Java.
PDF может и хороший формат, но согласитесь - зачастую просматривать его оналйн менее удобно, чем просто веб-страницу. Когда мне потребовалось сделать автоматическую конвертацию имеющихся PDF файлов в HTML, первое что я нашел вот этот конвертер - pdfonline. Вполне неплохо работает и есть API для разных языков ( C#, VB, ASP, C+). Однако Java API там нет. Для Java, я нашел отличную библиотеку - PDF2HTML5. Она не бесплатная, но есть 30-дневный триальный период. Для того чтобы сконвертировать PDF файл в веб-страницы можно воспользоваться приведенным на сайте примером, а это буквально одна строка кода. Здесь первый аргумент является входным PDF файлом, второй - путь к директории, куда будет сохранен результат (HTML файлы помещаются в директорию, название которой совпадает с названием входного PDF файла без расширения):
public static void main (String args[]) { new ExtractPagesAsHTML(args); }
Кроме того, чтобы проверить, насколько корректно конвертируется ваш PDF документ, на сайте есть онлайн конвертер Online PDF to HTML5 Converter. К слову, для множества других задач при работе с PDF в Java, обратите внимание на отличную (и кстати бесплатную) библиотеку ItextPdf.
Теги: java programming
comments powered by Disqus