КулЛиб - Классная библиотека! Скачать книги бесплатно 

Вы можете помочь в распознавании (OCR) либгена

Форумы - Флудильня - Вы можете помочь в распознавании (OCR) либгена
DeMorte
DeMorte's picture
Оффлайн
Зарегистрирован: 26.09.2012

Stager проработал метод массового распознавания djvu-части либгена, в которой числится приблизительно 80 000 книг без текстового слоя. Вы можете принять участие и помочь в создании коллекции, пригодной для полнотекстового поиска. Страница начинания: http://lbc.rsl.ru/massocr/

Цитата:
Распознавание текста в библиотеке LibraryGenesis цель инициативы - распознать и дополнить текстовым слоем все сканированные в картинках книги в библиотеке. Распознавание производится силами участников инициативы, с помощью свободного программного обеспечения, на безвозмездной основе.

Если вы хотите присоединиться к инициативе - вам нужно иметь компьютер под управлением Linux, с установленной программой tesseract для распознавания, ocrodjvu для обработки djvu файлов, и скриптом на python, координирующим работу.
Описание скрипта, инструкции по установке, ссылки на скачивание.

обсуждение на форуме либгена: http://genofond.org/viewtopic.php?p=38917#p38917

Пожалуйста, присодединяйтесь - вместе результат заставит себя ждать возможно не год, а пару месяцев!

ANSI
ANSI's picture
Оффлайн
Библиотекарь
Зарегистрирован: 30.09.2012
Премия "Супер-библиотекарь" (Сделано 10000 действий с базой библиотеки!)Премия "Флибуста" (Добавлено 5000 книг в библиотеку!)Мастер критики (Написано 100 отзывов!)Люди ждут ваш отзыв (Достигнуто 100 положительных оценок в отзывах!)Премия "Известный блогер" (Добавлено 100 записей в блог!)Премия "Авторитет форума" (Добавлено 10000 сообщений на форуме!)
Re: Вы можете помочь в распознавании (OCR) либгена

идея интересная... а нельзя файнридером распознавать и назад в djvu? хотя... смысл? тогда уж выводить в doc хотя бы... а ссылок на тессеракт на данном сайте нету... вот djvu express 5.5 довольно сносно распознает автоматом (с ОЦРкой от Iris), хотя базы там такие же, как в Iris 12 corporate (такие же кривые)... лучше бы отработать идею подключения баз языков от файнридера, а то слишком много лишней работы получается (импорт в файнридер - распознавание - вычитка - вклейка)

—————

хочешь сделать хорошо - сделай это сам! (с) Зог, фильм "Пятый элемент"

Настройки просмотра комментариев

Выберите нужный метод показа комментариев и нажмите "Сохранить установки".