Магазины и музейные архивы активно оцифровывают книги по нескольким причинам, основным из которых является недоступность цифровой копии у правообладателя, ограниченное количество или старинные книги, исходный материал создавался не цифровым набором.

Владельцы копий узкоспециализированной литературы не стремятся создавать для массового потребителя контент, источником которого являются редкие книги. В этом случае цифровая копия создаётся для изучения книг без ущерба их первичного носителя, не только со стороны читателя, но и для исключения разрушительного воздействия воздуха, света, различных газов, паразитов и так далее. Редкие цифровые копии книг и рукописей чаще всего находятся в рамках исторических архивов и библиотек.

Электронные книги, как файлы, создаются несколькими способами: прямая цифровая копия из подготовленной профессиональной или иной вёрстки, а также оцифровка бумажной книги или другого источника в электронную форму. Устаревшей формой оцифровки можно признать ручной набор текста и диктант.

Не всегда и везде оцифрованная книга должна и может содержать текст, который возможно впоследствии масштабировать и даже редактировать, в том числе применять конвертацию в другие текстовые форматы электронных книг. Оцифрованные книги могут быть факсимильной копией, то есть графически точно отражать вид бумажной страницы.

Текстовые книги получаются с помощью распознавания текста. Применяется метод OCR – оптическое распознавание символов (анг. optical character recognition). Страницы книги предварительно сканируются в графический формат, и впоследствии текст распознаётся с помощью специального программного обеспечения. Точность распознавания зависит от качества шрифта, контраста текста, наличия дефектов и графических иллюстраций. Финальное качество, в большинстве случаев, контролируется корректорами, которые сверяют текст между первоисточником и цифровой копией.

(Довольно много разногласий между специалистами OCR вызывает необходимость или возможность сохранения опечаток в цифровой копии, которые имели место в бумажной книге).

Подготовленная цифровая книга трансформируется в один из текстовых форматов. Впоследствии можно преобразовать готовую книгу в другие популярные форматы, с возможной потерей вёрстки, так как не все из них поддерживают совместимый набор разметки текста и иллюстраций. Первично выбранный формат зависит от предпочтений оцифровщика и использования технологической цепочки для последующей трансформации. Чаще выбирают форматы с развитой структурой разметки.

Графические книги создаются за счёт точного образа страницы или факсимильной копии с помощью оптического прибора, чаще с помощью сканера, реже с помощью фотоаппарата. Метод выбирается за счёт определения скорости преобразования, и вероятного вреда, который может быть нанесён первоисточнику внешним освещением, нагревом или физическими изломами оригинала.

Каждая страница отсканированного материала – это графический файл JPEG, TIFF или любой другой, в том числе контейнеры, которыми могут быть PDF и DJVU. Выбор формата зависит от дальнейшего преобразования множества файлов в один документ или наоборот, когда из одного файла создаётся множество промежуточных, для координации профессиональной обработки.

Сканеры существуют нескольких типов – отличаются скоростью работы, встроенными средствами распознавания, конструкцией и конечно размерами. Немаловажная разница заключается в цене решения при эксплуатации того или иного типа сканера и сложности управления процессом.

Малораспространённый тип – это ручные компактные сканеры, которые не точны, имеют небольшую скорость работы, за один раз охватывают небольшую зону изображения и не имеют встроенных механизмов автоматизации процесса. Но за счёт низкой стоимости, малого веса и компактности – применяются до сих пор. Они удобны для отдельных рукописей, страниц или только для сканирования подписи автора.