Dodany: 11.02.2011 15:20|Autor: kocio
Skany - i co dalej?
Ostatnio się wgłębiłem w tematykę taniej digitalizacji (głównie tworzenia e-booków w warunkach amatorskich) i skoro już o skanerze była mowa, to tym razem jakie swobodnie dostępne programy do tego znalazłem:
- ScanTailor ( http://scantailor.sourceforge.net/ ) - to kombajn do obróbki optycznej skanów, można nim obracać obrazki, zaznaczać obszary tekstu/grafik, określać marginesy, oczyszczać z zabrudzeń optycznych czy wybielać kolor kartki. Wkrótce nadchodzi wersja 1.0, w której będzie miał automatyczne (i ręczne) "prostowanie" wygiętych kartek, a także polskie tłumaczenie.
- CuneiForm ( http://www.cuneiform.ru/eng/ ) - program do rozpoznawania tekstu ze skanów (OCR), obsługuje między innymi język polski (trzeba to tylko zmienić w ustawieniach); jakość rozpoznawania naprawdę porządna.
To pod Windows, ale ku mojemu zaskoczeniu pod Linuksem już też jest tak samo dobrze - ScanTailor jest dostępny równolegle, a do graficznej obróbki OCR rozwija się program OCRFeeder ( http://live.gnome.org/OCRFeeder ), który do faktycznego rozpoznawania tekstu używa różnych programów, w tym dwóch najlepszych - portu CuneiForm (można tez uruchamiać wersję windowsową pod Wine) oraz Tesseract, który daje porównywalne efekty. Żeby rozpoznawać teksty po polsku do ich konfiguracji trzeba dodać "-l pol", przy czym ważne, żeby to były nowsze wersje, dostępne np. pod Ubuntu w repozytorium https://launchpad.net/~alex-p/+archive/notesalexp . Wkrótce powinien mieć też polskie tłumaczenie, czekam już tylko aż autor je zaaplikuje i opublikuje nową wersję.
Jeśli ktoś nie potrzebuje wygodnego skanera do książek (samoróbki albo ION Book Savera, który ma się pojawić latem) i wystarczy mu zwykły, to już nic tylko zacząć szykować domową biblioteczkę do przeniesienia na czytnik! =}