Zkušenosti se skenováním šachových časopisů a vytvářením PDF souborů

(Experiences with scanning of chess publications and creating PDF files)

Václav Kotěšovec, 4.6.2003, updated 28.6.2005 (for Acrobat 7)


Skenování

Skenování šachových publikací je třeba optimalizovat tak, aby byla co nejlepší kvalita (což je zejména v případě diagramů zásadní) a současně co nejmenší soubor.
Pro publikace, kde jsou maximálně 3 diagramy vedle sebe na stránce, stačí 300 dpi. Pokud jsou vedle sebe 4 nebo dokonce 5 malých diagramů, je bezpodmínečně nutné skenovat na 600 dpi. V obou případech stačí skenování na B/W (2 barvy, černobíle). Při jiných nastaveních (grayscale nebo dokonce true color) neúměrně narůstá velikost souboru a kvalita není obvykle lepší. Naopak při nastavení B/W se obvykle odfiltrují (zejména z hodně starých předloh) různé kazy papíru, zažloutlost stránek apod., takže výsledek je někdy i lepší než originál.
Při B/W skenování má ale zásadní význam nastavení úrovně černé. Doporučuji nastavit tak, aby diagramy nebyly moc černé. Určitě to stojí za pár experimentů a časem člověk získá cit pro správné nastavení. Jinak pokud je na stránce pouze text, lze trochu černé přidat.

Pro vlastní skenování doporučuji (free) program IrfanView a v něm funkci "File", "Batch scanning".
Při této funkci se ukládají soubory se zvoleným číslováním (např. FILE001.TIF, FILE002.TIF, ...), což umožňuje jejich snadnější zpracování.

Zpracování

Skenování je činnost pracná, zpracování je (při použití vhodných prostředků) snadné a rychle se dostaví výsledky. Doporučuji k tomu programy Irfanview a Adobe Acrobat.

Irfanview

Nejprve jedna zásadní poznámka. Pokud skenujeme více časopisů, doporučuji nejprve vše naskenovat a zpracování provést až najednou, ušetří se tím čas.

Přiklad postupu při zpracování TIF souborů odpovídajících 2 otočeným stranám A5 na jedné A4.

Nejprve všechny soubory otočíme o 90 stupňů. Irfan to zvládne bleskově. Použijeme "Batch conversion" (stačí stisknout jen B), vybereme všechny soubory (obvykle pomocí "Add all") a zvolíme "Set advanced options". Zde pro otočení zvolíme (podle způsobu skenování) např. "Rotate right" a akci dokončíme.

Nyní uděláme výřezy pravých a levých stránek například do adresářů LEFT a RIGHT. Zvolíme opět "Set advanced options" (nejprve zrušíme předchozí nastavení!) a funkcí CROP uděláme výřezy, obvykle stačí rozdělit na polovinu. Pokud je například rozměr již otočených TIFů 7000 x 5000 bodů, zvolíme pro levé stránky
X-Coord: 0 Width: 3500
Y-Coord: 0 Height: 5000

pro pravé stránky pak
X-Coord: 3500 Width: 3500
Y-Coord: 0 Height: 5000

Potom soubory v adresáři LEFT přejmenujeme (Total commander a jeho "Multi-rename tool" je na to ideální) tak, že za jména souborů doplníme znak L, například FILE001L.TIF, FILE002L.TIF atd. Podobně v adresáři RIGHT přidáme ke všem jménům znak R. Podstatné nyní je, že L je v abecedě před R ! Potom všechny tyto soubory odpovídající jednotlivým půlstranám sloučíme do jednoho adresáře. Nyní už není třeba nic upravovat (stránky jsou ve správném pořadí!), jen určíme začátky a konce jednotlivých čísel časopisů, rozsah může být třeba FILE175R až FILE191L. Tyto stránky pak rovnou načteme do Acrobatu a uložíme jako PDF.


Adobe Acrobat

Grafické soubory, které odpovídají vždy jednotlivým stránkám nyní sestavíme do jednoho PDF souboru. Použijeme k tomu Adobe Acrobat (dále jen AA). Postup je mírně odlišný podle verzí tohoto programu. Společné je to, že jde označit najednou více souborů a že je musíme myší označit směrem od posledního k prvnímu tak, aby bylo pořadí stránek správné. V AA4, AA6 a AA7 lze označit všechny soubory najednou, v AA5 je to nutno provést ve 2 krocích.

Adobe Acrobat 4 - "File", "Import", "Image", zde označíme všechny soubory a uložíme jako PDF

Adobe Acrobat 5 - "File", "Open as Adobe PDF", nyní otevřeme pouze první stránku a znovu "File", "Open as Adobe PDF", označíme stránky směrem od poslední směrem ke druhé stránce a zvolíme "Append to Current Document". Pokud vytváříme více PDF souborů najednou, pak při dalším označení první stránky musíme zvolit "Create New Document", atd.

Adobe Acrobat 6 a 7 - "File", "Create PDF", "From Multiple Files", Add Files (Browse) označíme všechny soubory směrem od posledního k prvnímu a zadáme "Add".



Poznámka: V roce 2004 se objevila nová verze AA7, která má proti verzi AA6 několik zásadních vylepšení.
1) Mnohem rychleji nabíhá
2) Nepadá při konverzi z Wordu do PDF při použití fontu 1echecs.ttf
3) Funkce "Recognize Text Using OCR" umožňuje převést skenované stránky tak, že sice zůstanou v grafické podobě, ale lze v nich pak textově vyhledávat! Funkcí search jde pak dokonce vyhledávat daný textový řetězec přes všechny PDF soubory ve zvoleném adresáři. Bohužel zatím není podporována čeština (ale dobře funguje pro angličtinu, němčinu i francouzštinu). Přesto je to skvělá funkce, která dává skenovaným souborům novou dimenzi (a byla už použita např. při skenování studiového časopisu EG)

Proto doporučuji používat buď verzi AA5 nebo AA7. Verzi AA6 je dobré přeskočit...
I recommend versions AA5 or AA7, not AA6 (have slow start and crashed in conversion from Microsoft Word to PDF if chess font 1echecs.ttf used.)


Adobe Acrobat 6 a 7 - PDF optimizer

Verze 6 (i 7) přinášejí proti předchozím verzím řadu nových možností (testování bylo prováděno v roce 2003 s AA6, verze AA7 nepřináší z hlediska optimalizace proti verzi AA6 téměř nic nového.) V menu "Advanced" můžeme zvolit položku "PDF optimizer". Parametrů je tolik, že je až obtížné se v tom správně zorientovat a nezpůsobit špatným nastavením parametrů snížení kvality pracně naskenovaných publikací. Také je třeba dát pozor na čitelnost vytvořených PDF souborů staršími verzemi AA.
Poznámka: pokud vytváříme PDF pomocí AA4 nebo AA5, žádná nastavení nejsou nutná a kvalita předlohy je zachována. Výstupní soubor je však větší. Pokud se někdo nechce zabývat nastavováním parametrů v AA6 a chce získat kvalitní PDF soubor, doporučuji používat k sestavení AA5.

V AA6 je třeba dát pozor hlavně na to, že předdefinované hodnoty nezachovávají zpětnou kompatibilitu s AA4, dochází ke ztrátě kvality snížením dpi všech obrázků nad 450 dpi na 300 dpi a navíc je použita ztrátová komprese JBIG2 (Lossy). Tím sice vznikne extrémně malý soubor, dosahující jen 16% původní velikosti, ale také dojde ke značné ztrátě kvality. Pro řadu dokumentů to bude jistě postačující, ale pro šachové diagramy je to naprosto nevhodné, zvláště pokud byly skenovány na 600 dpi.

Vytvořil jsem testovací soubor, který měl 3 stránky a obsahoval kombinaci diagramů různých velikostí. Byl skenovaný na 600 dpi a původně sestavený pomocí AA4. Zde jsou výsledky při použití "PDF optimizeru" v AA6.

Program"compatible with"downsampling dpicompressionsizerelative sizequalityreadable with AA4
AA4600895777100%excellentyes
AA6AA460089294599.6%excellentyes
AA6AA430045651850.9%badyes
AA6AA630014709616.4%badno
AA6AA6600Lossy27836631.0%goodno
AA6AA6600LossLess43675048.7%excellentno
Poznámka: soubory z AA6 jsou většinou čitelné i pomocí AA5, ale při pokusu o otevření takového souboru se objeví varovná hláška, že se nemusí zobrazit správně. Moje zkušenost je taková, že soubory sestavené pouze ze skenovaných TIFů a vygenerované pomocí AA6 jsou v AA5 čitelné správně.


Podle výsledků z experimentů doporučuji změnit nastavení pro "Monochrome Images", "Bicubic Downsampling to 300 ... for images above 450" na 600, "Compression JBIG2" změnit "Quality" z "Lossy" na "LossLess".



Pokud chceme, aby naše soubory byly čitelné i pomocí AA4, zvolíme navíc "Compatible with Acrobat 4.0 and later". Tento parametr nechávám na uvážení a v principu jej doporučuji (i za cenu větší velikosti souborů). Je třeba poznamenat, že AA4 je jediná verze, která si (ve spolupráci s Wordem) dobře rozumí s šachovým fontem 1ECHECS.TTF. Při přechodu na AA5 nebo AA6 nejde správně vygenerovat PDF soubor z DOC souboru. V kombinaci s Windows XP dokonce v tomto případě AA6 skončí crashem. Takže pokud toto potřebujeme, zůstaňme raději u AA4.

Nyní můžete posoudit kvalitu podle zvolených parametrů, šikovným nástrojem v AA6 je i "Loupe tool"

3 (větší) diagramy vedle sebe na stránce
600 dpi, LossLess600 dpi, Lossy300 dpi
600 dpi, LossLess600 dpi, Lossy300 dpi

Za zmínku stojí porovnání parametrů
JBIG2 Lossy (=ztrátová komprese)
a
JBIG2 LossLess (=neztrátová komprese, 100% zachování kvality)

Při použití "Lossy" dojde dokonce k vyčištění linek šrafování diagramů. Pro větší diagramy však vzniknou různé vzdálenosti mezi linkami ve šrafování, což nepůsobí esteticky dobře. Pro malé diagramy (viz níže) je výsledek dobrý. Poměr mezi Lossy a LossLess je sice asi 2/3, ale moc to nedoporučuji.


5 (malých) diagramů vedle sebe na stránce
600 dpi, LossLess600 dpi, Lossy300 dpi
600 dpi, LossLess600 dpi, Lossy300 dpi


Závěr:
1) pokud oželíme zpětnou kompatibilitu s AA4, dostaneme při stejné kvalitě pomocí AA6 zhruba poloviční soubor.

2) Přechod na nižší dpi než má skenovaná předloha v žádném případě nedoporučuji, dojde sice k výraznému zmenšení velikosti souboru (tímto faktorem zhruba na 1/2, v kombinaci s "Lossy" dokonce až 1/6), ale zhoršení kvality je značné.

3) Ani ztrátovou kompresí spíše nedoporučuji.

A rada na závěr. Dobré je po skenování zálohovat původní TIFy nebo aspoň nejprve sestavit v nejlepší kvalitě pro AA4 a 600 dpi. Takový soubor lze pak vždy ještě znovu optimalizovat, ale obráceně je to nevratné.