Tutorial PDF in Epub

Briss über die Datei „briss-0.0.9“ starten. Auf „Load File“ klicken und die gewünschte PDF-Datei auswählen. Warten bis das Programm die Datei geladen hat. Nun seht ihr oben und unten jeweils einen „Seitenstapel“. Ihr zieht einmal oben und einmal unten einen Rahmen um den Text, mit einem Textabstand von circa 0,5 – 2 Zentimeter. Wichtig hierbei sind zwei Dinge, und zwar, dass ihr erstens darauf achtet, dass beide Fenster in etwa gleich groß sind. Dies müsst ihr manuell machen. Zweitens achtet darauf, dass ihr störende Dinge, wie z.B. Seitenzahlen, Verzierungen oder andere außerhalb des Textes liegende Sachen, außerhalb des Kästchens lasst und somit abschneidet. Klickt anschließend auf „Crop PDF“ und speichert es an einen wiederfindbaren Ort ab.

Finereader 10 starten und „PDF/Bilder zu Microsoft Word konvertieren“ anklicken

Folgende Einstellungen sind beizubehalten

JPEG Einstellungen sollten auf 95% stehen und das sowohl bei JPEG, Farbe, als auch bei JPEG, Grau - auch für die PNGs sollte der Slider auf der selben Position stehen. 96dpi sind für ein eBook vollkommen ausreichend und verhindert, dass Bilder zu groß dargestellt werden.

Nun die gecroppte PDF-Datei auswählen und auf „Öffnen“ drücken. Das Dokument wird nun eingelesen. Wenn es fertig ist, öffnet sich eine Word Datei mit dem eingescannten Dokument. Diese könnt ihr ohne zu speichern schließen. Nun hat man unten folgendes Bild vor sich. Hier ist es nun wichtig, dass man sich unter anderem die Seiten ansieht, bei denen es Probleme gab (Symbol: Gelbes Dreiecksschild mit „!“). Man löscht die Seiten die man für unnötig hält - Hierfür linke Seite auswählen, Seite mit Linksklick markieren und auf „Entf“ auf der Tastatur klicken – oder korrigiert manuell die Erkennungsbereiche nach. Bei komplexeren grafischen Formatierungen, wie hier das Titelbild (Seite 1) am besten etwaige Textstellen (Grüne Kästchen) mit „Entf“ löschen und anschließend aufs „Bild“-Symbol klicken. Nun einen roten Rahmen über die ganze Seite, oder einzelne Elemente ziehen und somit diese im nächsten Schritt als Bild (und nicht als Text) in das Dokument einlesen lassen – selbiges gilt für Tabellen auch hier ist das „einlesen lassen“ als Bild zu bevorzugen. Formatierungen wie der Text auf (Seite 3) sind für Finereader dann kein Problem mehr.

Hat man sich in der linken Spalte durch das Dokument gearbeitet und alle zweifelhaften Erkennungsbereiche korrigiert, klick man oben auf „Lesen“ und das Dokument wird erneut mit den Änderungen eingelesen.

Oft zahlt es sich aus danach noch einmal – zumindest kurz, überflugsartig – über den eingelesenen Text (rechte Spalte) zu gehen und einen Blick auf die Text-Unsicherheiten zu werfen die beim Einlesen aufgetreten sind (werden von Finereader farbig markiert). Um Seiten mit besonders vielen Unsicherheiten schnell zu finden, kann man das Seitenauswahlfenster (über Rechtsklick/Seitenfensteransicht/oben) kurzfristig von links nach oben verlagern, wodurch man die Erkennungsgenauigkeit jeder einzelnen Seite aufgelistet bekommt. So kann man schnell dort nacharbeiten, wo Fehler gehäuft auftreten.

Hier ein kleines Beispiel für so einen Fehler (der in diesem Fall nicht farbig markiert war, passiert aber verschwindend selten):

Im Text selbst steht das Wort „Ceausescu“ (wobei das „s“ eigentlich ein Sonderzeichen darstellt, etwas kyrillisches – wies scheint :) ) und im erkannten Text steht „Ceau§escu“, was so nicht stehen gelassen werden sollte. Um das zu beheben, geht man auf die rechte Seite und drückt „STRG-H“ und gibt oben den zu suchenden Begriff ein, ersetzt ihn durch den gewünschten und wählt dann „Alle Ersetzen“ aus. Wichtig ist noch, dass man es sowohl einmal „nach unten“ durchlaufen lässt, wie auch einmal „nach oben“, da man den Fehler ja nicht an erster Stelle entdeckt haben muss.

Vereinfacht kann man natürlich auch, merkte man das ein Sonderzeichen häufig vorkommt und daher Finereader ein anderes Zeichen wählt (hier das „§“ Zeichen), nach dem entsprechenden Zeichen suchen und dieses dann umändern, hier sucht man also nach „§“ und kann dann alle Änderungen tätigen. Derartige Erkennungsfehler haben die Tendenz in kryptischen Zeichen zu enden, was garnicht mal so schlecht ist. :)

Wichtig bleibt dabei, dass man Änderungen am erkannten Text immer erst vornimmt, nachdem man bereits die Änderungen an der Layouterkennung (linke Spalte) vorgenommen hat. Ändert man das Erkennungslayout (links) nochmal, nachdem man Änderungen am erkannten Text vorgenommen hat, gehen diese verloren.

Darum Finger weg vom in Punkt 5 im Bild markierten „Lesen“ Knopf, sobald man ihn bereits einmal angeklickt hat. Sollte ein erneutes Einlesen einer Seite notwendig werden, liest man nur diese Seite (Rechtsklick auf die große Seite in der linken Spalte) nochmal erneut ein – NIE jedoch das ganze Dokument. So gehen im Zweifelsfall maximal die Änderungen am erkannten Text einer Seite und nicht des gesamten Dokuments verloren.

Hat man dies erledigt, klickt man nun auf „Speichern“. Wählt aus Ausgabeformat „HTML“-File aus und speichert das Ganze in einem Ordner, welchen man zum späteren Gebrauch auch wiederfindet. In den nächsten Dokumenten muss man HTML-Datei nicht erneut auswählen, das Programm merkt sich diesen Schritt.

Wichtig! Der Dateiname sollte keinen Umlaut enthalten - sonst führt das später bei der Konvertierung in Calibre zu einer Fehlermeldung.

Die nun gespeicherte Datei beziehungsweise Ordnerstruktur sieht wie folgt aus. Es handelt sich um eine HTML-Datei und einen Ordner mit Bildern und der Style-Datei (.css). Die wichtigste Komponente ist das HTML-File, welches hier als Firefox-Dokument erkannt wird, da dies mein Standard-Browser ist – aber auch der Ordner und sein Inhalt haben ihre Funktion, darum müssen die beiden immer „zusammen bleiben“. :)

Nun öffnet man das Programm „Sigil“ und öffnet die HTML-Datei, welche man gerade gespeichert hatte. Im rot-umrandeten Fenster kickt man auf der Tastatur „F11“, welche den Bearbeitungsmodus (Quellcodeansicht) anwählt. Nun klickt man auf die gelb-umrandete Datei (im Styles Ordner) und die Style-Datei (.css) wird parallel dazu geöffnet. Die brauchen wir jedoch erst später, also wechseln wir vorerst einmal wieder zu der .htm Datei in der sich der Hauptteil unseres Buches befindet.

Sollte man den Bearbeitungsmodus (Quellcodeansicht) wieder verlassen wollen, geht das über „F9“.

Wieder in der Quellcode-Ansicht der html-Datei (Gelb markierten Bereich) drückt man „STRG + H“ und geht wie folgt vor:

- Man geht unter „Search Mode“ und wählt „Regular expression“ aus

- Man sucht im html Quelltext unter dem Strg+H Fenster nach dem „fontNUMMER“ Eintrag, welcher zu 90 Prozent im Text vorkommt, wenn man ein bisschen nach unten scrollt, sollte er einem sofort ins Auge fallen. In diesem Beispiel ist es „font3“.

- Man gibt folgenden Code bei „Find what“ (in einer langen Textzeile) ein:

((<a id="bookmark\d"></a>){0,1}(\s*|\S*){1,15}\s*

- Wichtig hierbei ist, dass ihr die beiden rot markierten Textpassagen mit eurem meist vorkommenden Font ersetzt, wie gesag, hier ist es “font3” – in eurem Fall aber meist eine andere.

- Nun gebt ihr bei „Replace with“ folgenden Code ein:

\1 font3">

- Wichtig hierbei ist wieder, dass ihr den rot markierten Bereich mit eurem Font ersetzt

- Nun klickt ihr auf „Replace all“ und ihr bekommt eine Meldung, wie oft es ersetzt wurde

Mit diesem Schritt habt ihr die jeweils ersten Absätze (nach Überschriften) durch eine Verdopplung eines Designeintrags (hier: font3) „markiert“.

Im nächsten Schritt sucht ihr (strg+F) im Quelltext nach font3 font3 - den 3er hier wieder durch die Nummer eures Fließtext-fonts ersetzen.

Diese „verdoppelten font3“ Einträge sind, wie beschrieben, eben erst durch das Durchlaufen der ersten Ersetzung (Punkt 10) entstanden. Sie verhindern, dass der Absatz in dem sie auftauchen mit dem vorhergehenden Absatz (meist Überschrift) im letzten RegEx Ersetzungsschritt (Punkt 12) zusammengelegt wird.

Ihr solltet alle font3 font3 Einträge direkt im Tag des Paragraphen direkt NACH einer Überschrift finden. Befindet sich ein solcher Eintrag erst im zweiten oder dritten Paragraphen nach einer Überschrift, löscht ihr dort EIN font3 und fügt es manuell beim ersten Paragraphen nach der Überschrift im tag hinzu, sodass dieser wie folgt aussieht:

Text des ersten Paragraphen(=Absatz) nach einer Überschrift

Der 3er ist auch hier nur ein Beispiel und steht für die Fontnummer des Fließtexts (die, die zu 90% im Quellcode vorkommt).

(Im obenstehenden Beispiel (Bild) war die Standard Fließtext Font font 9.
2. Ist im Beispiel eine Überschrift, der verdoppelte font Eintrag steht im span Tag im Paragraphen NACH der Überschrift – somit stimmt hier alles, ein manuelles Nachkorrigieren ist bei dieser Überschrift nicht notwendig.)

Nochmals: Der Sinn dieser Verdopplung an der richtigen Stelle ist folgender: Sie verhindert, dass der Paragraph in dem sie auftaucht mit dem vorherigen zusammengelegt wird. Desshalb sollte sie immer in den Paragraphen direkt nach Überschriften stehen.

Zusammengelegt werden die Paragraphen da man im zweiten RegEx Schritt (Punkt 12) gezielt nach Paragraphen ohne Satzendzeichen sucht und diese mit dem Folgeabsatz zusammenlegt.

Überschriften haben ebenfalls nur selten ein Satzendzeichen sollten aber NIE in das Zusammenlegen miteinbezogen werden (Das Resultat wäre ein erster Absatz am Kapitelbeginn, der die Formatierung der Überschrift trägt (groß, fett, …) – und das wollen wir nicht.).

Das manuelle Nachkorrigieren (nach font3 font3 suchen (3 durch die eigene Fließtextfont ersetzen)) macht man, um Fälle zu finden in denen die ersten Paragraphen nicht "vor Überschriften geschützt" sind - Findet man Einzelfälle in denen das der Fall ist, korrigiert man das manuell nach (in dem ihr den Font-tag im „span“ Eintrag des Paragraphen NACH einer Überschrift verdoppelt (und den unnötigen font3 Eintrag wo anders - findet sich dann meist einen oder zwei Paragraphen später im Text - löscht).

Nun drückt ihr wieder „STRG H“ und gebt die letzte RegEx ein:

- Der Code für „Find what“ ist folgender:

([^(.|?|!|<|>|«|"|:|“)])\s*

- Wobei wieder rot markierter Textbereich mit eurem Font ersetzt werden muss, hier also “font3”

- Der Code für „Replace with“ ist folgender:

\1LEERZEICHEN

- Wobei „LEERZEICHEN“ nicht ausgeschrieben wird, sondern mit einem tatsächlichen Leerzeichen ersetzt wird, er gebt also \1 direkt gefolgt von SPACE ein.

- Klickt nun wieder „Replace All“

Dadurch hab ihr jetzt alle durch neue Seiten im Originalbuch entstandenen, unnötigen neuen Absätze (die Sätze auseinanderreißen) im Fließtext (= Text ohne Sonderformatierung) entfernt.

Dazu erst mal „Gratulation“. :)

Der nun folgende Schritt dient dazu, die Abstände zwischen zwei Absätzen im Text zu verkleinern. Von sich aus beträgt der Abstand eine volle Zeilenhöhe, was für wenig tatsächlichen Text auf einer Seite am eReader sorgt. Zum Erkennen eines neuen Absatzes reicht schon ein etwas kleinerer Abstand bereits vollkommen aus.

Ihr wechselt in den Style-Sheet (.css) und gebt den gelb markierten und unten aufgeführten Code ein:

body{margin-left:5%;margin-right:5%;margin-top:5%;margin-bottom:5%}
p{text-indent:0;margin-left:0;margin-right:0;margin-top:0;margin-bottom:10pt}

- Die rot markierte “10pt” bezeichnet hier den Abstand zwischen zwei Paragraphen/Absätzen. Am Besten Ihr probiert hier selbstständig ein bisschen herum. Ich nehme meistens die „9“, dann liegen sie eher beieinander, aber das ist letztlich ja Geschmackssache. Das Resultat hiervon seht ihr immer erst am eReader - das beim Ausprobieren bedenken. :)

- Alternative: Möchte man “Indents” (Einschübe am Anfang jedes Paragraphen), anstatt eines Abstandes zwischen zwei Paragraphen haben, setzt man bei margin-bottom anstatt der 10pt eine 0 (um die Abstände vollkommen zu eliminieren), und setzt bei text-indent anstatt der 0 zB eine 0.4em - die 0.4 kann abgeändert werden um den Einschub zu vergrößern, oder zu verkleinern. Wie “gut” das funktioniert, hängt letztlich von der Darstellung des eReaders ab. :)

Nun drückt ihr auf „File“ und „Save as“, gebt euren Dokumentennamen ein und wählt als Datei-Format „Epub“ aus. Um irgendwann den Überblick nicht zu verlieren bietet sich ein einheitliches Format an zB. „Nachname, Vorname – BUCHNAME“.

Wichtig! Der Dateiname sollte keinen Umlaut enthalten - sonst führt das später bei der Konvertierung in Calibre zu einer Fehlermeldung.

Dann auf speichern und eure Epub-Datei steht fürs Erste. (Yeay! :) )

Öffnet nun „Calibre“, zieht „eure“ Epub-Datei mit Linksklick in Calibre hinein, wartet bis sie vom Programm geladen wurde. Klickt mit rechter Maustaste drauf, wählt „Vorschau“ und „Vorschau bestimmten Dateityps“. Wählt nun „Epub“ und begutachtet eure Datei. Solltet ihr noch etwas ändern wollen, ladet sie erneut in „Sigil“. Am einfachsten geht das über die Rechtsclickoption „Öffne Speicherort“ – dorthin hat Calibre eure Epub-Datei nämlich hinverfrachtet.

Nun Rechtsklick auf die Datei, „Metadaten bearbeiten“ und „Metadaten einzeln bearbeiten“. Dann klickt ihr auf „Metadaten vom Server abrufen“ und dann auf „Download cover“. Klickt auf „OK“ und fertig ist eure Epub-Datei.

Sollte Calibre einmal keine automatischen Informationen zu eurem Buch finden, könnt ihr die einzelnen Felder selbstverständlich auch per Hand ausfüllen.

Falls euer eReader ePUB nicht beherrscht: Klickt links oben auf „Konvertiere Bücher“. Wählt euer Format aus, für Kindle zum Beispiel „mobi“ und klickt auf „OK“. Wartet ein bisschen bis das Programm seine Aufgabe erledigt hat und fertig ist euer ganz eigenselbst erstelltes eBook. :)