Kapitel 11. Datenkonvertierung

Inhaltsverzeichnis

11.1. Werkzeuge für Textkonvertierung
11.1.1. Konvertieren einer Textdatei mit iconv
11.1.2. Prüfen mit iconv, ob eine Datei UTF-8-kodiert ist
11.1.3. Dateinamen konvertieren mit iconv
11.1.4. EOL-Konvertierung
11.1.5. TAB-Konvertierung
11.1.6. Editoren mit automatischer Konvertierung
11.1.7. Extrahieren von reinem Text
11.1.8. Hervorheben und Formatieren von reinen Textdaten
11.2. XML-Daten
11.2.1. Grundlegende Hinweise für XML
11.2.2. XML-Verarbeitung
11.2.3. Extrahierung von XML-Daten
11.2.4. XML Lint
11.3. Textsatz
11.3.1. roff-Textsatz
11.3.2. TeX/LaTeX
11.3.3. Schöner Ausdruck einer Handbuchseite
11.3.4. Erstellen einer Handbuchseite
11.4. Druckfähige Daten
11.4.1. Ghostscript
11.4.2. Zwei PS- oder PDF-Dateien zusammenführen
11.4.3. Werkzeuge für druckfähige Daten
11.4.4. Drucken mit CUPS
11.5. Konvertierung von Mail-Daten
11.5.1. Grundlagen zu Mail-Daten
11.6. Werkzeuge für Grafikdaten
11.6.1. Graphic data tools (metapackage)
11.6.2. Graphic data tools (GUI)
11.6.3. Graphic data tools (CLI)
11.7. Verschiedene Datenkonvertierungen

Hier werden Werkzeuge und Tipps für die Umwandlung von Dateien in andere Formate beschrieben.

Bei Werkzeugen für auf Standards basierende Formate ist die Situation sehr gut, aber bei proprietären Formaten sind die Möglichkeiten eingeschränkt.

Folgende Pakete zur Textkonvertierung sind mir aufgefallen:


[Tipp] Tipp

iconv(1) ist Teil des libc6-Pakets und immer auf nahezu allen Unix-artigen Systemen für die Änderung der Zeichenkodierung verfügbar.

Sie können die Kodierung einer Textdatei wie folgt mit iconv(1) ändern:

$ iconv -f encoding1 -t encoding2 input.txt >output.txt

Bei den Werten für die Kodierung ist die Groß-/Kleinschreibung nicht relevant, "-" und "_" werden ignoriert. Mit "iconv -l" können Sie überprüfen, welche Kodierungen unterstützt werden.

Tabelle 11.2. Liste von Werten für die Zeichenkodierung und deren Verwendung

Wert für Zeichenkodierung Verwendung
ASCII American Standard Code for Information Interchange, 7-Bit-Code ohne akzentuierte Zeichen
UTF-8 aktueller multilingualer Standard für alle modernen Betriebssysteme
ISO-8859-1 alter Standard für westeuropäische Sprachen; ASCII + akzentuierte Zeichen
ISO-8859-2 alter Standard für osteuropäische Sprachen; ASCII + akzentuierte Zeichen
ISO-8859-15 alter Standard für westeuropäische Sprachen; ISO-8859-1 + Euro-Zeichen
CP850 Codepage 850, Microsoft-DOS-Zeichen mit Grafiken für westeuropäische Sprachen, Variante von ISO-8859-1
CP932 Codepage 932, Shift-JIS-Variante für Japanisch (angelehnt an Microsoft Windows)
CP936 Codepage 936, GB2312-, GBK- oder GB18030-Variante für vereinfachtes Chinesisch (angelehnt an Microsoft Windows)
CP949 Codepage 949, EUC-KR- oder Unified-Hangul-Code-Variante für Koreanisch (angelehnt an Microsoft Windows)
CP950 Codepage 950, Big5-Variante für traditionelles Chinesisch (angelehnt an Microsoft Windows)
CP1251 Codepage 1251, Kodierung für das kyrillische Alphabet (angelehnt an Microsoft Windows)
CP1252 Codepage 1252, ISO-8859-15-Variante für westeuropäische Sprachen (angelehnt an Microsoft Windows)
KOI8-R alter russischer UNIX-Standard für das kyrillische Alphabet
ISO-2022-JP Standard-Kodierung für japanische E-Mails, die nur 7-Bit-Codes verwenden
eucJP alter japanischer UNIX-Standard-Code (8-Bit), völlig verschieden von Shift-JIS
Shift-JIS Standard für Japanisch gemäß JIS X 0208 Anhang 1 (siehe auch CP932)

[Anmerkung] Anmerkung

Einige der obigen Kodierungen werden nur für die Konvertierung unterstützt und nicht als Wert für das Gebietsschema (Locale) (Abschnitt 8.1, „Das Gebietsschema (Locale)“).

Bei Zeichensätzen, die nur ein einziges Byte benötigen (wie ASCII und ISO-8859), entspricht die Zeichenkodierung nahezu dem Zeichensatz.

Bei Zeichensätzen mit vielen Zeichen (wie JIS X 0213 für Japanisch oder Universal Character Set (UCS, Unicode, ISO-10646-1) für praktisch alle Sprachen) gibt es viele Kodierungsschemata, die in die Sequenz der Byte-Daten eingepasst werden:

Bei diesen gibt es klare Differenzierungen zwischen Zeichensatz und Zeichenkodierung.

Die Codepage wird als Synonym für einige hersteller-spezifische Zeichenkodierungstabellen verwendet.

[Anmerkung] Anmerkung

Bitte beachten Sie, dass die meisten Kodierungssysteme sich bei den 7-Bit-Zeichen identischen Code mit ASCII teilen, aber es gibt einige Ausnahmen. Wenn Sie alte japanische C-Programme und URLs aus dem Shift-JIS genannten Kodierungsformat nach UTF-8 konvertieren, müssen Sie "CP932" als Kodierungsname statt "shift-JIS" verwenden, um die erwarteten Resultate zu bekommen: 0x5C → "\" und 0x7E → "~". Andernfalls werden diese falsch konvertiert.

[Tipp] Tipp

recode(1) kann ebenfalls verwendet werden und bietet mehr als die kombinierte Funktionalität von iconv(1), fromdos(1), todos(1), frommac(1) und tomac(1). Weitere Informationen finden Sie unter "info recode".

Hier ein Beispielskript, um die Kodierung für alle Dateinamen in einem Verzeichnis von einer auf einem älteren Betriebssystem erzeugten Form in das moderne UTF-8 zu konvertieren:

#!/bin/sh
ENCDN=iso-8859-1
for x in *;
 do
 mv "$x" "$(echo "$x" | iconv -f $ENCDN -t utf-8)"
done

Die "$ENCDN"-Variable gibt dabei die Original-Kodierung (gemäß Tabelle 11.2, „Liste von Werten für die Zeichenkodierung und deren Verwendung“) an, die in dem älteren Betriebssystem für die Dateinamen verwendet wurde.

In komplizierteren Fällen binden Sie bitte ein Dateisystem, das solche Dateinamen enthält (z.B. eine Festplattenpartition), mit korrekter Angabe der Dateinamenkodierung als Option zum mount(8)-Befehl ein (lesen Sie dazu Abschnitt 8.1.3, „Dateinamenkodierung“), und kopieren Sie mit "cp -a" den vollständigen Inhalt der Partition in ein anderes Dateisystem, das als UTF-8 eingebunden ist.

Moderne Editoren wie vim sind sehr clever und können mit jeglichen Kodierungssystemen und Dateiformaten umgehen. Für beste Kompatibilität sollten Sie diese Editoren mit einem UTF-8-Gebietsschema in einer UTF-8-tauglichen Konsole verwenden.

Eine alte westeuropäische Unix-Textdatei "u-datei.txt", gespeichert in der alten latin1-Kodierung (ISO-8859-1), kann mit vim einfach wie folgt bearbeitet werden:

$ vim u-file.txt

Dies ist möglich, da die automatische Erkennung der Dateikodierung in vim zunächst von einer UTF-8-Kodierung ausgeht und, falls dies fehlschlägt, latin1 verwendet.

Eine alte polnische Unix-Textdatei "pu-datei.txt", gespeichert in der alten latin2-Kodierung (ISO-8859-2), kann mit vim wie folgt bearbeitet werden:

$ vim '+e ++enc=latin2 pu-file.txt'

Eine alte japanische Unix-Textdatei "ju-datei.txt", gespeichert in der eucJP-Kodierung, kann mit vim wie folgt bearbeitet werden:

$ vim '+e ++enc=eucJP ju-file.txt'

Eine alte japanische MS-Windows-Textdatei "jw-datei.txt", gespeichert in der sogenannten Shift-JIS-Kodierung (präziser: CP932), kann mit vim wie folgt bearbeitet werden:

$ vim '+e ++enc=CP932 ++ff=dos jw-file.txt'

Wenn eine Datei mit den Optionen "++enc" und "++ff" geöffnet wird, speichert ":w" in der Vim-Befehlszeile sie im Originalformat ab und überschreibt die Originaldatei. Sie können auch das zum Speichern zu nutzende Format und den Dateinamen mit angeben, z.B. ":w ++enc=utf8 neu.txt".

Bitte lesen Sie den Abschnitt zum "Multi-byte text support" (mbyte.txt) in der vim-Online-Hilfe sowie Tabelle 11.2, „Liste von Werten für die Zeichenkodierung und deren Verwendung“ für Infos, welche Locale-Werte mit der "++enc"-Option genutzt werden können.

Die emacs-Programmfamilie bietet ähnliche Funktionalitäten.

Reine Textdaten können mit folgenden Befehlen hervorgehoben und formatiert werden:


Die Extensible Markup Language (XML) ist eine Markup-Sprache für Dokumente mit Strukturinformationen.

Einführende Informationen finden Sie unter XML.COM:

Ein XML-Text sieht ein wenig wie HTML aus. XML ermöglicht es uns, verschiedene Ausgabeformate für ein und dasselbe Dokument zu verwalten. Ein einfaches XML-System ist docbook-xsl,das auch für dieses Dokument verwendet wird.

Jede XML-Datei beginnt mit einer Standard-XML-Deklaration wie der folgenden:

<?xml version="1.0" encoding="UTF-8"?>

Die grundlegende Syntax für ein XML-Element ist wie folgt gekennzeichnet:

<name attribute="value">content</name>

Die Kurzform für ein XML-Element mit leerem Inhalt ist wie folgt:

<name attribute="value" />

Das "attribute="Wert"" in obigen Beispielen ist optional.

Ein Kommentar-Abschnitt wird in XML wie folgt gekennzeichnet:

<!-- comment -->

Anders als beim Hinzufügen von Markierungen (Markups) erfordert XML minimale Konvertierungen am Inhalt, um vordefinierte Entitäten für die folgenden Zeichen zu nutzen:


[Achtung] Achtung

"<" oder "&" können nicht in Attributen oder Elementen verwendet werden.

[Anmerkung] Anmerkung

Wenn anwenderdefinierte Entitäten im SGML-Stil verwendet werden, wie z.B. "&irgendein-begriff;", wird die erste Definition gegenüber darauffolgenden bevorzugt. Die Entität wird in Form von "<!ENTITY irgendein-begriff "Wert der Entität">" definiert.

[Anmerkung] Anmerkung

Solange die XML-Markierungen konsistent mit einer bestimmten Art von Namen für diese Markierungen (entweder Daten als Inhalt oder Attributwert) ausgeführt sind, ist die Konvertierung in eine andere XML-Form mittels Extensible Stylesheet Language Transformations (XSLT) eine banale Aufgabe.

Es gibt viele Werkzeuge zur Verarbeitung von XML-Dateien, wie z.B. die Extensible Stylesheet Language (XSL).

Grundsätzlich ist es so, dass Sie eine korrekt formatierte XML-Datei mittels Extensible Stylesheet Language Transformation (XSLT) in jegliches Format umwandeln können.

Extensible Stylesheet Language for Formatting Objects (XSL-FO) ist eine Lösung zur Formatierung. Das fop-Paket ist (aufgrund seiner Abhängigkeit zur Java-Programmiersprache) neu in Debians main-Archiv. Daher wird im Allgemeinen LaTEX-Code mittels XSLT aus XML erstellt und das LaTEX-System dann verwendet, um druckfähige Dateien wie DVI, PostScript oder PDF zu erzeugen.


Da XML eine Untermenge der Standard Generalized Markup Language (SGML) ist, kann es mit den umfangreichen Werkzeugen, die für SGML verfügbar sind (wie der Document Style Semantics and Specification Language (DSSSL)) verarbeitet werden.


[Tipp] Tipp

GNOMEs yelp ist manchmal praktisch, da es DocBook-XML-Dateien ohne Konvertierung direkt vernünftig darstellen kann.

Das Unix-Programm troff, ursprünglich von AT&T entwickelt, kann für einfachen Textsatz verwendet werden. Es wird normalerweise genutzt, um Handbuchseiten (manpages) zu erzeugen.

TeX, entwickelt von Donald Knuth, ist ein sehr leistungsfähiges Textsatz-Werkzeug und der De-Facto-Standard. LaTeX (ursprünglich geschrieben von Leslie Lamport) ermöglicht einen sehr hochentwickelten Zugriff auf die Fähigkeiten von TeX.


Traditionell ist roff das Haupt-Unix-System zur Textverarbeitung. Lesen Sie roff(7), groff(7), groff(1), grotty(1), troff(1), groff_mdoc(7), groff_man(7), groff_ms(7), groff_me(7), groff_mm(7) und "info groff".

Sie bekommen eine gute Einführung und Referenz zum "-me"-Makro in "/usr/share/doc/groff/", wenn Sie das groff-Paket installiert haben.

[Tipp] Tipp

"groff -Tascii -me -" erzeugt reinen Text mit ANSI-Escape-Sequenzen. Wenn Sie eine Ausgabe ähnlich zu den Handbuchseiten mit vielen "^H" und "_" möchten, verwenden Sie stattdessen "GROFF_NO_SGR=1 groff -Tascii -me -".

[Tipp] Tipp

Um "^H" und "_" aus einer mit groff erzeugten Textdatei zu entfernen, filtern Sie diese mit "col -b -x".

Die TeX Live-Software-Distribution stellt ein vollständiges TeX-System bereit. Das texlive-Metapaket enthält eine sinnvolle Auswahl von TeX Live-Paketen, die für die meisten Aufgaben ausreichend sein sollten.

Es gibt viele Ressourcen für TeX und LaTeX:

  • The teTeX HOWTO: The Linux-teTeX Local Guide;

  • tex(1);

  • latex(1);

  • texdoc(1);

  • texdoctk(1);

  • "The TeXbook", von Donald E. Knuth (Addison-Wesley);

  • "LaTeX - A Document Preparation System", von Leslie Lamport (Addison-Wesley);

  • "The LaTeX Companion", von Goossens, Mittelbach, Samarin (Addison-Wesley).

TeX/LaTeX ist die leistungsfähigste Textsatz-Umgebung. Viele SGML-Prozessoren nutzen es im Hintergrund zur Textverarbeitung. Lyx aus dem lyx-Paket sowie GNU TeXmacs aus dem texmacs-Paket bieten eine nette WYSIWYG-Umgebung zum Editieren von LaTeX-Dokumenten, zu der viele Leute Emacs oder Vim als Quelltext-Editor wählen.

Es sind viele Online-Ressourcen verfügbar:

Wenn die Dokumente größer werden, kann TeX eventuell Fehler verursachen. Sie müssen dann die Pool-Größe in "/etc/texmf/texmf.cnf" erhöhen (oder editieren Sie besser "/etc/texmf/texmf.d/95NonPath" und führen update-texmf(8) aus), um dieses Problem zu beheben.

[Anmerkung] Anmerkung

The TeX source of "The TeXbook" is available at www.ctan.org tex-archive site for texbook.tex. This file contains most of the required macros. I heard that you can process this document with tex(1) after commenting lines 7 to 10 and adding "\input manmac \proofmodefalse". It's strongly recommended to buy this book (and all other books from Donald E. Knuth) instead of using the online version but the source is a great example of TeX input!

Druckfähige Daten werden im Debian-System im PostScript-Format dargestellt. CUPS (Common Unix Printing System) verwendet Ghostscript als Rasterizer-Backend-Programm für Drucker, die selbst kein PostScript interpretieren können.

Printable data may also be expressed in the PDF format on the recent Debian system.

PDF files can displayed and its form entries may be filled using GUI viewer tools such as Evince and Okular (see Abschnitt 7.4, „GUI-Anwendungen“); and modern browsers such as Chromium.

PDF files can be edited using some graphics tools such as LibreOffice, Scribus, and Inkscape (see Abschnitt 11.6, „Werkzeuge für Grafikdaten“).

[Tipp] Tipp

You can read a PDF file with GIMP and convert it into PNG format using higher than 300 dpi resolution. This may be used as a background image for LibreOffice to produce a desirable altered printout with minimum efforts.

Sie können zwei PostScript (PS)- oder Portable Document Format (PDF)-Dateien mit dem gs(1)-Befehl von Ghostscript zusammenführen:

$ gs -q -dNOPAUSE -dBATCH -sDEVICE=pswrite -sOutputFile=bla.ps -f foo1.ps foo2.ps
$ gs -q -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -sOutputFile=bla.pdf -f foo1.pdf foo2.pdf
[Anmerkung] Anmerkung

PDF, ein plattform-unabhängiges Datenformat für druckfähige Daten, ist im Grunde ein komprimiertes PS-Format mit einigen zusätzlichen Funktionalitäten und Erweiterungen.

[Tipp] Tipp

Auf der Befehlszeile sind psmerge(1) und andere Befehle aus dem psutils-Paket sehr nützlich zur Bearbeitung von PostScript-Dokumenten. pdftk(1) aus dem pdftk-Paket ist ebenfalls praktisch, um PDF-Dokumente zu bearbeiten.

Folgende Pakete mit Werkzeugen für druckfähige Daten sind mir ins Auge gestochen:

Tabelle 11.15. Liste von Werkzeugen für druckfähige Daten

Paket Popcon Größe Schlüsselwort Beschreibung
poppler-utils V:152, I:471 728 pdf → ps,text,… PDF-Hilfsprogramme: pdftops, pdfinfo, pdfimages, pdftotext, pdffonts
psutils V:4, I:67 219 ps → ps Werkzeuge zur Konvertierung von PostScript-Dokumenten
poster V:0, I:3 57 ps → ps Erzeugen großer Poster aus PostScript-Seiten
enscript V:1, I:14 2130 text → ps,html,rtf Konvertieren von ASCII-Text nach PostScript, HTML, RTF oder Pretty-Print
a2ps V:0, I:10 3979 text → ps 'Anything to PostScript'-Konvertierer (jegliches nach PostScript) und Pretty-Printer
pdftk I:37 28 pdf → pdf Werkzeug zur Konvertierung von PDF-Dokumenten: pdftk
html2ps V:0, I:2 261 html → ps Konvertierer von HTML nach PostScript
gnuhtml2latex V:0, I:0 27 html → latex Konvertierer von HTML nach LaTeX
latex2rtf V:0, I:4 495 latex → rtf Konvertieren von Dokumenten von LaTeX nach RTF, die dann von MS Word gelesen werden können
ps2eps V:2, I:42 95 ps → eps Konvertierer von PostScript nach EPS (Encapsulated PostScript)
e2ps V:0, I:0 109 text → ps Text-nach-PostScript-Konvertierer mit Unterstützung für japanische Zeichenkodierung
impose+ V:0, I:0 118 ps → ps PostScript-Hilfsprogramme
trueprint V:0, I:0 149 text → ps Viele Quellformate (C, C++, Java, Pascal, Perl, Pike, Sh und Verilog) nach PostScript konvertieren mittels Pretty-Print (C-Sprache)
pdf2svg V:0, I:3 32 pdf→svg Konvertierer von PDF in das Scalable Vector Graphics-Format
pdftoipe V:0, I:0 65 pdf→ipe Konvertierer von PDF in IPE's XML-Format

Die beiden vom Common Unix Printing System (CUPS) angebotenen Befehle lp(1) und lpr(1) bieten Optionen, um das Drucken von druckfähigen Daten spezifisch anzupassen.

Mit einem der folgenden Befehle können Sie drei Kopien einer Datei auf einmal ausdrucken:

$ lp -n 3 -o Collate=True filename
$ lpr -#3 -o Collate=True filename

Druckoperationen können über Optionen für den Drucker noch weitgehender angepasst werden, z.B. mit "-o number-up=2", "-o page-set=even", "-o page-set=odd", "-o scaling=200", "-o natural-scaling=200" usw. Diese Optionen sind dokumentiert unter Command-Line Printing and Options (wenn Sie CUPS installiert haben).

Folgende Pakete für die Konvertierung von Mail-Daten sind mir aufgefallen:


[Tipp] Tipp

Ein Internet Message Access Protocol-Server der Version 4 (IMAP4) kann verwendet werden, um Mails von proprietären Mail-Systemen zu exportieren; dazu muss der Mail-Client (z.B. unter Windows) so konfiguriert werden, dass er den auf dem Debian-System laufenden IMAP4-Server nutzt.

Mail-Daten (SMTP) sollten auf eine Abfolge von 7-Bit-Zeichen beschränkt werden. Daher werden Binärdaten und 8-Bit-Textdaten über Multipurpose Internet Mail Extensions (MIME) und die Auswahl des Zeichensatzes (lesen Sie dazu Tabelle 11.2, „Liste von Werten für die Zeichenkodierung und deren Verwendung“) im 7-Bit-Format kodiert.

Das Standardformat zum Speichern von Mails ist mbox gemäß RFC2822 (aktualisiertes RFC822). Näheres dazu in mbox(5) (aus dem mutt-Paket).

Für europäische Sprachen wird normalerweise "Content-Transfer-Encoding: quoted-printable" mit dem ISO-8859-1-Zeichensatz bei Mails verwendet, da es dabei nicht viele 8-Bit-Zeichen gibt. Wenn europäischer Text in UTF-8 kodiert ist, wird dabei voraussichtlich "Content-Transfer-Encoding: quoted-printable" benutzt, da es überwiegend 7-Bit-Zeichen sind.

Für Japanisch wird gewöhnlich "Content-Type: text/plain; charset=ISO-2022-JP" bei Mails verwendet, um den Text im 7-Bit-Format zu halten. Ältere Microsoft-Systeme könnten jedoch Mail-Daten in Shift-JIS versenden, ohne dies korrekt zu deklarieren. Wenn japanischer Text in UTF-8 kodiert ist, wird dabei voraussichtlich Base64 benutzt, da dabei viele 8-Bit-Zeichen enthalten sind. Die Situation bei anderen asiatischen Sprachen ist ähnlich.

[Anmerkung] Anmerkung

Falls Sie mit einer Debian-fremden Client-Software auf Ihre nicht-Unix-Mail-Daten zugreifen können und dieser Client auch mit einem IMAP4-Server kommunizieren kann, können Sie die Mails von dem Fremdsystem herunterholen, indem Sie einen eigenen IMAP4-Server laufen lassen.

[Anmerkung] Anmerkung

Nutzen Sie andere Formate zur Speicherung Ihrer Mails, ist die Umstellung auf das mbox-Format ein guter erster Schritt. Ein vielseitiges Client-Programm wie z.B. mutt(1) kann dabei nützlich sein.

Sie können den Inhalt einer Mailbox auf einzelne Nachrichten aufsplitten, indem Sie procmail(1) und formail(1) verwenden.

Jede Mail kann mittels munpack(1) aus dem mpack-Paket (oder mit anderen spezialisierten Werkzeugen) entpackt werden, um die MIME-kodierten Inhalte zu erhalten.

Obwohl grafische GUI-Programme wie gimp(1) sehr leistungsfähig sind, können auch Befehlszeilenwerkzeuge wie imagemagick(1) nützlich sein, um automatisierte Bildbearbeitung über Skripte durchzuführen.

Der De-Facto-Standard für Bilddateien von Digitalkameras ist das Exchangeable Image File Format (EXIF); dies entspricht dem JPEG-Dateiformat mit zusätzlichen Metainformationen. Es kann auch Informationen wie Datum, Zeit und Kameraeinstellungen speichern.

Das Patent zur verlustlosen Datenkompression mit dem Lempel-Ziv-Welch-(LZW-)Algorithmus ist abgelaufen. Graphics Interchange Format (GIF)-Werkzeuge, die die LZW-Kompressionsmethode nutzen, sind jetzt frei im Debian-System verfügbar.

[Tipp] Tipp

Alle Digitalkameras oder Scanner mit Wechseldatenträgern als Speichermedium funktionieren unter Linux über USB-Speicher-Lesegeräte, da sie die Design-Regeln für Kamera-Dateisysteme befolgen und FAT als Dateisystem verwenden. Näheres finden Sie in Abschnitt 10.1.7, „Wechseldatenträger“.

The following packages for the GUI graphics data conversion, editing, and organization tools caught my eyes.

Tabelle 11.18. List of graphics data tools (GUI)

Paket Popcon Größe Schlüsselwort Beschreibung
gimp V:50, I:252 19304 image(bitmap) GNU Image Manipulation Program (GIMP)
xsane V:12, I:144 2339 image(bitmap) GTK-basierte X11-Oberfläche für das Scanner-Programm SANE (Scanner Access Now Easy)
scribus V:1, I:16 31345 ps/pdf/SVG/… Scribus DTP-Editor
libreoffice-draw V:72, I:430 10312 image(vector) LibreOffice Office-Programm - Zeichnen
inkscape V:15, I:112 99800 image(vector) SVG (Scalable Vector Graphics)-Editor
dia V:2, I:22 3741 image(vector) Diagramm-Editor (Gtk)
xfig V:0, I:11 7849 image(vector) Programm zur interaktiven Erzeugung von Objekten in X11
gocr V:0, I:7 540 image → text freie OCR-Software
eog V:64, I:277 7770 image(Exif) Bildbetrachter Eye of GNOME
gthumb V:3, I:16 5032 image(Exif) Bildbetrachter und -browser (GNOME)
geeqie V:4, I:15 2522 image(Exif) Bildbetrachter, der GTK verwendet
shotwell V:17, I:255 6263 image(Exif) Digitalfoto-Organizer (GNOME)
gwenview V:33, I:106 11755 image(Exif) Bildbetrachter (KDE)
kamera I:105 998 image(Exif) Unterstützung von Digitalkameras für KDE-Anwendungen
digikam V:1, I:9 293 image(Exif) Digitalfoto-Verwaltung für KDE
darktable V:4, I:13 30554 image(Exif) virtual lighttable and darkroom for photographers
hugin V:0, I:8 5208 image(Exif) panorama photo stitcher
librecad V:1, I:15 8963 DXF, ... 2D CAD data editor
freecad I:18 36 DXF, ... 3D CAD data editor
blender V:3, I:28 84492 blend, TIFF, VRML, … Editor für 3D-Inhalte (Animationen usw.)
mm3d V:0, I:0 3881 ms3d, obj, dxf, … 3D-Modell-Editor auf Basis von OpenGL
fontforge V:0, I:6 3993 ttf, ps, … Editor für PS-, TrueType- und OpenType-Schriften
xgridfit V:0, I:0 806 ttf Programm zum Gridfitting und Hinting von TrueType-Schriften

The following packages for the CLI graphics data conversion, editing, and organization tools caught my eyes.

Tabelle 11.19. List of graphics data tools (CLI)

Paket Popcon Größe Schlüsselwort Beschreibung
imagemagick I:317 74 image(bitmap) Programme zur Bildbearbeitung
graphicsmagick V:1, I:11 5565 image(bitmap) Programme zur Bildbearbeitung (Abspaltung von imagemagick)
netpbm V:28, I:326 8526 image(bitmap) Werkzeuge zur Grafikkonvertierung
libheif-examples V:0, I:2 191 heif→jpeg(bitmap) convert High Efficiency Image File Format (HEIF) to JPEG, PNG, or Y4M formats with heif-convert(1) command
icoutils V:7, I:50 221 png ↔ ico(bitmap) Konvertieren von MS-Windows-Icons und -Cursor in das und vom PNG-Format (Favicons)
pstoedit V:2, I:52 1011 ps/pdf → image(vector) PostScript- und PDF-Dateien in editierbare Vector-Grafiken (SVG) konvertieren
libwmf-bin V:7, I:119 151 Windows/image(vector) Konvertierungswerkzeuge für Windows-Metadaten (Vector-Grafiken)
fig2sxd V:0, I:0 151 fig → sxd(vector) XFig-Dateien in das OpenOffice.org-Draw-Format konvertieren
unpaper V:2, I:17 412 image → image Werkzeug zum Nachbearbeiten von eingescannten Seiten für OCR
tesseract-ocr V:7, I:33 2228 image → text freie OCR-Software basierend auf HPs kommerzieller OCR-Engine
tesseract-ocr-eng V:7, I:34 4032 image → text OCR-Engine-Daten: tesseract-ocr-Sprachdateien für englischen Text
ocrad V:0, I:3 587 image → text freie OCR-Software
exif V:2, I:42 339 image(Exif) Befehlszeilen-Werkzeug, um EXIF-Informationen von JPEG-Dateien anzuzeigen
exiv2 V:2, I:27 275 image(Exif) Werkzeug zur Bearbeitung von Exif-/IPTC-Metadaten
exiftran V:1, I:14 69 image(Exif) Programm für die Umwandlung der JPEG-Bilder von Digitalkameras
exiftags V:0, I:3 292 image(Exif) Werkzeug, um Exif-Informationen aus Digitalkamera-JPEG-Dateien auszulesen
exifprobe V:0, I:3 499 image(Exif) Metadaten aus Digitalbildern auslesen
dcraw V:1, I:12 583 image(Raw) → ppm Dekodierer für Digitalkamerabilder im RAW-Format
findimagedupes V:0, I:1 77 image → fingerprint Visuell ähnliche oder doppelte Bilder finden
ale V:0, I:0 839 image → image Bilder zusammenfügen, um die Wiedergabetreue zu erhöhen oder Mosaike zu erzeugen
imageindex V:0, I:1 145 image(Exif) → html Erzeugen von statischen HTML-Galerien aus Bildern
outguess V:0, I:1 230 jpeg,png universelles Steganographie-Werkzeug
jpegoptim V:0, I:7 59 jpeg optimize JPEG files
optipng V:3, I:43 213 png optimize PNG files, lossless compression
pngquant V:0, I:9 61 png optimize PNG files, lossy compression

Es gibt viele andere Programme zum Konvertieren von Daten. Folgende Pakete habe ich über den regulären Ausdruck "~Guse::converting" in aptitude(8) gefunden (Näheres dazu in Abschnitt 2.2.6, „Optionen für Suchmethoden mit aptitude“):


Sie können die Daten aus einem RPM-Archiv auch mit folgendem Befehl extrahieren:

$ rpm2cpio file.src.rpm | cpio --extract