Chapitre 11. Conversion de données

Table des matières

11.1. Outils de conversion de données textuelles
11.1.1. Convertir un fichier texte avec iconv
11.1.2. Vérifier que les fichiers sont codés en UTF-8 avec iconv
11.1.3. Convertir les noms de fichiers avec iconv
11.1.4. Convertir les fins de ligne (EOL)
11.1.5. Convertir les tabulations (TAB)
11.1.6. Éditeurs avec conversion automatique
11.1.7. Extraire du texte brut
11.1.8. Mettre en évidence et formater des données en texte brut
11.2. Données XML
11.2.1. Conseils de base pour XML
11.2.2. Traitement XML
11.2.3. Extraire des données XML
11.3. Composition
11.3.1. Composition roff
11.3.2. TeX/LaTeX
11.3.3. Imprimer convenablement une page de manuel
11.3.4. Créer une page de manuel
11.4. Données imprimables
11.4.1. Ghostscript
11.4.2. Fusionner deux fichiers PS ou PDF
11.4.3. Utilitaires pour les données imprimables
11.4.4. Imprimer avec CUPS
11.5. La conversion de données de courrier électronique
11.5.1. Bases concernant les données de courrier électroniques
11.6. Outils de données graphiques
11.7. Diverses conversions de données

Description des outils et astuces pour convertir différents formats de données sur un système Debian.

Les outils basés sur des standards sont de très bonne qualité mais la prise en charge des formats propriétaires est limitée.

Mes yeux ont été attirés par les paquets suivants de conversions de données textuelles :


[Astuce] Astuce

iconv(1) is provided as a part of the libc6 package and it is always available on practically all Unix-like systems to convert the encoding of characters.

Vous pouvez convertir les codages de caractères d’un fichier texte par iconv(1) en effectuant ce qui suite :

$ iconv -f codage1 -t codage2 entrée.txt >sortie.txt

La valeur des codages n’est pas sensible à la casse et ignore « -  » et « _ » pour la correspondance. On peut vérifier quels sont les codages pris en charge à l’aide de la commande « iconv -l ».

Tableau 11.2. Liste de valeurs de codage et leur utilisation

valeur de codage utilisation
ASCII American Standard Code for Information Interchange (Code américain standard pour l’échange d’informations), code sur 7 bits sans caractère accentué
UTF-8 norme actuelle multi-langues pour tous les systèmes d’exploitation modernes
ISO-8859-1 ancienne norme pour les langues d’Europe de l’ouest, ASCII + lettres accentuées
ISO-8859-2 ancienne norme pour les langues d’Europe de l’est, ASCII + lettres accentuées
ISO-8859-15 ancienne norme pour les langues d’Europe de l’ouest, ISO-8859-1 avec le signe euro
CP850 page de code 850, caractères de DOS Microsoft avec graphiques pour les langues de l’Europe de l’est, variante de ISO-8859-1
CP932 page de code 932, variante style Microsoft Windows de Shift-JIS pour le japonais
CP936 page de code 936, variante style Microsoft Windows de GB2312, GBK ou GB18030 pour le chinois simplifié
CP949 page de code 949, variante style Microsoft Windows de EUC-KR de «  Unified Hangul Code » pour le coréen
CP950 page de code 950, variante style Microsoft Windows de Big5 pour le chinois traditionnel
CP1251 page de code 1251, encodage de style Microsoft Windows pour l’alphabet cyrillique
CP1252 page de code 1252, variante style Microsoft Windows de ISO-8859-15 pour les langues d’Europe de l’ouest
KOI8-R ancienne norme UNIX de russe pour l’alphabet cyrillique
ISO-2022-JP codage standard du courrier électronique japonais n’utilisant que des codes à 7 bits
eucJP ancien code UNIX de japonais sur 8 bits et complètement différent de Shift-JIS
Shift-JIS norme JIS X 0208 Annexe 1 pour le japonais (consultez CP932)

[Note] Note

Certains codages ne sont pris en compte que pour la conversion de données et ne sont pas utilisés en tant que valeur de paramètre linguistique (Section 8.3.1, « Bases du codage »).

Pour les jeux de caractères qui tiennent dans un seul octet tels que les jeux de caractères ASCII et ISO-8859, le codage des caractères signifie à peu près la même chose que le jeu de caractères.

Pour les jeux de caractères ayant de nombreux caractères tels que JIS X 0213 pour le japonais ou Universal Character Set (UCS, Unicode, ISO-10646-1) (jeu de caractère universel) pour pratiquement toutes les langues, il y a de nombreux schémas de codage pour les insérer dans les séquences d’octets de données.

Pour ceux-ci, il y a une différence claire entre le jeu de caractères et le codage des caractères.

Page de code est utilisée comme synonyme de table de codage de caractères pour certaines d’entre-elles spécifiques au fournisseur.

[Note] Note

Please note most encoding systems share the same code with ASCII for the 7 bit characters. But there are some exceptions. If you are converting old Japanese C programs and URLs data from the casually-called shift-JIS encoding format to UTF-8 format, use "CP932" as the encoding name instead of "shift-JIS" to get the expected results: 0x5C → "\" and 0x7E → "~". Otherwise, these are converted to wrong characters.

[Astuce] Astuce

On peut aussi utiliser recode(1) qui offre plus de fonctionnalités que celles combinées de iconv(1), fromdos(1), todos(1), frommac(1) et tomac(1). Pour plus de détails, consultez « info recode ».

Les éditeurs de textes modernes et intelligents comme le programme vim sont assez habiles et prennent assez bien en compte les systèmes de codage de caractères et tous les formats de fichiers. Vous devriez utiliser ces éditeurs avec les paramètres linguistiques UTF-8 dans une console compatible avec UTF-8 pour une meilleure compatibilité.

Un ancien fichier texte UNIX d’Europe de l’Ouest, « u-file.txt » enregistré dans le codage latin1 (iso-8859-1) peut être édité avec vim de la manière suivante :

$ vim u-file.txt

C’est possible car le mécanisme d’autodétection du codage du fichier dans vim suppose d’abord que le codage est UTF-8 et, s’il échoue, suppose qu’il est latin1.

Un ancien fichier texte en polonais, « pu-file.txt », enregistré avec le codage latin2 (iso-8859-2) peut être édité avec vim de la manière suivante :

$ vim '+e ++enc=latin2 pu-file.txt'

Un ancien fichier texte UNIX en japonais, « ju-file.txt », enregistré avec le codage eucJP peut être édité avec vim de la manière suivante :

$ vim '+e ++enc=eucJP ju-file.txt'

Un ancien fichier MS-Windows en japonais, « jw-file.txt », enregistré dans le codage appelé shift-JIS (plus précisément : CP932) peut être édité avec vim de la manière suivante :

$ vim '+e ++enc=CP932 ++ff=dos jw-file.txt'

Lorsqu’un fichier est ouvert avec les options « ++enc » et « ++ff », « :w » sur la ligne de commandes de Vim l’enregistre dans son format d’origine et écrase le fichier d’origine. Vous pouvez aussi indiquer le format d’enregistrement et le nom du fichier sur la ligne de commandes de Vim, par exemple, « :w ++enc=utf8 nouveau.txt ».

Veuillez vous rapporter à mbyte.txt « multi-byte text support » dans l’aide en ligne de vim et Tableau 11.2, « Liste de valeurs de codage et leur utilisation » pour les valeurs de paramètres linguistiques utilisés avec « ++enc ».

La famille de programmes emacs peut effectuer des fonctions équivalentes.

Ce qui suit permet de lire une page web sous forme de fichier texte. C’est très utile pour copier des informations de configuration depuis le Web ou pour appliquer des outils textuels de base d’UNIX comme grep(1) à la page web .

$ w3m -dump http://www.site-distant.com/help-info.html >fichier-texte

De la même manière, vous pouvez extraire des données en texte brut vers d’autres formats en utilisant ce qui suit :.


Vous pouvez mettre en évidence et formater des données en texte brut de la manière suivante :

Tableau 11.6. Liste des outils pour mettre en évidence des données de texte brut

paquet popcon taille mot clé description
vim-runtime V:25, I:419 25520 mise en évidence MACRO Vim pour convertir du code source en HTML avec « :source $VIMRUNTIME/syntax/html.vim »
cxref V:0, I:1 1172 c→html convertisseur pour les programmes C vers latex et HTML (langage C)
src2tex V:0, I:1 1968 mise en évidence convertit de nombreux codes sources en TeX (langage C)
source-highlight V:1, I:9 1976 mise en évidence convertit de nombreux codes source vers des fichiers HTML, XHTML, LaTeX, Texinfo, séquences d’échappement en couleur ANSI et DocBook files avec mise en évidence (C++)
highlight V:2, I:18 1025 mise en évidence convertit de nombreux codes sources en fichiers HTML, XHTML, RTF, LaTeX, TeX ou XSL-FO avec mise en évidence (C++)
grc V:0, I:1 53 texte→couleur coloriseur générique pour n’importe quoi (Python)
txt2html V:0, I:4 296 texte→html convertisseur de texte vers HTML (Perl)
markdown V:0, I:6 96 texte→html formateur de documents textes Markdown vers (X)HTML (Perl)
asciidoc V:1, I:13 2442 texte→tout format formateur de documents textes AsciiDoc vers XML/HTML (Python)
pandoc V:2, I:13 37308 texte→tout format Marqueur de conversion global (Haskell)
python-docutils V:4, I:144 1570 texte→tout format formateur de documents ReStructured Text vers XML (Python)
txt2tags V:0, I:2 951 texte→tout format conversion de documents de texte vers HTML, SGML, LaTeX, page de manuel, MoinMoin, Magic Point et PageMaker (Python)
udo V:0, I:0 556 texte→tout format document universel - utilitaire de traitement de texte (language C)
stx2any V:0, I:0 484 texte→tout format convertisseur de documents depuis un texte brut structuré vers d’autres formats (m4)
rest2web V:0, I:0 576 texte→html convertisseur de documents depuis ReStructured Text vers html (Python)
aft V:0, I:0 259 texte→tout format système de préparation de document de « forme libre » (Perl)
yodl V:0, I:0 421 texte→tout format langage de pré-document et outils pour le manipuler
sdf V:0, I:0 1415 texte→tout format analyseur simple de documents (Perl)
sisu V:0, I:0 7737 texte→tout format infrastructure de structuration, de publication et de recherche de documents (Ruby)

Le langage de balisage extensible (« The Extensible Markup Language (XML) » est un langage de balisage de documents dont les informations sont structurées.

Consultez une introduction sur XML.COM.

Le texte en XML ressemble un peu à HTML. Il vous permet de gérer de nombreux formats de sortie pour un document. Un système XML facile est le paquet docbook-xsl qui est utilisé ici.

Chaque fichier XML commence par la déclaration XML standard suivante :

<?xml version="1.0" encoding="UTF-8"?>

La syntaxe de base d’un élément XML est balisée de la manière suivante :

<name attribute="value">contenu</nom>

Un élément XML dont le contenu est vide est balisé de la façon raccourcie suivante :

<name attribute="value"/>

« attribute="value" » dans les exemples ci-dessus est optionnel.

L’action commentaire en XML est balisée comme suit :

<!-- comment -->

En plus d’ajouter des balises, XML demande des conversions mineures de contenu en utilisant des entités prédéfinies pour les caractères suivants :


[Attention] Attention

« < » ou « & » ne peuvent pas être utilisés dans des attributs ni des éléments.

[Note] Note

Lorsqu’on utilise des entités définies par l’utilisateur de style SGML, par exemple « &some-tag: », la première définition prend le pas sur les suivantes. La définition de l’entité est exprimée par « <!ENTITY une-balise "valeur entité">".

[Note] Note

Tant que le balisage XML est fait de manière cohérente avec un jeu particulier de nom de balises (soit certaines données comme valeur de contenu ou d’attribut), la conversion vers un autre XML est une tâche triviale en utilisant Extensible Stylesheet Language Transformations (XSLT).

Il existe de nombreux outils pour traiter les fichiers XML tels quele langage extensible de feuilles de style (« the Extensible Stylesheet Language XSL «).

En gros, une fois créé un fichier XML correctement formaté, vous pouvez le convertir vers n’importe quel format en utilisant le langage extensible de transformation des feuilles de style (XSLT) (« Extensible Stylesheet Language Transformations  »).

The Extensible Stylesheet Language for Formatting Objects (XSL-FO) is supposed to be solution for formatting. The fop package is new to the Debian main archive due to its dependence to the Java programing language. So the LaTeX code is usually generated from XML using XSLT and the LaTeX system is used to create printable file such as DVI, PostScript, and PDF.


Comme XML est un sous-ensemble du Langage généralisé de balisage ( Standard Generalized Markup Language SGML »), il peut être traité par les nombreux outils disponibles pour SGML, comme Document Style Semantics and Specification Language (DSSSL).


[Astuce] Astuce

yelp de GNOME est parfois pratique pour lire les fichiers XML DocBook directement car il effectue un rendu propre sous X.

Vous pouvez extraire des données HTML ou XML depuis d’autres formats en utilisant ce qui suit :


Vous pouvez convertir les fichiers HTML non-XML en XHTML qui est une instance XML correctement formatée. XHTML peut être traité par les outils XML.


Une fois qu’un fichier XML propre est créé, vous pouvez utiliser la technologie XSLT pour extraire des données dans le contexte de balisage, etc.

Le programme UNIX troff, développé à l’origine par AT&T, peut être utilisé pour une composition simple. Il est habituellement utilisé pour créer des pages de manuel.

TeX created by Donald Knuth is a very powerful type setting tool and is the de facto standard. LaTeX originally written by Leslie Lamport enables a high-level access to the power of TeX.


Traditionnellement, roff est le système de traitement de texte principal sous UNIX. Consultez roff(7), groff(7), groff(1), grotty(1), troff(1), groff_mdoc(7), groff_man(7), groff_ms(7), groff_me(7), groff_mm(7), et « info groff ».

Vous pouvez lire ou imprimer un bon didacticiel et document de référence sur la macro « -me » dans « /usr/share/doc/groff/ » en installant le paquet groff.

[Astuce] Astuce

« groff -Tascii -me - » produit une sortie en texte brut avec du code d’échappement ANSI. Si vous désirez obtenir une sortie semblable à une page de manuel avec de nombreux « ^H » et « _ », utilisez plutôt « GROFF_NO_SGR=1 groff -Tascii -me - ».

[Astuce] Astuce

Pour supprimer les « ^H » et les « _ » d’un fichier texte issu de groff, filtrez le par « col -b -x ».

La distribution logicielle TeX Live offre un système TeX complet. Le métapaquet texlive fournit une bonne sélection de paquets de TeX Live qui devraient suffire aux tâches les plus courantes.

De nombreuses références sont disponibles pour TeX et LaTeX :

  • The teTeX HOWTO : le guide local de teTeX sous Linux ;

  • tex(1) ;

  • latex(1) ;

  • « The TeXbook », par Donald E. Knuth, (Addison-Wesley) ;

  • « LaTeX - A Document Preparation System », par Leslie Lamport, (Addison-Wesley) ;

  • « The LaTeX Companion », par Goossens, Mittelbach, Samarin, (Addison-Wesley).

C’est l’environnement de composition typographique le plus puissant. De nombreux processeurs SGML l’utilisent comme processeur de texte en « backend ». Lyx qu’on trouvera dans le paquet lyx et GNU TeXmacs qui provient du paquet texmacs offrent un environnement d’édition agréable en mode WYSIWYG pour LaTeX bien que nombreux sont ceux qui choisissent d’utiliser Emacs et Vim pour éditer les sources.

De nombreuses ressources sont disponibles en ligne :

Lorsque les documents deviennent plus importants, TeX cause parfois des erreurs. Vous devez augmenter la taille de l’espace dans « /etc/texmf/texmf.cnf » (ou, de manière plus rigoureuse, éditez « /etc/texmf/texmf.d/95NonPath » et lancez update-texmf(8)) afin de corriger cela.

[Note] Note

The TeX source of "The TeXbook" is available at http://tug.ctan.org/tex-archive/systems/knuth/dist/tex/texbook.tex. This file contains most of the required macros. I heard that you can process this document with tex(1) after commenting lines 7 to 10 and adding "\input manmac \proofmodefalse". It's strongly recommended to buy this book (and all other books from Donald E. Knuth) instead of using the online version but the source is a great example of TeX input!

Sur un système Debian, les données imprimables sont définies dans le format PostScript. Common UNIX Printing System (CUPS) utilise Ghostscript en tant que programme de tramage « rasterisation » pour les imprimantes non-PostScript.

Vous pouvez fusionner deux fichiers PostScript (PS) ou Portable Document Format (PDF) en utilisant gs(1) de Ghostscript.

$ gs -q -dNOPAUSE -dBATCH -sDEVICE=pswrite -sFichierSortie=blabla.ps -f toto1.ps toto2.ps
$ gs -q -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -sFichierSortie=blabla.pdf -f toto1.pdf toto2.pdf
[Note] Note

The PDF, which is a widely used cross-platform printable data format, is essentially the compressed PS format with few additional features and extensions.

[Astuce] Astuce

En ligne de commandes, psmerge(1) et d’autres commandes du paquet psutils sont utiles pour manipuler des documents PostScript. Les commandes issues du paquet pdfjam fonctionnent de manière similaire pour la manipulation de documents PDF. pdftk(1) issu du paquet pdftk est aussi utile pour la manipulation de documents PDF.

Les paquets suivants fournissant des utilitaires pour les données imprimables ont attiré mon attention :

Tableau 11.15. Liste des utilitaires pour les données imprimables

paquet popcon taille mot clé description
poppler-utils V:57, I:528 507 pdf→ps,text,… utilitaires PDF :: pdftops, pdfinfo, pdfimages, pdftotext, pdffonts
psutils V:28, I:471 193 ps→ps outils de conversion de document PostScript
poster V:1, I:14 80 ps→ps créer des posters de grande dimension à partir de pages PostScript
enscript V:4, I:42 2147 text→ps, html, rtf convertir du text ASCII en PostScript, HTML, RTF ou Pretty-Print
a2ps V:8, I:80 3654 text→ps Convertisseur de « N’importe quoi vers PostScript » et imprimeur élégant
pdftk V:10, I:57 2971 pdf→pdf outil de conversion de documents PDF : pdftk
mpage V:0, I:8 224 text,ps→ps imprimer plusieurs pages par feuille
html2ps V:1, I:11 320 html→ps convertisseur de HTML vers PostScript
pdfjam I:7 53 pdf→pdf outils de conversion de documents PDF : pdf90, pdfjoin et pdfnup
gnuhtml2latex V:0, I:3 53 html→latex convertisseur de html vers latex
latex2rtf V:0, I:8 400 latex→rtf convertir des documents de LaTeX en RTF qui peuvent être lus par MS Word
ps2eps V:9, I:120 116 ps→eps convertisseur de PostScript vers EPS (PostScript encapsulé)
e2ps V:0, I:0 188 text→ps convertisseur de texte vers PostScript avec la prise en charge du codage japonais
impose+ V:0, I:1 180 ps→ps Utilitaires PostScript
trueprint V:0, I:0 123 text→ps imprime élégamment de nombreux codes source (C, C++, Java, Pascal, Perl, Pike, Sh, et Verilog) vers PostScript. (langage C)
pdf2svg V:0, I:5 50 ps→svg convertisseur de PDF vers le format Scalable vector graphics (« SVG »)
pdftoipe V:0, I:0 48 ps→ipe convertisseur de PDF vers le format IPE d’XML

Les commandes lp(1) et lpr(1) proposées par le Common UNIX Printing System (CUPS) fournissent toutes deux des options de personnalisation des données imprimables.

Vous pouvez imprimer 3 copies d’un fichier en utilisant une des commandes suivantes :

$ lp -n 3 -o Collate=True NomFichier
$ lpr -#3 -o Collate=True NomFichier

Vous pouvez personnaliser davantage le fonctionnement de l’imprimante en utilisant des options d’impression telles que « -o number-up=2 », « -o page-set=even », « -o page-set=odd », « -o scaling=200 », « -o natural-scaling=200 », etc., documentées sur Impression et options en ligne de commande.

Les paquets suivants, destinés à la conversion de données de courrier électronique, ont attiré mon attention :


[Astuce] Astuce

Le serveur de protocole Internet d’accès au messages (« d’Internet Message Access Protocol ») version 4 (IMAP4) (consultez Section 6.7, « serveur POP3/IMAP4 ») peut être utilisé pour déplacer des courriels depuis des systèmes de courriels propriétaires si le logiciel de courriel client peut aussi être configuré pour utiliser le serveur IMAP4.

Mail (SMTP) data should be limited to series of 7 bit data. So binary data and 8 bit text data are encoded into 7 bit format with the Multipurpose Internet Mail Extensions (MIME) and the selection of the charset (see Section 8.3.1, « Bases du codage »).

Le format standard d’enregistrement du courrier électronique est « mbox » selon la RFC2822 (RFC822 mise à jour). Consultez mbox(5) (fourni par le paquet mutt.

Pour les langues européennes, on utilise habituellement pour le courriel « Content-Transfer-Encoding: quoted-printable » avec le jeu de caractères ISO-8859-1 car il n’y a pas beaucoup de caractères de 8 bits. Si le texte européen est codé en UTF-8, on préférera utiliser « Content-Transfer-Encoding: quoted-printable » car ce sont essentiellement des données sur 7 bits.

Pour le japonais, « Content-Type: text/plain; charset=ISO-2022-JP » est habituellement utilisé pour le courriel afin de conserver le texte sur 7 bits. Mais les anciens systèmes Microsoft peuvent envoyer des données de courriel en Shift-JIS sans le déclarer proprement. Si le texte japonais est codé en UTF-8, on utilisera de préférence Base64 car il comporte de nombreuses données sur 8 bits. La situation des autres langues asiatiques est similaire.

[Note] Note

Pour les données de courriel non-UNIX accessibles par un logiciel client ne venant pas de Debian, il est possible de dialoguer avec le serveur IMAP4, il vous faudra peut-être les déplacer en lançant votre propre serveur IMAP4 (consultez Section 6.7, « serveur POP3/IMAP4 »).

[Note] Note

Si vous utilisez d’autres formats d’enregistrement de courriel, les mettre dans le format mbox est une bonne première étape. Un programme client souple comme mutt(1) peut être pratique pour le faire.

Vous pouvez éclater le contenu d’une boîte à lettre en messages séparés en utilisant procmail(1) et formail(1).

Chaque message de courrier électronique peut être dépaqueté en utilisant munpack(1) qui provient du paquet mpack (ou d’autres outils spécialisés) afin d’en obtenir le contenu codé en MIME.

Les paquets suivants contenant des outils pour la conversion, l’édition et l’organisation de données graphiques ont attiré mon attention :

Tableau 11.17. Liste d’outils pour les données graphiques

paquet popcon taille mot clé description
gimp V:102, I:519 15644 image (bitmap) Programme de manipulation d’images GNU ( GNU Image Manipulation Program »)
imagemagick V:229, I:579 247 image (bitmap) programmes de manipulation d’images
graphicsmagick V:7, I:15 4552 image (bitmap) image manipulation programs (fork of imagemagick)
xsane V:30, I:202 742 image (bitmap) Interface graphique X11 de SANE basée sur GTK+ (Scanner Access Now Easy)
netpbm V:33, I:580 3846 image (bitmap) outils de conversion graphique
icoutils V:6, I:45 167 png↔ico (bitmap) convertit les icônes et curseurs de MS Windows de et vers des formats PNG (favicon.ico)
scribus V:19, I:32 52910 ps/pdf/SVG/… éditeur DTP Scribus
libreoffice-draw V:323, I:456 9605 image (vectorielle) suite de bureautique LibreOffice - dessin
inkscape V:157, I:401 77158 image (vectorielle) éditeur SVG (Scalable Vector Graphics)
dia-gnome V:11, I:16 575 image (vectorielle) éditeur de diagrammes (GNOME)
dia V:28, I:46 575 image (vectorielle) éditeur de diagrammes (Gtk)
xfig V:16, I:26 1848 image (vectorielle) Facility for Interactive Generation of figures under X11
pstoedit V:20, I:412 639 ps/pdf→image (vectorielle) convertisseur de fichiers PostScript et PDF en graphiques vectoriels éditables (SVG)
libwmf-bin V:19, I:401 91 Windows/image (vectorielle) outils de conversion de métafichiers Windows (données graphiques vectorielles)
fig2sxd V:0, I:0 200 fig→sxd (vectorielle) conversion de fichiers XFig dans le format OpenOffice.org Draw
unpaper V:2, I:15 671 image→image outil de post-traitement pour des pages numérisées pour OCR
tesseract-ocr V:4, I:28 552 image→texte logiciel OCR libre basé sur le moteur commercial OCR de HP
tesseract-ocr-eng I:29 58870 image→texte moteur de données OCR : fichier de langue de tesseract-ocr pour le texte en anglais
gocr V:3, I:29 494 image→texte logiciel OCR libre
ocrad V:1, I:10 314 image→texte logiciel OCR libre
eog V:118, I:394 10395 image (Exif) Programme de visualisation d’images « Eye of Gnome » (l’œil de Gnome)
gthumb V:22, I:39 3114 image (Exif) visionneuse et gestionnaire de photos (GNOME)
geeqie V:19, I:30 1528 image (Exif) Visualiseur d’images utilisant GTK+
shotwell V:41, I:342 6320 image (Exif) gestionnaire de photos numériques (GNOME)
f-spot V:1, I:5 9088 image (Exif) Application de gestion de photos personnelles (GNOME)
gtkam V:0, I:11 1259 image (Exif) Application destinée à rapatrier des données numériques depuis les appareils photo numériques (GTK+)
gphoto2 V:1, I:18 831 image (Exif) Le client en ligne de commande pour appareil photo numérique gphoto2
gwenview V:35, I:90 4403 image (Exif) visionneuse d’images (KDE)
kamera V:5, I:89 250 image (Exif) gestion des appareils photo numériques dans les applications KDE
digikam V:7, I:24 9403 image (Exif) application de gestion photos numériques (KDE)
exiv2 V:10, I:151 245 image (Exif) Outil pour manipuler les méta-données EXIF/IPTC
exiftran V:3, I:32 55 image (Exif) transformer les images JPEG des appareils photo numériques
jhead V:2, I:20 125 image (Exif) manipuler la partie non graphique des fichiers JPEG compatibles avec Exif (appareils photo numériques)
exif V:1, I:11 370 image (Exif) utilitaire en ligne de commandes pour afficher les informations EXIF contenues dans les fichiers JPEG
exiftags V:0, I:4 198 image (Exif) utilitaire pour lire les balises Exif depuis un fichier JPEG d’appareil photo numérique
exifprobe V:0, I:3 464 image (Exif) lire les métadonnées des images numériques
dcraw V:4, I:31 323 image (Raw)→ppm décoder les images brutes (« raw ») des appareils photo numériques
findimagedupes V:0, I:2 125 image→fingerprint rechercher des images visuellement similaires ou dupliquées
ale V:0, I:0 757 image→image assembler des images pour en améliorer la fidélité ou créer des mosaïques
imageindex V:0, I:0 171 image (Exif)→html créer des galeries HTML statiques depuis des images
bins V:0, I:0 1173 image (Exif)→html créer des albums photos statiques en HTMM en utilisant XML et les balises EXIF
outguess V:0, I:0 252 jpeg,png outil universel Stéganographique
librecad V:12, I:19 5870 DXF éditeur de données de CAO (KDE)
blender V:4, I:35 70138 blend, TIFF, VRML, … éditeur de contenu 3D pour l’animation, etc.
mm3d V:0, I:1 5171 ms3d, obj, dxf, … Éditeur de modèles 3D basé sur OpenGL
open-font-design-toolkit I:0 28 ttf, ps, … métapaquet pour la conception de polices libres
fontforge V:1, I:10 2537 ttf, ps, … éditeur pour les polices PS, TrueType et OpenType
xgridfit V:0, I:0 898 ttf program for gridfitting and hinting TrueType fonts

[Astuce] Astuce

Recherchez d’autres outils pour les images en utilisant l’expression rationnelle « ~Gworks-with::image » dans aptitude(8) (consultez Section 2.2.6, « Options de la méthode de recherche avec aptitude »).

Although GUI programs such as gimp(1) are very powerful, command line tools such as imagemagick(1) are quite useful for automating image manipulation via scripts.

Le format standard de fait pour les images d’appareils photo numériques est Exchangeable Image File Format (EXIF) qui est composé d’une image au format JPEG à laquelle sont ajoutées des balises de métadonnées. Il peut contenir des informations telles que la date, l’heure ou les paramètres de l’appareil photo.

Le brevet de compression de données sans perte Lempel-Ziv-Welch (LZW) est arrivé en fin de validité. Les utilitaires du format Graphics Interchange Format (GIF) qui utilise la méthode de compression LZW peuvent être maintenant librement disponibles sur un système Debian.

[Astuce] Astuce

Tous les appareils photo numériques ou les scanners ayant un support d’enregistrement amovible fonctionnent sous Linux avec des lecteurs « USB storage » s’ils sont conformes à la Design rule for Camera Filesystem et utilisent un système de fichiers FAT. Consultez Section 10.1.7, « Périphériques d’enregistrement amovibles ».

Il y a de nombreux programmes pour convertir les données. Les paquets suivants ont attiré mon attention en utilisant l’expression rationnelle « ~Guse::converting » avec aptitude(8) (consultez Section 2.2.6, « Options de la méthode de recherche avec aptitude »).


Vous pouvez aussi extraire des données depuis le format RPM avec ce qui suit :

$ rpm2cpio fichier.src.rpm | cpio --extract