• BASH > conversion de caractères

      FICHIERS

      connaitre le charset utilisé sur la machine :
      echo $LANG en_IE.UTF-8

       

      connaitre le charset du fichier :

      convmv-for-utf-8-hizoka_0.04.sh

      ou

      convmv-for-utf-8_0.04.sh

       

      convertir un fichier encodé en ISO-8859-1 en UTF-8 :
      convmv -f iso-8859-1 -t utf8 fichier > fichier_converti

       

      convertir des fichiers windows en UTF8 :
      convmv -r -f windows-1252 -t UTF-8 .

      -r récursive

      . pour tous les fichiers du dossier courant

      CHAINES DE CARACTERES

      substitution avec sed

      La suppression des caractères accentués et autres cédilles peut être effectuée, en Bash, en utilisant “sed” ou “tr” :

      echo $_str | sed 'y/áàâäçéèêëîïìôöóùúüñÂÀÄÇÉÈÊËÎÏÔÖÙÜÑ/aaaaceeeeiiiooouuunAAACEEEEIIOOUUN/'

      conversion avec iconv

      du format utf8 (-f pour from) vers le format ASCII (-t pour to) : iconv -f utf8 -t ascii//TRANSLIT <<< $VAR

      Avec l’option TRANSLIT, si un caractère ne peut être transcrit, il est converti en une chaine de caractère équivalente.

      La méthode peut être utilisée sur des fichiers : iconv -f utf8 -t ascii//TRANSLIT < fich1.txt > fich2.txt

 

Aucun commentaire

 

Laissez un commentaire