-
BASH > conversion de caractères
FICHIERS
connaitre le charset utilisé sur la machine :
echo $LANG→en_IE.UTF-8connaitre le charset du fichier :
convmv-for-utf-8-hizoka_0.04.sh
ou
convertir un fichier encodé en ISO-8859-1 en UTF-8 :
convmv -f iso-8859-1 -t utf8 fichier > fichier_converti
convertir des fichiers windows en UTF8 :
convmv -r -f windows-1252 -t UTF-8 .-rrécursive.pour tous les fichiers du dossier courantCHAINES DE CARACTERES
substitution avec sed
La suppression des caractères accentués et autres cédilles peut être effectuée, en Bash, en utilisant “sed” ou “tr” :
echo $_str | sed 'y/áàâäçéèêëîïìôöóùúüñÂÀÄÇÉÈÊËÎÏÔÖÙÜÑ/aaaaceeeeiiiooouuunAAACEEEEIIOOUUN/'
conversion avec iconv
du format utf8 (
-fpour from) vers le format ASCII (-tpour to) :iconv -f utf8 -t ascii//TRANSLIT <<< $VARAvec l’option TRANSLIT, si un caractère ne peut être transcrit, il est converti en une chaine de caractère équivalente.
La méthode peut être utilisée sur des fichiers :
iconv -f utf8 -t ascii//TRANSLIT < fich1.txt > fich2.txt