Helio Loureiro

-= o cozinheiro de bits =-


Fotos, blog, vídeos, receitas e ouras coisas inúteis. Esse é o conteúdo do meu outro site http://hloureiro.multiply.com .

Conversão de caracteres em Perl

Image Faz tempo que não me deparo com esse tipo de problema, mas acabei vendo novamente depois que um colega de trabalho pediu ajuda nisso.

A primeira vez que trabalhei com conversão de caracteres foi em português mesmo, de ISO-8859-1 para UTF-8. Não guardei lembranças boas. Dessa vez o desafio era para converter supostos caracteres no mesmo formato para UTF-8, mas não da nossa língua pátria.

Para quem nunca viu isso, o código em Perl que faz a conversão está no pacote Encode , disponível no CPAN, da seguinte forma:

use Encode;
...

...
foreach $line () {
   next if ($line =~ m/^$/);
   chomp($line);
   $i = Encode::decode("iso-8859-1", $line);
   $line = Encode::encode("utf8", $i);
   print $line."\n";
}
...

Dessa vez tive um problema com a palavra "ΑστέριαΑστέρια". Juro que não sei o que significa, mas a droga da palavra, escrita em grego (CP1253) estava junto ao restante do texto codificado em ISO-8859-1.

Apanhei pra achar o formato certo... ainda falta fazer um conversor inteligente o suficiente para usar o formato certo antes de processar, mas já é alguma coisa...

 
Bookmark and Share

Adds

Links patrocinados:

Visitors Counter

Hoje30
Ontem99
Semana503
Mês759
Visitantes137413
38.107.179.210

Statistics

Content View Hits : 151612

Random Image

freebsd_meeting.fullsize.jpg