No mundo da informática, em geral os arquivos de texto podem ser escritos com vários jogos de caracteres diferentes. Isto é algo que a maioria das pessoas não têm necessidade de saber, e por isso, quando salvamos um arquivo de texto em um programa como o Bloco de Notas, ninguém nos pergunta que jogo de caracteres estamos utilizando ou queremos usar.
Existem diversos jogos de caracteres, que têm um conjunto maior ou menor de letras e símbolos, dependendo para o que foram desenhados. Talvez alguém tenha ouvido falar, ou visto fazer referencia em alguma parte, ao jogo de caracteres UTF-8, que é um dos mais comuns, ou o ISO-8859-1, que é o predeterminado na maioria dos editores de texto plano, em Windows. Ou seja, embora não saibamos, quando se salva um arquivo de texto no computador, se codifica utilizando um jogo de caracteres determinado.
Como já podemos imaginar, o jogo de caracteres não é mais que um conjunto de letras e símbolos utilizados na escrita e agora você já sabe que qualquer arquivo de informática que contém texto plano (arquivos .txt ou .html, por exemplo) está codificado com um jogo de caracteres. À hora de criar páginas web em HTML devemos ter em conta isto porque, dependendo do jogo de caracteres utilizado, teremos disponíveis uns ou outros símbolos no momento de redigir os textos de uma página web.
Neste artigo, que escrevemos para completar o Manual de HTML de CriarWeb.com, pretendemos oferecer todas as chaves sobre a escolha e a definição dos jogos de caracteres em sua página web, de maneira que você não tenha nunca o típico problema de não serem vistos corretamente os acentos, letras como a ñ ou outros símbolos como os maiores e menores que.
Para informar no código fonte HTML do conjunto de caracteres que utilizamos se dispõe de uma etiqueta META, que se coloca no cabeçalho do documento (no HEAD). Essa etiqueta tem esta sintaxe.
<meta http-equiv="Content-Type" content="text/html; charset=ISO-8859-1">
Como vemos, dentro desta etiqueta se está informando o "charset" (set ou conjunto de caracteres) utilizado, que neste caso seria "ISO-8859-1". Se estamos trabalhando com UTF-8 poderíamos utilizar esta META para informar sobre isso:
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
Quaisquer destas duas opções é bastante comum e nos oferecerá tudo que possamos necessitar. A escolha, portanto é um pouco indiferente quando estamos trabalhando em HTML e talvez dependa um pouco mais do programa que usemos para editar o código fonte de nossas páginas ou de nosso sistema operativo. Em Windows, a maioria dos programas salvam os arquivos de texto baixo o jogo de caracteres ISO-8859-1, por isso, o mais seguro é que estejamos utilizando esse charset mesmo que não saibamos.
Muitos programas, como o Bloco de Notas, não perguntam sequer o jogo de caracteres que queremos utilizar para salvar o arquivo, mas há outros editores mais avançados que sim permitem escolher o charset desejado. Dependendo do programa se pode decidir esse jogo de caracteres de diversas maneiras. Muitos deles tem caixas de diálogo na opção "Salvar como" que incluem um menu para marcar o charset que queremos utilizar e outros podem ser configurados nas opções de programa, para configurar o jogo de caracteres predeterminado a utilizar quando salvamos os arquivos. Há inclusive programas que são suficientemente inteligentes para que, à vista do código HTML e do charset que definimos no mesmo na etiqueta META, salvem por eles mesmos o arquivo com a codificação correta.
Por exemplo, se vemos o código fonte de CriarWeb.com veremos que escolhemos o ISO-8859-1, pois a maioria dos que editamos código fonte do site trabalhamos em Windows tradicionalmente e os arquivos estão com o jogo de caracteres predeterminado da maioria dos programas Windows. Outra maneira de ver o jogo de caracteres de uma página é utilizando o navegador Firefox na opção do menu "Ver / Codificação de caracteres".
Podemos encontrar Em CriarWeb.com uma explicação mais detalhada dos caracteres especiais, assim como uma lista daqueles disponíveis em HTML
Com isto espero que se solucionem também todas as dúvidas das pessoas que experimentam problemas pontuais em suas páginas web, quando alguns caracteres não se mostram corretamente. A maioria das vezes, como dissemos, isso se soluciona simplesmente especificando o jogo de caracteres no código fonte do HTML, na etiqueta META para especificar o charset.