Estudos da Web .br
O CEPTRO realiza, em conjunto com outras áreas do NIC.br, estudos sobre a Web Brasileira, definida neste contexto como a Web formada pelos sítios .br. A equipe tem a responsabilidade de coordenação técnica do projeto, desenvolvendo e executanto as ferramentas para a obtenção e análise dos dados.
Um estudo da Web brasileira pode ajudar a responder a várias questões, complementando e servindo de subsídio para outras ações. Por exemplo:
- Quantos sítios há na Web .br?
- Qual o tamanho da Web .br, e como se dá seu crescimento?
- Que tipo de tecnologias são utilizadas?
- Onde os sítios Web estão hospedados? No Brasil ou no exterior?
- Os sítios são aderentes aos padrões Web, como HTML e CSS?
- Os sítios são acessíveis?
- Há suporte a IPv6?
- Quais tecnologias são usadas para os servidores, páginas, imagens, documentos, vídeos, etc?
- Os servidores mantém seus relógios sincronizados com a Hora Legal Brasileira?
- (...)
NOVIDADE! Foram liberados em formato Open Source os sistemas utilizados na pesquisa:
Veja as apresentações sobre o projeto:
Lançado o primeiro resultado do projeto, o texto: "Dimensões e características da Web brasileira: um estudo do .gov.br". Clique na imagem para ir à página de download. Um dos tópicos analisados foi a aderência aos padrões do W3C e de acessibilidade. Dos 6,3 milhões de páginas HTML coletadas, cerca de 91% apresentaram mais de uma incorreção de aderência ao padrão HTML, e apenas 5% estão completamente de acordo com o padrão. A avaliação da aderência aos padrões de acessibilidade WCAG (Web Content Accessibility Guidelines), mostrou que 98% não apresentaram nenhuma aderência aos padrões de acessibilidade. Entre os sítios analisados, nenhum está disponível via protocolo IPv6. O protocolo substituirá a versão predominante atualmente, o IPv4, que só conseguirá dar suporte ao atual ritmo de expansão da Internet por mais um ou dois anos.
Introdução
A Web pode ser considerada um dos maiores sistemas criados pelo homem. Como sistema e ferramenta, ela interfere em praticamente todas as atividades humanas, com forte inserção em áreas como comunicação, ensino, pesquisa, economia, direito e serviços. O uso da Web é crescente e ainda incipiente. A Web brasileira certamente acompanha este crescimento, com o particular atrativo de que o cidadão brasileiro é o que passa mais tempo na Internet e na Web em todo o mundo na atualidade. Participam deste projeto o Governo Federal por meio da Secretaria de Logística e Tecnologia da Informação do Ministério do Planejamento, Orçamento e Gestão (SLTI / MPOG), o Comitê Gestor da Internet no Brasil, por meio do W3C Brasil, do CEPTRO e do CETIC, e o Instituto Nacional de Ciência e Tecnologia para a Web (INCT Web), sediado na Universidade Federal de Minas Gerais (UFMG). O objetivo é contribuir para o estudo e evolução da Web brasileira e mundial. Entender o crescimento e o potencial da Web, bem como suas implicações na sociedade é tema de interesse dos participantes do projeto e de pesquisadores da área. Os resultados deste projeto serão importantes para o planejamento das pesquisas e o desenvolvimento de projetos na Web brasileira, bem como instrumento de medida e acompanhamento das políticas públicas governamentais na área de governo eletrônico. A proposta é que o projeto se constitua em um trabalho contínuo que poderá servir de base de consulta atualizada para as instituições públicas, privadas, academia e a sociedade em geral. Histórico A motivação para realização desse projeto surgiu simultaneamente em duas frentes diferentes: O CEPTRO, Centro de Estudos e Pesquisas de Tecnologias de Redes e Operações do NIC.br, havia realizado em meados de 2008 um estudo na base de domínios .br, procurando entender a proporção de sítios Web hospedados no país e fora dele. Esse estudo demonstrou que 40% dos domínios .br estavam vinculados a endereços IP designados a entidades fora do país. Esse resultado mostrou a necessidade de um estudo mais profundo para entender melhor essa questão e responder a outras, ligadas à infraestrutura sobre a qual a Web brasileira se apóia, como: Qual a relação entre os sites fora do Brasil e outras variáveis, como seu tamanho ou importância? Com que velocidade o IPv6 está sendo implantado nessa infraestrutura? Como está a qualidade da sincronização de tempo dessa infraestrutura à Hora Legal Brasileira? No final de 2008, então, o CEPTRO começou a engendrar um projeto para realizar esses estudos, iniciando testes em ferramentas de coleta de dados de páginas Web (Web crawlers), disponíveis em código aberto, para identificar as limitações e possibilidades de levantamentos desse tipo. Por sua vez, também no final de 2008, o Governo Federal também interessou-se pelo tema, por conta da demanda da diretoria de Governo Eletrônico da Secretaria de Logística e Tecnologia da Informação (SLTI / MPOG) para gerar indicadores de sítios da Web brasileira sob o sub-domínio “.gov.br” que permitissem avaliar a adesão dos sítios do governo federal aos padrões do ePING (interoperabilidade) e eMAG (Modelo de Acessibilidade de Governo Eletrônico). Como até o presente momento não existem estudos completos e bem qualificados acerca do tema, o W3C Escritório Brasil manifestou interesse em ampliar o projeto para contemplar toda a Web brasileira de forma a permitir que os resultados do projeto sejam mais úteis e aplicados aos interesses dos governos, da academia e da indústria nacional. Os projetos do CEPTRO e W3C eram complementares e havia muitos pontos de sobreposição, de forma que achou-se por bem unificá-los. O W3C assumiu então um papel de articulador, agregando novos atores ao projeto, como a Secretaria Executiva do e-PING (Padrões de Interoperabilidade do Governo Federal), a Associação Brasileira de Entidades Estaduais de TICs (ABEP) e convidou a Universidade Federal de Minas Gerais (UFMG), através do INCT Web, para apoiar o projeto metodologicamente. O INCT Web, conhecido também como INWeb, é uma rede integrada de pesquisadores que foi criada para projetar e desenvolver sistemas, tecnologias e aplicações que permitam explorar as possibilidades de uso da Web no futuro de forma benéfica para a sociedade. O INCT Web visa estudar e entender os fundamentos científicos e tecnológicos da Web, bem como suas repercussões sociais, para propor e desenvolver sistemas e tecnologias que poderão compor a Web do futuro. Hoje, o projeto Censo da Web Brasileira (.BR) tem um grupo base participante que estabeleceu as premissas do projeto e um Conselho Consultivo que orienta, valida e atualiza os objetivos, os resultados e os produtos. O grupo base, além de fazer a coordenação geral, tem também seus papéis específicos assim distribuídos: Comitê Gestor da Internet no Brasil:- W3C Escritório Brasil – articulação geral;
- CEPTRO – coordenação técnica e operação da ferramenta de coleta de dados da Web;
- CETIC – suporte metodológico.
- Secretaria de Logística e Tecnologia da Informação (MPOG)
- Diretoria de Governo Eletrônico – orientação quanto às questões de acessibilidade e “.gov.br”
- Secretaria Executiva do e-PING – orientação quanto às questões de interoperabilidade e “.gov.br”
- Instituto Nacional de Pesquisas para Web – INCT Web - DCC/UFMG –consultoria técnico/científica para elaboração, desenvolvimento e validação dos resultados do projeto.
Ferramentas para o estudo da Web “.br”
Com a finalidade de se realizar um estudo da Web brasileira, são necessárias ferramentas para:- (i) baixar os dados relevantes;
- (ii) analisá-los, segundo as informações que se quer extrair.
- O WIRE: uma ferramenta construída com a finalidade de se realizar estudos acadêmicos sobre a Web;
- O Heritrix: uma ferramenta cujo objetivo é construir arquivos da Web, com recortes temporais de sítios, que podem ser consultados posteriormente;
- O Nutch/Lucene: ferramentas, geralmente utilizadas em conjunto, que servem como base para buscadores
Wire
O Wire é um projeto acadêmico do Centro para a Pesquisa da Web, da Universidade do Chile. Ele já foi utilizado com sucesso para a análise de diversas Web nacionais, inclusive da brasileira. O Wire integra um WebCrawler, ferramentas para armazenamento, análise dos dados e geração de relatórios. O componente principal do WIRE é um Web Crawer, ou seja, um programa que varre páginas da web buscando informações. No caso, o que o WIRE busca é o próprio conteúdo das páginas e seus metadados, a fim de gerar um grande conjunto de analises sobre a situação das páginas e Web Sites varridos. Ele foi desenvolvido em linguagem C++ e é operado via terminal de comando do linux. Em sua execução normal trabalha de forma cíclica executando sequencialmente os subprogramas seeder, manager, harvester e gatherer. E, ele é iniciado com um arquivo semente contendo as URLs de diversas páginas e sites. O software é bastante configurável, através de parâmetros em um arquivo XML, permitindo, por exemplo, limitar a profundidade da busca por páginas, o domínio de interesse, o tempo entre acessos, entre diversos outros parâmetros. A seguir está descrito o funcionamento de cada parte do programa. As rotinas do programa seeder compreendem o recebimento de uma lista de links e, a partir dela, verificar se os links já foram contabilizados no programa e em seguida decidir o que será feito com cada um deles. Para realizar tal decisão, é realizada a análise dos domínios e extensões das URLs recebidas. As principais configurações do seeder envolvem a escolha do conjunto de domínios que será varrido pelo Web Crawler. A classificação das extensões de arquivos entre páginas dinâmicas e estáticas, extensões de arquivos de imagens, de documentos de texto, entre outros. Tal classificação, serve para especificar o que será ou não baixado e analisado durante a execução do WIRE. O manager fica encarregado de gerar a lista de tudo o que deverá ser baixado na execução seguinte do harvester. Ele verifica a lista de pendências gerada pelo seeder e a organiza para a execução do download. Além disso, ele analisa profundidade dos links e suas prioridades de acordo as preferências quanto ao ranking das páginas configurados. É nele também que são configurados os tempos mínimos para a revisitação de páginas. Situações de revisitação de páginas podem ocorrer quando a analise de uma página recém baixada aponta um link para uma pagina já cadastrada. E, elas são executadas caso o tempo de decorrido desde a última visita da pagina seja maior do que o tempo minimo estipulado para revisitas. Esse tempo é dependente do tipo de resultado vindo da requisição anterior da página, por exemplo, se na primeira requisição não houve uma resposta do servidor, o tempo mínimo padrão para uma nova visita estar habilitada é de 2 horas. É o harvester que realiza o download das paginas. Ele quem realiza requisições aos servidores DNS e http dos links listados pelo manager. Suas configurações englobam uma diversidade de parâmetros destinados à otimização do download. Entre eles estão o número de threads, os time out envolvidos nas requisições e o tamanho dos documentos que serão baixados. Por fim, o gatherer realiza a análise das páginas baixadas, retirando tags HTML para a gravação do documento na coleção de páginas do programa. Ele também gera a lista de links das páginas para a execução do seeder. Entre suas configurações estão as tags ou conteúdos que deverão ser mantidos ou descartados, o tamanho máximo dos documentos salvos e o padrão de caracteres que será utilizado nos documentos. Além dos componentes do crawler, o WIRE possui ferramentas de análise dos dados, que permitem, entre outras variáveis, determinar:- O quantidade e tamanho das páginas
- A lista de links presentes nos documentos
- A idade das páginas
- A quantidade de páginas estáticas e dinâmicas
- Alguns tipos de rankings diferentes, como pagerank e siterank
- O idioma das páginas
AnáliseWeb
Embora o WIRE apresente uma quantidade considerável de ferramentas de análise, elas não são suficientes para os objetivos do presente projeto, que busca informações de áreas específicas de interesse na Web: o CEPTRO necessita de informações sobre a infraestrutura na qual se baseiam os sítios; o W3C sobre a aderência aos padrões Web; e o governo brasileiro, sobre a aderência aos seus padrões, como o de acessibilidade. Para minimizar a chance de introdução de novos bugs no WIRE concebeu-se uma ferramenta nova, que fosse capaz de analisar os dados coletados pelo crawler ao final de cada coleta, à semelhança das ferramentas já integradas ao mesmo, porém de forma independente. Foi construída, então, uma ferramenta em Java, denominada AnáliseWeb, com o objetivo de realizar tais testes. Essa ferramenta é composta por diversos módulos, divididos em quatro grandes grupos: Análises dependentes do host As análises dependentes do host são aquelas que necessitam ser feitas apenas 1 vez por host, ou seja, são relacionadas à infra-estrutura, e não às páginas Web em si. São elas:- Sincronização de tempo: A ferramenta verifica o tempo fornecido pelo servidor Web, comparando-o com o UTC e com a Hora Legal Brasileira, obtida através do protocolo NTP, com o objetivo de verificar a correta sincronização dos servidores Web.
- Tempo de resposta: Mede o tempo de resposta do servidor
- Tipo de servidor: Verifica o tipo de servidor (apache, IIS, etc)
- Geo Localização: Com auxílio de uma base externa, a geoIP, determina a localização geográfica (país) de um determinado host.
- Disponibilidade via IPv6: Verifica vários níveis de acessibilidade via IPv6, como existência de registros AAAA no site principal e em sites de teste, resposta a ping e consultas http.
- Acessibilidade: Os padrões de acessibilidade do governo federal são verificados, através do uso da ferramenta ASES, que foi parcialmente integrada ao AnáliseWeb. Os resultados são também sumarizados por host.
- Aderência aos padrões W3C: A aderência aos padrões HTML e XHTML são verificadas através da execução externa do próprio analisador do W3C, utilizando um instância instalada localmente.
- Análise dos links: Embora o WIRE forneça a lista de todos os links para documentos encontrados nas páginas baixadas, sua ferramenta original de análise faz a sumarização apenas para a pesquisa como um todo. Ou seja, é possível saber quantos documentos do tipo PDF há na Web brasileira, mas não fazer recortes por site, ou subdomínio, ou qualquer outro. Para tanto, foi construída uma nova ferramenta, que relaciona a lista de links com os hosts, permitindo vários tipos de recortes.
- XML: A pedido do governo brasileiro, foi incluída ainda no AnaliseWeb? uma ferramenta para o download de todos os arquivos XML encontrados, para análise posterior.

