Michel Boaventura

Brincando de crawler

     Postado em terça-feira, 27/07/2010 por michel

Precisei fazer um trabalho interessante: pegar milhares de páginas idênticas e extrair alguns dados específicos para gerar um banco de dados.

Usando Ruby e HPricot, ficou até sem graça:

require 'rubygems'
require 'hpricot'

doc = open(ARGV[0]) { |f| Hpricot(f) }

(doc/'#listagemConvenios'/'table'/'tbody'/'tr').each do |tr|
  (tr/'td').each { |td| print "\"" << td.inner_text.strip << "\"," }
  puts
end

Não tem muito o que explicar. Fiz um crawler completo em 7 linhas de código :)

Paolo Conte – Come Away with Me (Vieni via con me)

     Postado em segunda-feira, 08/03/2010 por michel

Vi esse vídeo no @papodehomem e gostei. Diferente do que eu costumo ouvir, mas é muito bom.

Software livre x pirataria

     Postado em quinta-feira, 04/03/2010 por michel

Ao ver uma reportagem intitulada “Brasil pode ser punido por software livre” que foi publicada na Info Exame, fiquei assustado. Segundo o autor, James Della Valle, “A Aliança Internacional pela Propriedade Intelectual (IIPA em inglês) pode colocar o Brasil na lista negra do copyright por causa do apoio ao software livre e de casos constatados de pirataria.”. Achei esta frase muito inconsistente, e resolvi me informar melhor.

O documento divulgado pela IIPA, que pode ser acessado aqui serve como um manual para o United States Trade Representative (algo como o Ministério de Comércio Exterior), e descreve a situação atual da pirataria em diversos países e cria categorias, de acordo com o “perigo que representam ao capitalismo” (não estou sendo radicalista, este é exatamente o termo utilizado por eles).

Na página 436 do documento, já é possível refutar a afirmação “… pode colocar o Brasil na lista negra do copyright”. A verdade é que em 21 anos de existência, tivemos honrosas 20 aparições na temida “lista negra”.

No mesmo documento, temos um capítulo especial para nós (página 169, ou você pode lê-lo aqui). São 15 páginas descrevendo tudo o que há de mais malévolo em pirataria no país. Citam-se leis, fatos, estatísticas, e inúmeros argumentos que comprovam o que todos nós sabemos: a pirataria no Brasil está fora de controle.

Embora seja contra a pirataria, e concorde com o que está escrito sobre isto no documento,
gostaria de me ater ao que mais me preocupou nesta reportagem: o fato do software livre ter sido taxado como pirataria. A única informação que se parece com isso, mesmo que muito vagamente surge em uma série de conselhos dados a nós brasileiros, para que possamos vencer este mal: “Avoid legislation on the mandatory use of open source software by government agencies and government controlled companies(Evitar legislar sobre a obrigatoriedade do uso de softwares de código aberto por agências governamentais e companhias controladas pelo governo)”. A argumentação da IIPA é que ao fazer isso, o país limita a concorrência e a produção de tecnologia, uma vez que elimina automaticamente a possibilidade de negócios com diversas empresas como, por exemplo, a Microsoft, convenientemente sediada nos Estados Unidos. Concordo parcialmente com este argumento mas, novamente, quero me ater à relação software livre x pirataria.

A verdade é que não há, em todo o documento, uma só comparação entre eles.

Resumindo, tanto o título quando o conteúdo da reportagem são sensacionalistas e mentirosos. Talvez
o autor tenha apenas pego um artigo pronto, como o publicado no The Guardian “When using open source makes you an enemy of state“, cujo autor por sua vez também errou ao adaptar um post de um professor da Universidade de Edimburgo, que pode ser acessado aqui.

Um enome telefone-sem-fio que acabou com uma confusão imensa no país, causado por um jornalista no mínimo irresponsável. Mas, seria exigir demais pedir que ele se desse ao trabalho de ler o documento oficial. Afinal são quase 500 páginas, mais que qualquer livro que ele tenha lido em seu bacharelado de jornalismo. Alias, já não é mais necessário um, não é mesmo?

Aprendizado do dia? Não acredite em tudo que você lê!