Arquivo para a categoria 'web'

Master thesis

Estou aqui enlouquecendo trabalhando na minha dissertação (aqui em PT, tese) de mestrado e resolvi compartilhar um pouco dessa experiência. É um trabalho violento e árduo, mas espero que valha a pena.

Espero que depois que pronta eu consiga publicar (em conferências INTERNACIONAIS) e participar de concursos de dissertações de mestrado da SBC. Poderia ter feito isso já com o TCC da graduação aqui mas do ponto de vista de Recuperação de Informação o que eu fiz como estudo de caso foi muito pequeno (só prova de conceito, praticamente um toy example) e eu não dei prosseguimento ao sistema. Isso tudo feito às pressas pra conseguir o grau antes de ir pra Recife pro mestrado, apesar do 10 unânime de uma banca cabulosa lá da UFAL (modéstia à Marte).

Além disso, tive que aprender Recuperação de Informação (RI) e Aprendizagem de Máquina (AM) sozinho! Só por isso já mereço um prêmiozinho…

Nuvem de tags - ORGANIZE A WEB, MOTHAFUCKA

Nuvem de tags - ORGANIZE A WEB, MOTHAFUCKA

Bom, o assunto da dissertação: Folksonomias e Sugestão de tags. Construí (?) um sistema que extraiu dados do Delicious e depois usei técnicas de RI, AM e outras coisas. Usei como base da sugestão de tags pra páginas Web o conteúdo textual (implementado, preciso e lindo!), páginas vizinhas (inbound pages) (80% implementado) e informação do WordNet e ontologias (Aqui há dragões no código! Trabalhando nisso!). No final faço uma comparação entre as tags que sugeri e as tags do Delicious pra dar uma medida quantitativa do quanto o sistema é bom e uma análise do comportamento do usuário (p. ex. que tipo de tags o sistema NUNCA vai sugerir: “semweb” e “webdev” fica difícil).

Já passei do nível de loucura com esse sistema, o que pode ser melhor visto na quantidade de linhas de código da bagaça (inclui somente .java, código e testes). Mas vamo nessa, não desisto NUNCA!

Ia colocar o abstract aqui, mas como é um trabalho não-publicado (malditos revisores animais, alguns nem entenderam o sistema) vou deixar pra depois pra falar dos louros que consegui com o trabalho.

Boa noite, boa sorte (pra mim)!

RSS e Twitter no mesmo (ciber)espaço

Eu tava pensando nisso depois de uma semana usando o Twitter, vendo a quantidade (e a velocidade!) de links sugeridos pra lá e pra cá: Será que o RSS vai morrer desse jeito? Semana passada, no Twitter do “wanna-be-rich-with-semantic-web-boy” Nova Spivack, vi que ele discordava desse artigo do TechCrunch, que diz simplesmente que o RSS morreu com ferramentas como o Twitter, que fazem “gerenciamento de conteúdo em tempo real”.

O RSS morreu (falso!). Viva o RSS.

O RSS morreu (falso!). Viva o RSS.

Continuar lendo ‘RSS e Twitter no mesmo (ciber)espaço’

Wolfram Alpha – Você pergunta, a Web responde!?

Depois dos fracassos de Cuil e Wikia, mais um Google Killer wannabe? Acho que dessa vez não. O hype sobre a ferramenta vem crescendo muito, até porque ela vem com o respaldo de um cientista conhecido, Stephen Wolfram, físico, matemático e empresário conhecido por ser autor da ferramenta Mathematica e por trabalhos em áreas como autômatos celulares. Caros amigos, apresento-lhes o Wolfram Alpha.wolfram_alphaO jornal The Independent diz que a ferramenta mudará a Internet pra sempre. (Ohhhh). O sistema deve ser lançado ainda esse mês. OMFG, agora vai, Google R.I.P. O que é que esse negócio faz? Diz aí!

Segundo o autor, a ferramenta é uma “máquina de conhecimento computacional”. (…) . Hein?

Bom, diferente do Google, que retorna um bocado de links para possíveis respostas às perguntas dos usuários, o Wolfram Alpha tenta entender a pergunta e retornar uma resposta através de uma base de conhecimento criada para as mais diversas áreas, contendo terabytes de informação avaliada por especialistas e algoritmos para modelar e raciocinar sobre esse conhecimento.

O sistema computa as respostas! Calcula! Não é um amontado de pares pergunta-resposta nem busca respostas numa base de fatos. Ao invés disso o sistema é capaz de entender e retornar respostas para alguns tipos de pergunta. Além das respostas há maneiras de explorar conhecimento/dados relacionados e efetuar comparações já que a resposta pode incluir diagramas, gráficos e links para questões relacionadas.

Por exemplo, uma consulta sobre a temperatura em Tóquio no ano de 2008 mostrará médias de temperatura, umidade e velocidade do vento, além de um gráfico com as temperaturas médias, mínimos e máximos ao longo do ano. Diferente do Google, que ia mandar você ver o site da agência de meteorologia do Japão. No Wolfram Alpha é como perguntar a um expert na área como naquela frase: “pergunte a quem realmente entende do assunto”.

Consulta sobre temperatura em Tóquio no ano de 2008

Consulta sobre temperatura em Tóquio no ano de 2008

Continuar lendo ‘Wolfram Alpha – Você pergunta, a Web responde!?’

As melhores tirinhas do Nerdson

Nerdson é um site com tirinhas nerds, ou como coloca seu autor:  ” é um blog de quadrinhos sobre programação, arte e cultura digital. Quadrinhos feitos de nerd para nerds.”.

Relatando fatos engraçados do nosso mundo como chefes absurdos, novas modas na Internet e piadas técnicas e sobre o estereótipo nerd, as tirinhas do Nerdson são destinadas principalmente aos Computeiros. Diferente do PhD Comics que eu só peguei algumas tiras, no Nerdson eu pesquisei o site inteiro!!

Aí vão alguns exemplos (não entendeu as piadas?  noob!):

nerdson1361 Continuar lendo ‘As melhores tirinhas do Nerdson’

Google Profiles

Se você coloca seu nome no google, o que aparece? Parece uma besteira, uma curiosidade apenas, mas na verdade é muito importante. Gestores de recursos humanos usam cada vez mais esse tipo de pesquisa para conhecer o perfil dos candidatos a emprego. No meu caso…

google_me-1

Sem acento aparece:

  1. Meu Twitter
  2. A tag de ontologia no meu blog (por ser a mais usada). Isso é ótimo porque me relaciona a área de pesquisa ;)
  3. Sobre mim do blog, com uma mini biografia e principais publicações. Também muito útil pra Marketing Pessoal.
  4. Lixo (outro Ícaro Medeiros)
  5. Post em uma mailing list do Debian. Também importante pois denota que você é um membro participativo de comunidades técnicas :P

Com acento temos:

  1. Meu currículo Lattes (PERFEITO!)
  2. Página inicial do Blog (já que o título do blog é meu nome)
  3. Tag ontologia no Blog
  4. Meu Twitter
  5. Meu LinkedIn (rede social profissional). Muito útil também, contém minha formação, empregos e contatos profissionais.

Mas o assunto não é esse. A grande questão é que o Google acaba de lançar uma ferramenta que permite buscas mais interessantes quando são consultados nomes de pessoas no sistema, o Google Profiles. Com ele você cria um perfil, uma espécie de “orkut mais sério” e põe  coisas como atividade profissional, onde nasceu, cidades que morou, contato e link para sites com perfis seus como no Orkut, Facebook, etc. Aqui está o meu Google Profile.

E qual a grande vantagem disso? Se procurar pelo seu nome no Google no final da página de resultados aparecerá um link para o seu perfil Google com as suas informações, e você pode ficar a uma busca de ser encontrado. Muito fácil!

landing2updated

Por enquanto a novidade só aparece acessando pelo google.com e com resultados em inglês. Via Marketing de Busca.

Mapa de tendências na Web

Um grupo de japas arquitetos de informação fez mais um daqueles mapas da Web, no melhor estilo linhas de Metrô. Veja o mapa completo (6740 x 4768) ou a versão em Flash navagável (com zoom, etc).

Por exemplo, os 10 sites mais influentes são (na ordem): Google, Yahoo, MSN, Apple, Wikipedia, Amazon, Youtube, Facebook, Twitter e The Pirate Bay. No total são 333 sites e a ordem é dada por critérios como tráfego, receita, idade e empresa proprietária.

Wikipedia e Twitter do mapa da Web mundial

Wikipedia e Twitter do mapa da Web mundial

O mapa do metrô é dividido em linhas com cores específicas como “linha de publicação”, “linha de notícias”, “linha de compartilhamento”, etc. A linha cinza que tem a Wikipédia, mostrada na figura, por exemplo, é a “linha do conhecimento”. Ela abrange sites como OReilly.com, How Stuff Works, IMDB, w3schools, linux.org, etc.

Veja também: Mapa dos 80 melhores blog (brasileiros e internacionais) segundo a revista Época.

Vi no Revolucao.etc.br.

10 habilidades essenciais para desenvolvedores para os próximos 5 anos

Só pra tirar o mofo desse blog, vou ver se volto ao ritmo de postagens de antes.

Repassando um artigo interessante que li hoje sobre habilidades importantes para desenvolvedores para os próximos anos… 10 skills developers will need in the next five years. Adiantando a lista:

  1. Usar uma das “três grandes” linguagens: Java, .NET ou PHP
  2. Aplicações ricas (Rich Internet Applications) com Flex, JavaFX, Silverlight, HTML5, Ajax, etc.
  3. Desenvolvimento Web
  4. Web Services
  5. Habilidades gerenciais e relacionamentos fora do departamento de TI
  6. Usar alguma linguagem dinâmica ou funcional (Ruby, Python, F# ou Groovy)
  7. Metodologia Ágil
  8. Conhecimento de domínio
  9. Ambiente de desenvolvimento adequado (SVN, ferramentas de bug tracking, etc)
  10. Desenvolvimento de sistemas embarcados

E aí? Quantos itens dos 10 você já faz?

Sugestão de tags

Sugestão de tags é a tarefa de ajudar os usuários a etiquetar recursos (ex: páginas no del.icio.us) recomendando tags relevantes. A principal estratégia é usar tags já usadas para descrever o mesmo conteúdo ou recursos similares.

Como esse é um dos tópicos que eu vou trabalhar em Portugal, resolvi fazer meu trabalho de Recuperação de Informação em cima do assunto (Apresentação do projeto aqui). O protótipo ainda não tem tanta precisão e sugere tags muito genéricas, mas foi um primeiro passo interessante.

Nesse projeto, resolvi usar só o conteúdo textual dos recursos, que nesse caso são artigos da Wikipédia sobre Engenharia de Software, Redes de Computadores e Inteligência Artificial totalizando mais de 6000 artigos.

Alguns exemplos:

C++ – Programação C Linguagem Software Código

UML – Software Modelagem Engenharia UML Desenvolvimento

Model Driven Architecture (MDA) – Software Desenvolvimento Programação Modelo Processo

Todo a coleção: Software Internet Programação Linguagem Sistema Linux Código Computador X Livre Rede Web Windows Dados Redes

Uma coisa que poderia ficar melhor era usar recursos similares, páginas da Wikipédia já rotuladas no del.icio.us, agrupar tags, tentar melhorar as fórmulas, etc. Enfim, é isso… It’s a long way.

Web Semântica e o efeito do Fax

Lendo o livro do Peter Mika, Web Semântica e Redes Sociais, na parte sobre a adoção da Web semântica, se fala do efeito do Fax, que emperra a adoção em larga escala de RDF e OWL, p. ex.

É mais ou menos assim: quando as primeiras máquinas de Fax entraram no mercado, tinham um preço alto e eram inúteis… Por quê? A utilidade delas vêm do fato de serem capazes de se comunicar com outras. Assim, seu valor de utilidade só emerge proporcionalmente a quantidade de usuários que adotam a novidade. Isso também acontece com tecnologias semânticas, que prometem um mundo de integração, reuso e inferência em dados distribuídos por muitos sítios na Web.

O efeito do Fax será superado!

O efeito do Fax será superado!

E quando é que a Web Semântica será uma tecnologia (1) atrativa, (2) interessante e finalmente (3) indispensável para que haja adoção? Veremos.

Um programador não vai ser um early adopter (1) de tecnologias semânticas caso o big boss não imponha dizendo que é uma ferramenta interessante (2) pra gerir e apresentar o conhecimento dos empregados sobre o domínio da aplicação. Empresas inovadoras estão na fase (1) – há boas idéias por aí e sítios começando. Estes vão fazer gerentes acharem as tecnologias aplicáveis nas empresas (2).

Se todas as empresas usam Fax, o problema pode ser financeiro (3). Clientes são perdidos porque não se adotou uma tecnologia, empresas podem fechar por não terem entrado no campeonato nas fase (1) ou (2). Hoje em dia, quem não faz absolutamente nada com AJAX, PERDE mercado. Quem perder mercado porque não tem um site semantic-aware, adotará a Web 3.0 (3!).

Só não vai atrás da Nova Web quem já morreu!

Só não vai atrás da Nova Web quem já morreu!

O que acontece é: Empresas querem produtividade e talvez só adotem (ou briguem por) uma coisa nova quando o Martin Fowler ou algum guru disser que é bom! Ou quando doer no bolso!

Infelizmente, há ainda muitos gaps na infra-estrutura da Web Semântica: API’s, ferramentas de autoria de ontologias, integração de bancos de dados legados, etc. Pra mim, o que falta são as Killer Applications, que podem surgir a despeito dos gaps. Afinal, nenhum guru iria dizer que “redes socias isso, redes sociais aquilo” se não aparecessem Orkut, Wikipédia, YouTube, Flickr, Del.icio.us, etc.

Há muito para se percorrer, muitos entrarão no meio da competição, que sim, JÁ COMEÇOU. Mas quem não largar na frente pode perder a maratona!

O jogo dos (meta)dados

Houve uma discussão sobre a burocracia da Web Semântica num post anterior. Precisamos rolar os dados… Devem haver métodos FÁCEIS (user-friendly), xuxu beleza, dinâmicos, sociais, etc (ao quadrado) para representar conhecimento (dados e metadados) de forma organizada e processável. Não precisa ser tão burocrático!

Só assim a Web pode ser semântica numa escala tão grande como ela agora ou ela daqui a 1 ano, 1 segundo. Mas para garantir semântica precisamos de algumas estruturas (e ontologia é apenas uma delas, porém, a mais completa, formal e bem estudada) para organizar a bagunça.

Duas formas de fazer isso que levam muito em consideração o que a Web 2.0 trouxe, sem precisar editar OWL e saber Lógica de Descrição: folksonomias e Wikis Semânticos. Folksonomias já foram explicadas. Wikis Semânticos são ambientes de edição Wiki onde atributos como relações entre páginas, suas categorias e hierarquias podem ser descritas “in a Wiki way”, facinho como editar um artigo da Wikipédia. Uma grande feature de um Wiki Semântico são os links tipados. É só colocar um rótulo no link, é só dizer o que este link significa. Soa fácil né? Pois é! Veja aí a figura. É do artigo sobre a extensão semântica do MediaWiki (software que a Wikipédia usa debaixo dos panos).

Links tipados no SemanticMediaWiki

Links tipados no SemanticMediaWiki

Um usuário comum e saltitante quer tarefas fáceis, produzir ontologias não é uma delas. Eles querem fazer como os times do Renato Gaúcho, BRINCAR! Assim, o conhecimento deles precisa ser capturado com interfaces analfabetas como caixinhas de texto para tags. Até mesmo tipar links pode ser impeditivo. E agora? Vamos precisar dos “engenheiros de conhecimento” da época dos sistemas especialistas e da “I.A. de papai” pra produzir todas as ontologias? I don’t think so.

Com estruturas de semântica fraca como folksonomias temos dados capturados de qualquer tipo de usuário. Podemos então usar técnicas de estatística, processamento de linguagem natural e análise de redes sociais para a inferência de conhecimento mais formal, que pode servir tanto pra melhorar a propria folksonomia ou para agregar serviços ao site que faz uso do sistema de social tagging. Podemos fazer com que isso convirja para uma ontologia!

Além disso, metadados servem para fazer anotação semântica, ou seja, informação numa página que é processada por agentes com conhecimento de ontologias. Por exemplo, usar metadados dublin core para especificar autor, título e outros dados pessoais numa página, de maneira formalizada, é um começo.

Á-RRAI! I-HI! Web Semântica vale UM MILHÃO!

Á-RRAI! I-HI! Web Semântica vale UM MILHÃO!

Finalmente… vamos usar estruturas com semântica formal bem definida como ontologias ou estruturas de semântica leve e depois extrair essas informações? Eis a pergunta que vale 1 milhão de reais, e talvez não precisemos tanto da ajuda dos universitários, MÁ ÔI!

Próxima Página »


posts por mês

assine esse blog

minhas tuitadas

favoritos@del.icio.us

eu uso





Powered by FeedBurner

estatística

  • 12,743 acessos

 

maio 2012
S T Q Q S S D
« dez    
 123456
78910111213
14151617181920
21222324252627
28293031  

Seguir

Obtenha todo post novo entregue na sua caixa de entrada.