Archive for the 'folksonomia' Category

Master thesis

Estou aqui enlouquecendo trabalhando na minha dissertação (aqui em PT, tese) de mestrado e resolvi compartilhar um pouco dessa experiência. É um trabalho violento e árduo, mas espero que valha a pena.

Espero que depois que pronta eu consiga publicar (em conferências INTERNACIONAIS) e participar de concursos de dissertações de mestrado da SBC. Poderia ter feito isso já com o TCC da graduação aqui mas do ponto de vista de Recuperação de Informação o que eu fiz como estudo de caso foi muito pequeno (só prova de conceito, praticamente um toy example) e eu não dei prosseguimento ao sistema. Isso tudo feito às pressas pra conseguir o grau antes de ir pra Recife pro mestrado, apesar do 10 unânime de uma banca cabulosa lá da UFAL (modéstia à Marte).

Além disso, tive que aprender Recuperação de Informação (RI) e Aprendizagem de Máquina (AM) sozinho! Só por isso já mereço um prêmiozinho…

Nuvem de tags - ORGANIZE A WEB, MOTHAFUCKA

Nuvem de tags - ORGANIZE A WEB, MOTHAFUCKA

Bom, o assunto da dissertação: Folksonomias e Sugestão de tags. Construí (?) um sistema que extraiu dados do Delicious e depois usei técnicas de RI, AM e outras coisas. Usei como base da sugestão de tags pra páginas Web o conteúdo textual (implementado, preciso e lindo!), páginas vizinhas (inbound pages) (80% implementado) e informação do WordNet e ontologias (Aqui há dragões no código! Trabalhando nisso!). No final faço uma comparação entre as tags que sugeri e as tags do Delicious pra dar uma medida quantitativa do quanto o sistema é bom e uma análise do comportamento do usuário (p. ex. que tipo de tags o sistema NUNCA vai sugerir: “semweb” e “webdev” fica difícil).

Já passei do nível de loucura com esse sistema, o que pode ser melhor visto na quantidade de linhas de código da bagaça (inclui somente .java, código e testes). Mas vamo nessa, não desisto NUNCA!

Ia colocar o abstract aqui, mas como é um trabalho não-publicado (malditos revisores animais, alguns nem entenderam o sistema) vou deixar pra depois pra falar dos louros que consegui com o trabalho.

Boa noite, boa sorte (pra mim)!

Anúncios

Sugestão de tags

Sugestão de tags é a tarefa de ajudar os usuários a etiquetar recursos (ex: páginas no del.icio.us) recomendando tags relevantes. A principal estratégia é usar tags já usadas para descrever o mesmo conteúdo ou recursos similares.

Como esse é um dos tópicos que eu vou trabalhar em Portugal, resolvi fazer meu trabalho de Recuperação de Informação em cima do assunto (Apresentação do projeto aqui). O protótipo ainda não tem tanta precisão e sugere tags muito genéricas, mas foi um primeiro passo interessante.

Nesse projeto, resolvi usar só o conteúdo textual dos recursos, que nesse caso são artigos da Wikipédia sobre Engenharia de Software, Redes de Computadores e Inteligência Artificial totalizando mais de 6000 artigos.

Alguns exemplos:

C++ – Programação C Linguagem Software Código

UML – Software Modelagem Engenharia UML Desenvolvimento

Model Driven Architecture (MDA) – Software Desenvolvimento Programação Modelo Processo

Todo a coleção: Software Internet Programação Linguagem Sistema Linux Código Computador X Livre Rede Web Windows Dados Redes

Uma coisa que poderia ficar melhor era usar recursos similares, páginas da Wikipédia já rotuladas no del.icio.us, agrupar tags, tentar melhorar as fórmulas, etc. Enfim, é isso… It’s a long way.

O jogo dos (meta)dados

Houve uma discussão sobre a burocracia da Web Semântica num post anterior. Precisamos rolar os dados… Devem haver métodos FÁCEIS (user-friendly), xuxu beleza, dinâmicos, sociais, etc (ao quadrado) para representar conhecimento (dados e metadados) de forma organizada e processável. Não precisa ser tão burocrático!

Só assim a Web pode ser semântica numa escala tão grande como ela agora ou ela daqui a 1 ano, 1 segundo. Mas para garantir semântica precisamos de algumas estruturas (e ontologia é apenas uma delas, porém, a mais completa, formal e bem estudada) para organizar a bagunça.

Duas formas de fazer isso que levam muito em consideração o que a Web 2.0 trouxe, sem precisar editar OWL e saber Lógica de Descrição: folksonomias e Wikis Semânticos. Folksonomias já foram explicadas. Wikis Semânticos são ambientes de edição Wiki onde atributos como relações entre páginas, suas categorias e hierarquias podem ser descritas “in a Wiki way”, facinho como editar um artigo da Wikipédia. Uma grande feature de um Wiki Semântico são os links tipados. É só colocar um rótulo no link, é só dizer o que este link significa. Soa fácil né? Pois é! Veja aí a figura. É do artigo sobre a extensão semântica do MediaWiki (software que a Wikipédia usa debaixo dos panos).

Links tipados no SemanticMediaWiki

Links tipados no SemanticMediaWiki

Um usuário comum e saltitante quer tarefas fáceis, produzir ontologias não é uma delas. Eles querem fazer como os times do Renato Gaúcho, BRINCAR! Assim, o conhecimento deles precisa ser capturado com interfaces analfabetas como caixinhas de texto para tags. Até mesmo tipar links pode ser impeditivo. E agora? Vamos precisar dos “engenheiros de conhecimento” da época dos sistemas especialistas e da “I.A. de papai” pra produzir todas as ontologias? I don’t think so.

Com estruturas de semântica fraca como folksonomias temos dados capturados de qualquer tipo de usuário. Podemos então usar técnicas de estatística, processamento de linguagem natural e análise de redes sociais para a inferência de conhecimento mais formal, que pode servir tanto pra melhorar a propria folksonomia ou para agregar serviços ao site que faz uso do sistema de social tagging. Podemos fazer com que isso convirja para uma ontologia!

Além disso, metadados servem para fazer anotação semântica, ou seja, informação numa página que é processada por agentes com conhecimento de ontologias. Por exemplo, usar metadados dublin core para especificar autor, título e outros dados pessoais numa página, de maneira formalizada, é um começo.

Á-RRAI! I-HI! Web Semântica vale UM MILHÃO!

Á-RRAI! I-HI! Web Semântica vale UM MILHÃO!

Finalmente… vamos usar estruturas com semântica formal bem definida como ontologias ou estruturas de semântica leve e depois extrair essas informações? Eis a pergunta que vale 1 milhão de reais, e talvez não precisemos tanto da ajuda dos universitários, MÁ ÔI!

A fantástica fábrica de conhecimento

Disseram que é só pensar nas primeiras palavras que nos vêm a cabeça sobre o conteúdo de uma página Web e digitar numa caixinha e mandar pro Digg, pro Del.icio.us, pro flickr. Aí se organiza o caos! Fácil né?!

Imagine um supermercado você pode colocar etiquetas em vinhos para classificá-los. Você pode se valer da opinião “etiquetada” de outros consumidores para decidir que marca comprar. Você pode enviesar sua opinião pela classificação de amigos e pessoas próximas.

Já que a classificação foi útil, você também rotula o vinho consumido, para beneficiar mais pessoas, como aconteceu com você. Outra coisa, as pessoas que gostam de vinho frisante como você se identificarão através das etiquetas. Uma comunidade pode surgir!

Isso é o que acontece nos sistemas de Social Tagging (Etiquetamento social??! %$#%!@#, em português fica esquisito, sugestões?). Usando o conceito de atribuir tags (palavras-chave) a recursos da Web como fotos, artigos e páginas favoritadas, eles surgiram como a salvação do rock há alguns anos atrás, no meio do boom da Web 2.0.

definição gráfica for dummies

Folksonomia: definição gráfica for dummies

Com vários apreciadores classificando vinho, podemos então separar os tintos dos brancos, e criar várias outras categorizações. Na Web, isso significa facilitar a navegação, recuperação, descoberta e organização de conteúdo (ou conhecimento!).

É dessa interação de bêbados tomando vinho e classificando produtos que surgem as folksonomias, termo oriundo da junção das palavras folk (pessoas) e taxonomia (estrutura de classificação hierárquica formal), estruturas que organizam o conteúdo rotulado. Um exemplo disso é a estrutura de nuvem de tags (tem uma aqui do lado direito!).

Porém, existem vinhos intragáveis. Vinhólatras (e usuários Web!) podem usar classificações que só valem para organização própria, com rótulos como “comprar mais semana que vem”. São as chamadas tags egoístas, tema pro próximo post.

Além disso, as folksonomias estão bem longe de taxonomias, pois a classificação é “flat”, ou seja, não existem relações entre os conceitos (tags) usados de modo a criar hierarquias, tudo está no mesmo nível. Não se pode dizer que “tinto suave” é uma sub-categoria de “tinto”. Outro pano pra manga que fica pra depois…

Saiba mais:

Sobre o surgimento e definição do termo, pelo criador
Folksonomia e a maneira com que nós colocamos ordem nas coisas (no revolução.etc)
Tags e folksonomia: o usuário classifica a informação (no webinsider)


posts mais populares

posts por mês

assine esse blog

minhas tuitadas

Erro: o Twitter não respondeu. Por favor, aguarde alguns minutos e atualize esta página.

favoritos@del.icio.us

eu uso





Powered by FeedBurner

estatística

  • 16,184 acessos
outubro 2017
S T Q Q S S D
« dez    
 1
2345678
9101112131415
16171819202122
23242526272829
3031