Time Sensitive: Um blog sobre pesquisa histórica e ferramentas digitais
Voyant, Palladio e Tableau
A apresentação dos resultados da pesquisa é tão importante quanto a própria análise. Se você ainda não conferiu a página Ferramentas de Comunicação aqui no site, recomendo que faça isso antes de continuar lendo esta página. A comunicação do conhecimento histórico é tarefa complicada; e as ferramentas que discuti na página anterior podem ajudar. Algumas ferramentas digitais para visualização de dados, entretanto, vão além da apresentação e da comunicação. Eles permitem investigações mais aprofundadas, novas respostas e análises mais complexas de dados já antes examinados. Voyant, Palladio e Tableau são exemplos de ferramentas de visualização cruciais para novas interpretações históricas.
Voyant
Quando a Professora Dra. Leisl Carr Childers me apresentou a ferramenta Voyant durante seu seminário de pós-graduação em métodos na Colorado State University, percebi algumas coisas. Primeiro, que os historiadores podem, equivocadamente, tomar como certa a natureza textual das fontes primárias tradicionais. A estrutura, o vocabulário e os termos de um corpus, além de mudarem ao longo do tempo, dizem muito sobre a cultura e a sociedade nas quais se inserem. Em segundo lugar, que o processo de text mining (ou “exploração” textual), tão caro aos humanistas digitais e aos estudiosos da linguística, pode revelar-se inestimável para a análise histórica. Transformar texto em dados estruturados adequados para processos computacionais abre um novo espaço de interpretação de documentos históricos e argumentação.
O site Voyant permite ao usuário fazer upload de um corpus textual diretamente na página inicial. No processo de text mining, a ferramenta reconhece termos no corpus que provavelmente são “stop words” e, portanto, irrelevantes para análise, como artigos “o” e “a”, preposições, etc. O resultado é um conjunto de pelo menos cinco visualizações diferentes (ou “skins”) que fornecem novas maneiras de entender o corpus. Para este experimento, carreguei o corpus de Frankenstein de Mary Shelley.
A skin Terms é, sem dúvida, a mais simples de compreender. Ela exibe a contagem de cada termo do corpus e permite ao usuário decidir se deve ou não editar a lista de palavras irrelevantes para fins da questão de pesquisa. Removi palavras como “eu” e “devo” para ter uma melhor compreensão dos termos mais frequentes com valor semântico.
Na skin Reader, você pode notar que procurei por “mind*” e “heart*” para avaliar a distribuição desses termos e suas variações (representadas aqui pelo comando “*”) ao longo do corpus. Minha esperança era experimentar o potencial analítico da ferramenta e ver onde, no corpus, os termos apareciam mais. Nesse sentido, eu estava olhando para frequência – o número de vezes que a frase aparece em um corpus – e concordância – o contexto em que ela aparece – ao mesmo tempo através da skin Reader, dois conceitos importantes na metodologia de análise textual e no campo da linguística. A skin Trends fornece uma noção de frequência ainda melhor, mas quase não aborda a concordância e o posicionamento contextual. Veja abaixo.
Agora, o poder de examinar a concordância e as correlações de termos – ou “tipos”, para usar a terminologia metodológica – ao longo de um grande corpus é onde está o verdadeiro potencial de text mining para os historiadores digitais. A investigação humanística geralmente requer pensamento qualitativo, mas a análise de texto, como sugerem Stefan Sinclair e Geoffrey Rockwell, é uma simbiose entre operações quantitativas e qualitativas.1 Num texto, as palavras podem representar o sujeito ou o objeto dos processos humanísticos, sustentando-se em diferentes níveis de agência de acordo com a sua posicionalidade. Quando historiadores interpretam documentos textuais como dados e prestam atenção a coisas como concordância e colocação – ou seja, o nível de variação da concordância entre termos –, é possível extrair argumentos inovadores sobre o passado, padrões cronológicos e mudanças socioculturais ao longo do tempo.
Acima, a skin Correlations mostra como o pensamento qualitativo e quantitativo se fundem no processo de text mining. O coeficiente de correlação (r) indica como as frequências do termo 1 e do termo 2 estão relacionadas ao longo do corpus. Quando mais próximo de 1, (r) sugere que as frequências aumentam ou diminuem juntas. Quando mais próximo de -1, (r) indica correlação inversa: quando uma frequência aumenta, a outra cai.
Palladio
Por mais surpreendente que pareça, durante muito tempo historiadores ignoraram as conexões implícitas entre coisas, pessoas, organizações e ideias através do tempo e do espaço. Mas eles não desconheciam a noção de “redes”. Como parte crucial do estudo histórico, os trabalhos historiográficos – ou seja, aqueles que se debruçam sobre “a história da escrita da história” – baseiam-se fundamentalmente na premissa de que ideias, argumentos e estudiosos estão de alguma forma conectados, mesmo que não se encontrem no mesmo tempo ou espaço. Ainda assim, ao escreverem histórias de longos processos, historiadores ignoraram redes complexas que eram difíceis de visualizar.
Por volta das décadas de 1960 e 1970, estudiosos influenciados pela virada cultural e linguística se opuseram às formas tradicionais duradouras de escrever a história que priorizavam narrativas cronológicas ordenadas e legados políticos importantes. A negligência de outras formas narrativas foi motivo de discórdia entre historiadores sociais que, embora agora olhassem mais atentos para as práticas culturais e alargassem as suas questões de investigação para incluir uma perspectiva ascendente da história (ou, “bottom-up history“), ainda ignoravam ligações menos implícitas que eram obscurecidas nas formas tradicionais de narrar o tempo. A análise de redes alterou para sempre o cenário dos estudos históricos.
Palladio é um aplicativo que fornece visualização gráfica de redes de dados. Como um projeto financiado pelo National Endowment for the Humanities, foi desenvolvido para que os historiadores pensem criticamente sobre os seus dados e, como afirma o site, destina-se “à prática reflexiva”. Como todas as ferramentas discutidas nesta página, o Palladio proporciona visualização e comunicação de dados históricos, mas, também e mais importante, abre espaço para novas questões e novos argumentos sobre informações já antes exploradas.
Embora outros formatos de planilha possam funcionar igualmente bem, os arquivos CSV são o formato recomendado para upload no Palladio. O aplicativo analisa as variáveis (colunas) e observações (linhas) para gerar uma representação visual dos dados estruturados com “nós” (ou nodes; os pontos de dados) e “arestas” (ou edges; as linhas de conexão). Os nós podem ser ponderados em Palladio, aumentando de tamanho de acordo com variáveis específicas, mas não as arestas. A planilha que o Professor Dr. Doug Seefeldt nos forneceu para experimentar a ferramenta durante o seminário tinha apenas duas variáveis: os autores de diferentes livros entre 1850 e 1869 na coluna A e termos frequentes associados a cada autor na coluna B. Isso significa que a coluna A apresentou repetição enquanto a coluna B não. Quando carregados na íntegra em Palladio, os dados ficaram assim:
À primeira vista, é possível que o usuária sinta vontade de jogar o computador na parede. Numa segunda olhada, porém, de fôlego recuperado, é interessante notar as conexões entre alguns desses autores através de termos específicos fora da grande e confusa rede central. Para melhor visualizar essas conexões, optei por ponderar os nós que representam os autores de acordo com a frequência dos termos e separar esses nós o máximo que pude, resultando em uma versão não tão confusa como mostra o print acima.
A interface interativa do Palladio é provavelmente o seu maior potencial. O usuário pode interagir com os nós e reorganizar a rede de forma que a visualização de determinadas arestas se torne mais fácil. Obviamente, não há boas maneiras de evitar um centro confuso com tantos termos associados a múltiplos autores, portanto esta visualização específica é limitada no que pode nos dizer.
Mesmo assim, ver como Domenech e Burton estão conectados, por exemplo, é bastante interessante. Enquanto o primeiro menciona “natureza”, “humano” e “solo”, o último menciona “igreja”, “deus” e “lei”, o que coloca seus trabalhos em assuntos ou campos completamente diferentes. A palavra “mundo” parece ser uma das poucas arestas de ligação entre os autores, o que a torna o que chamamos de “laço fraco” (ou weak tie).
Agora, dê uma olhada na conexão entre Coke e Townsend. Segundo o gráfico, a palavra “hora” é de fato a única ligação entre os dois autores. Se cortássemos as arestas que ligam Coke e Townsend à palavra “hora”, deixando o termo flutuante e desconectado de qualquer autor, teríamos criado um “buraco estrutural” (ou structural hole). Buracos estruturais são ocupados por algo ou alguém na intersecção entre indivíduos ou outras coisas que, de outra forma, estariam desconectadas sem este algo ou alguém.
Agora, as visualizações de rede podem ser bipartidas e k-partidas e o que testamos foi um gráfico bipartido. Isso significa que a visualização suporta apenas dois tipos de nós e eles só podem apresentar conexões entre cada tipo, nunca dentro de um tipo. Assim, os autores não possuem conexões diretas entre si, há apenas arestas conectando autores e termos. A diferença está na forma como os dados originais são estruturados, e se as perguntas que fizemos aos dados fossem diferentes, provavelmente teríamos que alterar a própria estrutura da planilha e como as variáveis e observações são organizadas. Provavelmente teríamos que ampliar a planilha de dados, o que significa aumentar o número de variáveis (as colunas) e reduzir o número de observações (as linhas), evitando a repetição de nome de autores na primeira coluna. Mas isso é uma conversa para outro momento sobre wide and long datasets.
A visualização acima ajuda a esclarecer o que quero dizer. Em vez de fazer upload dos dados completos, desta vez, segui a sugestão do Dr. Seefeldt de visualizar apenas dados de dois autores na plataforma. Coke e Bowles apresentam pelo menos 14 termos de ligação entre si. Como Palladio não pondera as arestas, é difícil dizer se estamos diante de weak ties. Mas a estrutura bipartida dos dados torna fácil ver como os autores estão associados através da frequência de termos coincidentes nos seus trabalhos – mesmo que estes autores nunca tenham realmente se conectado na vida real. Este é o tipo de conexão de rede implícita que historiadores podem observar por meio da análise de redes. Network analysis deixa de lado narrativas tradicionalmente cronológicas e baseadas em lugar que eram bastante limitadas por fronteiras geográficas e periodicidade. O potencial é enorme.
Tableau
Para experimentar o Tableau, um aplicativo interativo de visualização de dados, adquiri dados em formato XLSX do banco de dados online do Registro Nacional de Locais Históricos. A planilha continha informações sobre todos os imóveis listados no Cadastro Nacional até 2022 de relevância local, estadual, nacional e internacional. Ela também continha informações geográficas com endereços, cidades, condados e estados de cada uma das propriedades.
O Tableau é altamente sofisticado e eu precisaria de muito mais tempo e treinamento para descobrir como criar visualizações adequadamente a partir de grandes grupos de dados, como os dados do NRHP. Sabendo que não poderia quebrar o software ou a tabela de dados, tentei algumas coisas. Veja abaixo o resultado:
Isso me levou algumas horas de tentativa pois ainda não domino a forma como o Tableau estrutura os dados para torná-los adequados para cada gráfico. O que esta visualização nos diz é onde, nos Estados Unidos, cada categoria de local histórico está mais concentrada e quais estados têm mais propriedades históricas listadas com importância nacional. Com os dados geográficos, o Tableau conseguiu gerar coordenadas de longitude e latitude para cada uma das propriedades listadas.
A primeira coluna “Nível Nacional” é o que indica se cada uma das propriedades exibidas no mapa foi ou não atribuída significância nacional. Isso significa que a primeira linha, “False”, mostra apenas propriedades sem significado nacional, enquanto a segunda linha, “True”, representa aquelas que o possuem. Tentei simbolizar cada categoria (edifício, bairro, objeto, sítio e estrutura) com cores diferentes e ponderar os pontos de dados no mapa de acordo com a concentração das propriedades listadas na mesma área.
Devido a esta escolha de simbologia e à forma como os dados estão estruturados nesta visualização, podemos dizer, por exemplo, que existem mais edifícios (buildings) do que locais (sites) listados; que o litoral Nordeste e Leste concentram a maioria dos locais históricos do Registro Nacional; e que há mais propriedades significativas em nível local e estadual listadas do que propriedades de importância nacional nos Estados Unidos.
Aqui, experimentei uma forma diferente de visualização dos dados e optei por incluir informações sobre órgãos federais associados às propriedades listadas no Registro Nacional. Há muitas maneiras de olhar para esses dados, mas tentei ser criativo e brincar com a geolocalização. O eixo x mostra a latitude e o eixo y mostra a longitude de cada propriedade listada, tornando a posição de cada ponto de dado em cada coluna significativa para a análise. A visualização sugere que o Serviço Florestal e a Guarda Costeira, pelo menos entre os cinco órgãos apresentados na imagem, têm associação significativa com sítios históricos do Registro Nacional.
O potencial para experimentar com o Tableau parece infinito. Durante o seminário, o Professor Dr. Matt Chambers nos contou sobre como ele usou o software para criar visualizações impressionantes sobre a história da NFL. Chambers é diretor executivo de análise visual da Clemson CCIT e tem diversas visualizações feitas no Tableau em seu perfil público. Confira algumas para ter uma ideia melhor do que esse poderoso software pode fazer.
Trabalhando com um conjunto de dados históricos como os dados do NRHP, eu esperava entender como historiadores podem aproveitar as ferramentas do Tableau para reinterpretar informações históricas. Mas há tanta coisa acontecendo nesta plataforma que pode ser um pouco confuso. De toda maneira, o pouco que fui capaz de produzir na plataforma prova que as visualizações têm como objetivo inspirar novas questões de pesquisa e diferentes argumentos, e não simplesmente comunicar as descobertas de uma investigação já realizada.
Quer compartilhar sobre uma ferramenta específica? Confira a postagem sobre cada ferramenta no Time Sensitive.
- Stéfan Sinclair and Geoffrey Rockwell, “Text Analysis and Visualization: Making Meaning Count,” in A New Companion to Digital Humanities, ed. Susan Schreibman et. al. (John Wiley & Sons, Ltd, 2016). ↩︎