Ferramentas de Pesquisa

Time Sensitive: Um blog sobre pesquisa histórica e ferramentas digitais

Zotero, Tropy e Airtable

Nunca gostei muito de máquinas de lavar louça. Uma das poucas coisas que me dá alguma sensação de controle sobre o caos da vida é lavar a louça. Tomo meu tempo e escolho a ordem, o ritmo e o método que vou usar para deixar tudo limpo e seco. Eu era muito cético em relação à ferramenta digital Zotero quando ouvi falar dela pela primeira vez. E parte de mim acredita que é porque gosto de fazer minhas notas de rodapé da mesma forma que gosto de lavar a louça: com calma e uma por uma. Ferramentas digitais focadas em organizações de pesquisa como o Zotero perturbam meu senso de controle sobre o trabalho. Embora ainda seja minha responsabilidade garantir que as fontes primárias e secundárias sejam organizadas e efetivamente armazenadas em bancos de dados e estruturas de diretórios, essas ferramentas reduzem pela metade o tempo gasto no trabalho acadêmico. Nesta página, discorro com pouco sobre a eficácia do Zotero, do Tropy e do AirTable como ferramentas de pesquisa que podem facilitar o trabalho de organização, interpretação e análise de fontes para historiadores.

Zotero

Ainda não tenho certeza se posso incorporar o Zotero completamente em minha prática acadêmica. Mas chegou o dia em que finalmente tentei. Comecei a explorar a interface da ferramenta e a entender sua estrutura organizacional. Parece que o software percorreu um longo caminho para tornar as coisas mais bonitas e fáceis de usar desde a última vez que o examinei, alguns anos atrás. Para minha exploração, baixei alguns dos meus arquivos PDF que mantenho no Google Drive, a principal plataforma de nuvem (ou cloud) que venho usando para trabalhar e estudar nos últimos dez anos. Como sempre fui paranóico com nomes e organização de arquivos, aprendi a ser consistente na forma como salvo meus dados e referências historiográficas. Isso certamente me colocou em uma posição vantajosa com Zotero.

Exemplo de organização da estrutura de diretórios no meu Google Drive.

A plataforma depende de uma estrutura de diretórios familiar para usuários de windows e Mac: os arquivos são organizados em uma hierarquia de pastas que são aqui chamadas de Coleções. Todas as coleções estão hospedadas no diretório principal “Minha Biblioteca”. Essa estrutura familiar facilitou a reprodução da organização dos meus arquivos do Google Drive no Zotero. Então, como primeira tentativa, criei Coleções para cada um dos meus cursos neste semestre: História Digital, História Urbana e História Jurídica – que, para minha sorte, se traduzem facilmente em áreas maiores da disciplina.

Canto superior direito do Zotero e a estrutura de diretórios.

Logo notei que o Zotero automaticamente inseriu os metadados adequados para a maioria dos arquivos PDF que carreguei na plataforma. Aqueles PDFs que não receberam metadados automatizados provavelmente foram baixados de fontes online não confiáveis (shhh). Mas a boa notícia é que também não foi nada difícil inserir os metadados desses arquivos manualmente. Na verdade, a única coisa difícil foi tentar ser consistente com as datas – você vai querer evitar que alguns dos seus arquivos tenham “02/2015” e outros “2015” no campo de data. E como cada arquivo vem com seu próprio protocolo de metadados, ainda cabe ao usuário lembrar de fazer alterações quando necessário, pelo bem da consistência.

Metadados do Zotero para um artigo de jornal baixado do JSTOR.

Uma das principais coisas que quero explorar mais no Zotero é o recurso de notas. Estou acostumado a ler e marcar PDFs em programas Adobe e, ao mesmo tempo, fazer anotações no Word, precisamente porque nunca encontrei um programa em que fazer as duas coisas fosse facilmente alcançável. Sinto que isso poderia centralizar leituras e notas em um único sistema pode aprimorar meu foco e minha habilidade de gerenciamento de tempo, que são obviamente armas obrigatórias para sobreviver à pós-graduação.

Como muitas outras ferramentas digitais utilizadas pelas ciências humanas, o Zotero é construído em linguagens JavaScript e SQL. A plataforma existe desde 2006.

Tropy

No verão de 2021, fiz minha primeira viagem solo de pesquisa. Com pouco tempo para me preparar, eu tinha um único objetivo em mente enquanto estivesse em Chicago: tirar o máximo possível de fotos de documentos históricos. Tive dois dias para visitar a Biblioteca Pública de Chicago onde estava localizada a maioria dos materiais relevantes para o meu tema de pesquisa. Para a minha sorte, a Especialista Sênior em Arquivos Michelle McCoy gentilmente separou as coleções de meu interesse. Ainda assim, eu gostaria que eu soubesse, naquela viagem, o que sei agora.

Uma captura de tela da galeria do meu telefone mostrando (algumas) fotos que tirei durante uma de minhas visitas à Biblioteca Pública de Chicago.

Há alguns anos, o Centro Roy Rosenzweig de História e Novas Mídias (RRCHNM) da Universidade George Mason criou uma ferramenta digital destinada a incrementar a abordagem dos pesquisadores de humanidades na organização e gerenciamento de fotografias de materiais de pesquisa. Tropy teria sido um ótimo recurso em Chicago. Agora desenvolvido em conjunto pelo RRCHNM, pelo Centro de História Contemporânea e Digital (C²DH) de Luxemburgo e pelo Digital Scholar, o Tropy é gratuito e de código aberto. Permite uma nova forma de organização de arquivos de fotografias que é particularmente interessante para a pesquisa histórica. Para experimentar, decidi carregar algumas de minhas fotos que atualmente estão mal organizadas no Google Drive no Tropy.

Layout de Tropy com quatorze documentos históricos da Biblioteca Pública de Chicago.

Se você comparar a primeira e a segunda capturas de tela, pode ser que sinta uma sensação de alívio como eu. Bem melhor, né? O Tropy foi projetado de forma que permite que várias fotos sejam mescladas em um grupo. Em seguida, você pode editar os metadados desse grupo de fotografias. Na verdade, uma das vantagens do aplicativo é a forma como ele trata os metadados dos itens. O usuário pode optar entre um esquema genérico, um esquema mais preciso para itens de correspondência e o esquema Dublin Core, o esquema de metadados mais amplamente adotado para recursos da web.

Esquema genérico de metadados do Tropy.

Se eu soubesse sobre o Tropy naquela época, os metadados desses arquivos teriam sido ainda mais precisos. O esquema de metadados genérico do Tropy possui campos para números de coleção, caixa e pasta, bem como um identificador (URL ou número de chamada atribuído pela biblioteca) para cada item. Consegui recuperar algumas dessas informações consultando o auxílio de busca digital da Biblioteca Pública de Chicago. Mas certamente, o esquema de metadados Tropy funciona melhor se o pesquisador souber como manter os registros consultados organizados e tomar nota da localização original de tais documentos no arquivo – algo muito importante para descobrir informações intangíveis sobre a lógica arquivística que orienta qualquer registro histórico.

Outro bom motivo para os historiadores usarem o Tropy é o recurso de notas do aplicativo. Transcrever registros históricos muitas vezes pode ser uma tarefa desagradável, especialmente quando se trata de ler documentos manuscritos antigos e correspondências. As notas sobre o Tropy são anexadas aos itens principais. Além de ler um documento e transcrevê-lo na mesma interface, fica mais fácil verificar se há erros no registro original, se necessário.

Recurso de notas no Tropy e transcrição de documentos históricos na plataforma.

Quando fiz minha segunda viagem de pesquisa para St Louis, no Missouri, estava um pouco mais preparado. Usei um aplicativo de digitalização que mesclou automaticamente minhas fotos como arquivos em PDF e as carregou no Google Drive. Os registros que adquiri da Sociedade Histórica do Missouri e da Biblioteca Pública de St Louis foram certamente melhor organizados do que aqueles que coletei em Chicago. Mas nenhum deles tinha metadados adequados. O aplicativo de digitalização nomeou os arquivos de St Louis como “Scan 13 de novembro de 2021 às 16h29” e assim por diante. Em ambos os casos, foi difícil fazer referência adequada a esses documentos ao escrever a análise. Encontrar informações nos arquivos PDF sem metadados foi ainda mais complicado. E, por último, a transcrição foi um problema para a maioria dos documentos manuscritos. Da próxima vez que fizer as malas para uma viagem de pesquisa, vou lembrar do Tropy.

AirTable

A Dr. Amanda Regan, minha supervisora e codiretora do projeto de mapeamento digital Mapping the Gay Guides, me apresentou o AirTable pela primeira vez quando comecei a trabalhar como assistente de pesquisa no projeto. Como Mapping the Gay Guides depende do trabalho colaborativo entre muitos pesquisadores e estudantes de pós-graduação na California State University em Fullerton e na Clemson University, o AirTable nos serve bem como uma plataforma de banco de dados baseada em nuvem. AirTable é um banco de dados relacional que permite um fluxo de trabalho unificado e um sistema de gerenciamento de dados entre diferentes partes de um projeto colaborativo como o MGG.

Interface do AirTable do MGG. Cada banco de dados (ou “base”) no AirTable serve a um propósito no projeto. Eles podem ser sincronizados, estruturados e modificados de diversas maneiras.

Trabalhar com o Mapping the Gay Guides me proporcionou uma visão prática do que a plataforma pode oferecer. Na pesquisa histórica, transformar informações em dados é um passo importante para desenvolver um argumento histórico que se fundamente em processos computacionais e pensamento algorítmico. Uma das minhas primeiras tarefas como assistente de pesquisa foi transcrever os dados dos guias originais de Bob Damron de 1981 a 1985. Transcrevi mais de 200 registros para os Territórios dos EUA (Ilhas Virgens, Porto Rico e Guam) para uma base no AirTable seguindo seus dados esquema.

Base Territory Data de dados territoriais do MGG (1981-1985) no AirTable.

A estrutura de dados do AirTable funciona de forma que diferentes bases sejam inter-relacionadas por meio de registros ou colunas vinculadas entre si, tornando a plataforma um banco de dados relacional muito útil. No exemplo acima, cada registro é um endereço incerto dos Guias Gays de Bob Damron nos Territórios dos EUA. As colunas, ou variáveis, refletem as informações dos Guias transcritas em machine-readable format. Como o Projeto MGG envolve tantos colaboradores, utilizamos o recurso de vocabulário controlado do AirTable para garantir a integridade dos dados na hora de transcrever e inserir os registros nas bases. Este é provavelmente um dos recursos mais poderosos da plataforma. Diferentemente das planilhas comuns do Excel, o vocabulário controlado do AirTable facilita o rastreamento de erros ortográficos. Por exemplo, não se pode inserir “cruisy areas” na coluna”amenity features” sem que seja escrito exatamente como “Cruisy Area”, uma opção predeterminada para o aquela coluna. Caso contrário, a plataforma informa o usuário que uma nova opção de categoria foi criada e, caso não seja intencional, deve ser retirada da lista.

Vocabulário controlado na estrutura de dados do AirTable. As opções predefinidas são armazenadas em cada variável ou coluna, facilitando o trabalho em projetos colaborativos e garantindo a integridade dos dados.

Como historiador, estou sempre em busca de formas de melhorar a consistência nas minhas escolhas metodológicas. Quando eu trabalhava para o Centroid Geoespacial da Universidade Estadual do Colorado, enfrentei o desafio de mapear mais de 200 locais para um projeto com o Departamento de Recursos Naturais do Condado de Larimer. Naquela ocasião, quando ainda não tinha ouvido falar em AirTable, utilizei uma planilha Excel para transformar as informações de cada um desses lugares em dados consistentes antes de geolocalizá-los e fazer um Web Map com atributos particulares para cada feição (para saber mais sobre esse projeto e o que quero dizer com termos como geolocalização e Web Map, leia a página ao lado). O resultado, como você pode imaginar, foi confuso. Sem um recurso de vocabulário controlado, a planilha continha diversas inconsistências.

Outro obstáculo foi não poder atribuir múltiplas categorias a um único registro na mesmo coluna. Para o projeto que mencionei acima, atribuí categorias específicas a cada observação (ou fileira) da tabela, de acordo com os procedimentos e critérios do Departamento de Recursos Naturais. Algumas fileiras, no entanto, se enquadravam em múltiplas categorias. Em uma planilha do Excel, não há uma maneira fácil de inserir vários valores no mesmo campo além de diferenciá-los manualmente com um separador comum como ponto e vírgula.

Várias categorias sendo atribuídas a registros individuais em uma planilha do Excel.

AirTable não é uma solução para todos os problemas de consistência de dados e garantia de integridade, mas fornece a historiadores digitais mais funcionalidades para trabalhar com dados em machine readable format. Transformar informações históricas em dados é o primeiro passo para muitos historiadores digitais que procuram visualizar e analisar informações de formas menos tradicionais e requer um rigor metodológico consistente. Zotero, Tropy e AirTable podem ser parte de uma caixa mais ampla de ferramentas para historiadores que buscam se familiarizar com abordagens das humanidades digitais e com a ideia de olhar para dados (ou capta) em vez de simplesmente documentos tradicionais. Essas ferramentas significaram o início de uma forma totalmente nova de trabalhar e de uma nova prática acadêmica para mim. Sigo curioso para ver como minha própria prática vai mudar no decorrer dos próximos cinco anos enquanto faço um doutorado em História Digital.

Quer compartilhar sobre uma ferramenta específica? Confira a postagem sobre cada ferramenta no Time Sensitive.

css.php