Convênios e Parcerias
Laboratório Virtual de Humanidades Digitais (LaViHD) – Cooperação Acadêmica Nacional entre o Grupo de Pesquisas Humanidades Digitais da USP e o Laboratório de Pesquisas em Linguística de Corpus (LaPeLinC) da UESB, em torno da concepção e desenvolvimento de recursos digitais focalizados no estudo histórico da língua e na curadoria digital de acervos memoriais.
Coordenadoras:
Profa. Dra. Maria Clara Paixão de Sousa | USP
Profa. Dra. Cristiane Namiuti Temponi | UESB
O Laboratório Virtual de Humanidades Digitais (LaViHD) é um projeto conjunto da Universidade de São Paulo e da Universidade Estadual do Sudoeste da Bahia, e representa a consolidação de parcerias entre o Grupo de Pesquisas Humanidades Digitais da USP e o Laboratório de Pesquisas em Linguística de Corpus (LaPeLinC) da UESB, em torno da concepção e desenvolvimento de recursos digitais focalizados no estudo histórico da língua e na curadoria digital de acervos memoriais.
Em se tratando dos objetivos, o objetivo amplo e de longo prazo do Projeto é consolidar o LaViHD como um pólo incubador e difusor de tecnologias de processamento de texto que, a um tempo, reflitam o estado da arte das tecnologias em âmbito internacional e sigam um compromisso rigoroso com as melhores práticas filológicas. O objetivo específico da é construir um ambiente digital colaborativo fechado (LaViHDbeta), dedicado ao desenvolvimento dos catálogos e das ferramentas utilizadas no processamento de textos dos projetos correntes em cada um dos grupos, visando avanços no desenvolvimento de ambos. O objetivo imediato é implementar o ambiente virtual de laboratório para uso conjunto dos pesquisadores das duas instituições parceiras (LaViHDbeta) e, no longo prazo, abrir uma versão estável do ambiente para amplo uso pela comunidade de pesquisas.
Em relação aos principais produtos da proposta, destacam-se:
O próprio LaViHD, ambiente virtual de desenvolvimento de corpora e ferramentas – em versão testes (LaViHDbeta) e em versão estável;
O eDictor 2.0, uma ferramenta para edições filológicas eletrônicas inteiramente baseada na Web
Publicações em periódicos científicos com relatos e discussões sobre a experiência de desenvolvimento das ferramentas, e workshops sobre ferramentas de catalogação e anotação de corpus.
Em se tratanto do histórico e parceria, os objetivos e os interesses de pesquisa do LaPeLinC e do Grupo de Pesquisas Humanidades Digitais apresentam afinidades muito marcadas, tanto do ponto de vista temático quanto metodológico.
O Grupo de Pesquisas Humanidades Digitais (http://humanidadesdigitais.org) atua desde 2009, na Universidade de São Paulo; entre 2009 e 2012, o grupo esteve sediado na Biblioteca Brasiliana Guita e José Mindlin, como parte da equipe que concebeu, construiu e administrou a primeira plataforma da Biblioteca Brasiliana Digital (2008-2013). Hoje, está abrigado junto ao Núcleo de Apoio à Pesquisa em Etimologia e História da Língua Portuguesa, NEHiLP. Desde 2017, grupo vem se dedicando centralmente ao Projeto M.A.P. (Mulheres na América Portuguesa): Mapeamento de escritos de mulheres e sobre mulheres no espaço atlântico português a partir de métodos das Humanidades Digitais (http://map.prp.usp.br/), sob coordenação da Profa. Dra. Maria Clara Paixão de Sousa e da Profa. Dra. Vanessa Martins do Monte, em diversas etapas (cf. Monte e Paixão de Sousa, 2017a; Paixão de Sousa, 2018; Monte, 2018; Paixão de Sousa, 2019). O M.A.P. tem como objetivo central sistematizar e tornar visível para pesquisas futuras um conjunto de fontes documentais imensamente importantes para os estudos filológicos e para os estudos da história da língua, da história social, da história da escrita e da leitura, e da história das mulheres no Brasil, por meio da construção de um catálogo de documentos escritos por mulheres e documentos escritos sobre mulheres (contendo sua ‘fala’ na forma de discurso relatado) na América Portuguesa. O catálogo e o tratamento dos textos no M.A.P. são desenvolvidos como recursos digitais que buscam unir tecnologias autais aos mais rigorosos princípios da prática filológica, nos moldes de Paixão de Sousa, 2013 e Monte e Paixão de Sousa, 2017.
O LaPeLinC (http://memoriaconquistense.uesb.br/websinc/) tem sua história iniciada também em 2009, na Universidade Estadual do Sudoeste da Bahia, campus de Vitória da Conquista, com a elaboração do projeto Memória Conquistense, pelos Professores Dr. Jorge Viana Santos e Dra Cristiane Namiuti- Temponi. Atualmente, o laboratório desenvolve, entre outros, os projetos Memória conquistense: implementação de um corpus digital, coordenado pela pela Profa. Dra Cristiane Namiuti Temponi (Namuiti, 2013), e Corpora digitais de documentos históricos da imperial Vila da Victoria, atual Vitória da Conquista – Bahia: resgate e preservação do patrimônio linguístico e da memória da escravidão na Bahia, coordenado pelo Prof. Dr. Jorge Viana Santos (Santos, 2016). Os Projetos desenvolvidos no LaPeLinC têm focalizado a construção de corpora digitais que partem de documentos históricos, manuscritos e impressos, de diferentes gêneros, guardados em arquivos públicos e/ou particulares da Bahia, da região Sudoeste do estado e da cidade de Vitória da Conquista, visando a disponibilização de textos antigos no formato singular do “texto digital”, guiados pelo critério básico da transparência da codificação (cf. Santos e Namiuti, 2017, 2018, 2019).
Desde a criação do LaPeLinC e do Grupo de Pesquisas Humanidades Digitais, seus pesquisadores participaram em conjunto em diversas atividades ligadas ao desenvolvimento de corpora e à anotação linguística. As Profas. Maria Clara Paixão de Sousa e Cristiane Namiuti vêm participando conjuntamente em diversos encontros da área, tais como o Workshop Construction and use of large annotated corpora (Unicamp, 2013, http://www.tycho.iel.unicamp.br/ws2013); o II Encontro de Gramática Gerativa – Relações multidisciplinares e mudança linguística, promovido pela UESB em 2018 (https://iiencontrogramaticagerativa.wordpress.com), e a III Jornada Científica do Lapelinc/I Workshop em Anotação e Frameworks para Corpora Digitais de Textos Históricos, em 2019 (https://iiijornadalapelinc.wordpress.com), entre outros. Além disso, desde 2009, a Profa. Maria Clara é colaboradora nos projetos de pesquisa do LaPeLinC (atualmente, Namiuti, 2016; Santos, 2016). Por fim, ressalte-se que, entre 1998 e 2007, as coordenadoras fizeram parte da equipe fundadora do Corpus Tycho Brahe (o primeiro corpus sintaticamente anotado do Português, cf. http://www.tycho.iel.unicamp.br/corpus/), um grupo de pesquisas ativo por mais de vinte anos, pioneiro no uso de ferramentas computacionais em linguística e percursor das Humanidades Digitais no Brasil (cf. Namiuti, 2004; Paixão de Sousa, 2014).
No que diz respeito à metodologia, o ambiente virtual do LaViHD segue os moldes do WebSinc (Namiuti, Santos e Costa, 2015; Costa, 2015) do LaPeLinC, um software desenvolvido para o trabalho de disponibilização, visão e busca de dados em corpora cientificamente controlados e anotados em diversos níveis. O WebSinc inclui módulos de Sistemas de Gerenciamento de Informação (SGDI), bancos de dados, e ferramentas de buscas (morfossintáticas e sintáticas) em padrão XML. A essas ferramentas desenvolvidas no WebSinc serão acrescentadas funcionalidades em desenvolvimento no Projeto M.A.P. para maior flexibilidade na visualização dos dados – em particular, com o georreferenciamento dos documentos catalogados.
A partir de setembro de 2020, as atividades passaram a se concentrar em uma nova parceria, estabelecida pelo LaViHD com o Centro de Inteligência Artificial (C4AI) da USP.
O C4AI é um centro de pesquisa para inteligência artificial avançada no Brasil, sediado na USP, ligado ao InovaUSP, e com suporte da IBM e da Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP). As atividades de pesquisa no C4AI são organizadas em torno de cinco Grandes Desafios que combinam aspectos fundamentais da inteligência artificial com aplicações em setores selecionados como agronegócio, clima, e saúde. Os desafios são:
- NLP2 – Recursos para Levar o Processamento de Linguagem Natural em Português para o Estado-da-Arte
- KEML – Aprendizado de Máquina Enriquecido com Conhecimento para Raciocínio em Dados Oceânicos
- AgriBio – Tomada de Decisão Causal Mulitcritério em Redes de Produção de Alimentos
- GOML – Aprendizado de Máquina Orientado a Grafos para Diagnóstico e Reabilitação de AVCs
- AI Humanity – IA em Países Emergentes: Políticas Públicas e Futuro do Trabalho.
O Centro (C4AI) tem a missão de produzir pesquisa avançada em Inteligência Artificial no Brasil, é ligado ao InovaUSP, e possui suporte da IBM e da Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP). As atividades de pesquisa no C4AI são organizadas em torno de cinco Grandes Desafios que combinam aspectos fundamentais da inteligência artificial com aplicações em setores selecionados como agronegócio, clima, e saúde. O LAVIHD participa, em colaboração, com a equipe de Processamento de Linguagem Natural (PLN-2), um dos desafios do C4AI, liderado pelos professores Marcelo Finger e Thiago Pardo(ambos da USP) e tem como objetivo geral desenvolver sistemas que avancem o estado da arte do Processamento de Linguagem Natural para o português brasileiro, atingindo um novo patamar em qualidade de geração e desempenho em relação ao que existe hoje. A Colaboração do LaViHD nesse projeto se dá pela construção de um corpus de variada tipologia com um volume de textos robusto e inédito na língua portuguesa, o Corpus Aberto para Linguística e Inteligência Artificial, Carolina, cuja publicação está programada para o início de 2022.
Atualmente, a equipe está dedicada à prospecção dos textos, à preparação dos metadados e ao desenvolvimento de ferramentas computacionais para o Corpus. Também está em elaboração um artigo para a divulgação do estágio do trabalho e das metodologias e tecnologias criadas até o momento:
Finger M, Paixão MC, Namiuti C, Monte VM, Costa AS, Serras F, Sturzeneker ML, Guets RP, Mesquita RM, Brasil P, Silva MM, Crespo MCR, Palma MF, Rocha MLSJ. Carolina: a General Corpus of Contemporary Brazilian Portuguese with Provenance and Typology Information. Manuscript in preparation, 2021.
Equipe LAVIHD | Equipe LAVIHD-C4AI |
Pesquisadores docentes
Cristiane Namuiti Pesquisadores pós-graduandos Aline Silva Costa Pesquisadores graduandos Maria Clara Ramos Morales Crespo |
Pesquisadoras doutoras
Cristiane Namuiti Pesquisadoras graduadas Aline Silva Costa, doutoranda Pesquisadoras graduandas Maria Clara Ramos Morales Crespo |
Obs: O Corpus Carolina recebeu este nome em homenagem a Carolina Michaelis de Vasconcelos, filóloga e linguista alemã radicada em Portugal, autora de a Saudade Portuguesa, e primeira mulher a ser convidada a atuar como docenteda Faculdade de Letras de Lisboa, em 1911, e a atuar como docente na Universidade de Coimbra. Essa homenagem simboliza o desejo que move o Lavihd: caminhar para a ponta do conhecimento valorizando a língua portuguesa e sua história.