H.
Construindo um analisador morfossintático no modelo Universal Dependencies: conceitos básicos
22/10/24, das 14h às 16h
(+16h30 às 18H30, para curso completo)
Data e horário:
Língua de instrução:
Português
Vai ter intérprete?
não
Sobre o curso
Este minicurso tem como objetivo guiar nos primeiros passos da construção de ferramentas computacionais na linguagem de programação Python para anotação morfossintática automática de treebanks conforme a teoria Universal Dependencies (MARNEFFE et al., 2021). Para exemplificar os conceitos-chave do modelo e as técnicas de modelagem computacional do conhecimento lexical, morfológico e sintático, recorreremos a exemplos concretos do português, inglês, alemão e nheengatu (MOORE; FACUNDES; PIRES, 1994; RODRIGUES, 1996; CRUZ, 2011; FREIRE, 2011; RODRIGUES; CABRAL, 2011; MOORE, 2014; AVILA, 2021), para o último dos quais desenvolvemos o analisador Yauti (ALENCAR, 2023a; ALENCAR, 2023b), utilizado na construção do UD_Nheengatu-CompLin (ALENCAR, 2024a; ), o maior corpus sintaticamente anotado (treebank) de língua ameríndia na versão 2.14 da coleção Universal Dependencies (ZEMAN et al., 2024). Adotaremos uma metodologia interativa, segundo a qual cada participante executará no seu computador, no ambiente IDLE de Python, os comandos explicados em aula.
Conteúdo Programático
Parte I: Conceitos básicos
- Relevância de treebanks no modelo Universal Dependencies (UD) para a investigação linguística e processamento de linguagem natural.
- Visão geral do projeto UD: princípios fundamentais, objetivos, níveis de anotação e infraestrutura computacional.
- Toquenização, etiquetagem de classe de palavra, lematização, análise morfológica e sintática automáticas com o UDPipe 1.3 (STRAKA; HAJIČ; STRAKOVÁ, 2016).
- Métricas e ferramentas de avaliação de treebanks no modelo UD.
Público-alvo
Estudantes de graduação e de pós-graduação e docentes, preferencialmente com conhecimentos básicos de programação em Python.
Referências
ALENCAR, Leonel Figueiredo de. Aspectos da construção de um corpus sintaticamente anotado do nheengatu no modelo Dependências Universais. Texto Livre, Belo Horizonte-MG, v. 17, p. e52653, 2024b. DOI: 10.1590/1983-3652.2024.52653. Disponível em: https://periodicos.ufmg.br/index.php/textolivre/article/view/52653. Acesso em: 22 ago. 2024.
ALENCAR, L. F. de. Linguística computacional. In: OTHERO, G. de Ávila; FLORES, V. do N. (Org.). A linguística hoje: múltiplos domínios. São Paulo: Contexto, 2023. p. 73–88
ALENCAR, L. F. de. Yauti: A tool for morphosyntactic analysis of Nheengatu within the Universal Dependencies framework. In: Anais do XIV Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana. Porto Alegre, RS, Brasil: SBC, 2023. p. 135–145. Disponível em: https://sol.sbc.org.br/index.php/stil/article/view/25445.
ALENCAR, L. F. de. A Universal Dependencies treebank for Nheengatu. In: GAMALLO, P. et al. (Ed.). Proceedings of the 16th International Conference on Computational Processing of Portuguese. Santiago de Compostela, Galicia/Spain: Association for Computational Linguistics, 2024. Vol. 2. p. 37–54. Disponível em: https://aclanthology.org/2024.propor-2.8.
AVILA, M. T. Proposta de dicionário nheengatu-português. Tese (Doutorado) — Faculdade de Filosofia, Letras e Ciências Humanas da Universidade de São Paulo, 2021.
CRUZ, A. da. Fonologia e gramática do nheengatú: A língua falada pelos povos Baré, Warekena e Baniwa. Utrecht: LOT, 2011.
FREIRE, J. R. B. Rio Babel: A história das línguas na Amazônia. 2. ed. Rio de Janeiro: EdUERJ, 2011.
MARNEFFE, M.-C. de et al. Universal Dependencies. Computational Linguistics, Cambridge, MA, v. 47, n. 2, p. 255–308, 6 2021. Disponível em: https://aclanthology.org/2021.cl-2.11.
MOORE, D. Historical development of Nheengatu (Língua Geral Amazônica). In: MUFWENE, S. S. (Ed.). Iberian Imperialism and Language Evolution in Latin America. Chicago: University of Chicago Press, 2014. p. 108–142.
MOORE, D.; FACUNDES, S.; PIRES, N. Nheengatu (Língua Geral Amazônica), its history, and the effects of language contact. In: Proceedings of the Meeting of the Society for the Study of the Indigenous languages of the Americas, July 2-4, 1993 and the Hokan-Penutian Workshop, July 3, 1993. Berkeley, CA: [University of California], 1994. p. 93–118. Disponível em: https://escholarship.org/uc/item/7tb981s1.
NAVARRO, E. de A. Curso de Língua Geral (nheengatu ou tupi moderno): A língua das origens da civilização amazônica. 2. ed. São Paulo: Centro Angel Rama da Faculdade de Filosofia, Letras e Ciências Humanas da Universidade de São Paulo, 2016.
RODRIGUES, A. D. As línguas gerais sul-americanas. Papia, São Paulo, v. 4, n. 2, p. 6–18, 1996.
RODRIGUES, A. D.; CABRAL, A. S. A. C. A contribution to the linguistic history of the Língua Geral Amazônica. ALFA: Revista de Linguística, v. 55, n. 2, 12 2011.
ZEMAN, D. et al. Universal Dependencies 2.14. 2024. LINDAT/CLARIAH CZ digital library at the Institute of Formal and Applied Linguistics (ÚFAL), Faculty of Mathematics and Physics, Charles University. Disponível em: http://hdl.handle.net/11234/1-5502.
Ministrante(s)
Leonel Figueiredo de Alencar
Professor Titular da Universidade Federal do Ceará. Coordenador do Grupo de Pesquisa Computação e Linguagem Natural (CompLin). Membro da organização Universal Dependencies no GitHub. Pesquisador associado do projeto DACILAT da UNICAMP/ FAPESP, voltado à construção de corpora e tradução automática de cadiuéu e nheengatu. Doutor em Linguística pela Universidade de Constança, Alemanha (2003). Estágios de pós-doutorado na Universidade de Constança (2013) e na Escola de Matemática Aplicada da Fundação Getúlio Vargas (EMAp/FGV) (2021 a 2022).