I.
Construindo um analisador morfossintático no modelo UD: aplicação às línguas indígenas
22/10/24, das 16:30 às 18:30
(+ parte introdutória, das 14:00 às 16:00)
Date, time and location:
Language of instruction:
Português
Will it have an interpreter?
não
About the Course
Este minicurso tem como objetivo guiar nos primeiros passos da construção de ferramentas computacionais na linguagem de programação Python para anotação morfossintática automática de textos de línguas indígenas brasileiras conforme a teoria Dependências Universais (MARNEFFE et al., 2021). Para exemplificar as diferentes técnicas de modelagem computacional do conhecimento lexical, morfológico e sintático dessas línguas, recorreremos a exemplos concretos do nheengatu (MOORE; FACUNDES; PIRES, 1994; RODRIGUES, 1996; CRUZ, 2011; FREIRE, 2011; RODRIGUES; CABRAL, 2011; MOORE, 2014), para o qual desenvolvemos o analisador Yauti (ALENCAR, 2023a; ALENCAR, 2023b), utilizado na construção do UD_Nheengatu-CompLin (ALENCAR, 2024), o maior corpus sintaticamente anotado (treebank) de língua ameríndia na versão 2.14 da coleção Dependências Universais (ZEMAN et al., 2024). Adotaremos uma metodologia interativa, segundo a qual cada participante executará no seu computador, no ambiente IDLE de Python, os comandos explicados em aula.
Conteúdo Programático
Parte II : Aplicação às línguas indígenas
- Modelagem computacional da microestrutura de um glossário, v.g., Navarro (2016).
- Conversão de um glossário em texto cru para uma estrutura de dados em formato JSON.
- Criação de um léxico eletrônico de formas plenas em formato JSON por meio de regras de flexão e de formação de palavras.
- Implementação de um analisador morfológico e de regras de desambiguação.
- Automatização da construção de árvores dependenciais no formato CoNLL-U.
Target audience
Estudantes de graduação e de pós-graduação e docentes, preferencialmente com conhecimentos básicos de programação em Python. Fazer a parte introdutória do curso para poder acompanhar esta segunda parte.
References
ALENCAR, L. F. de. Linguística computacional. In: OTHERO, G. de Ávila; FLORES, V. do N. (Org.). A linguística hoje: múltiplos domínios. São Paulo: Contexto, 2023. p. 73–88
ALENCAR, L. F. de. Yauti: A tool for morphosyntactic analysis of Nheengatu within the Universal Dependencies framework. In: Anais do XIV Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana. Porto Alegre, RS, Brasil: SBC, 2023. p. 135–145. Disponível em: https://sol.sbc.org.br/index.php/stil/article/view/25445.
ALENCAR, L. F. de. A Universal Dependencies treebank for Nheengatu. In: GAMALLO, P. et al. (Ed.). Proceedings of the 16th International Conference on Computational Processing of Portuguese. Santiago de Compostela, Galicia/Spain: Association for Computational Linguistics, 2024. Vol. 2. p. 37–54. Disponível em: https://aclanthology.org/2024.propor-2.8.
AVILA, M. T. Proposta de dicionário nheengatu-português. Tese (Doutorado) — Faculdade de Filosofia, Letras e Ciências Humanas da Universidade de São Paulo, 2021.
CRUZ, A. da. Fonologia e gramática do nheengatú: A língua falada pelos povos Baré, Warekena e Baniwa. Utrecht: LOT, 2011.
FREIRE, J. R. B. Rio Babel: A história das línguas na Amazônia. 2. ed. Rio de Janeiro: EdUERJ, 2011.
MARNEFFE, M.-C. de et al. Universal Dependencies. Computational Linguistics, Cambridge, MA, v. 47, n. 2, p. 255–308, 6 2021. Disponível em: https://aclanthology.org/2021.cl-2.11.
MOORE, D. Historical development of Nheengatu (Língua Geral Amazônica). In: MUFWENE, S. S. (Ed.). Iberian Imperialism and Language Evolution in Latin America. Chicago: University of Chicago Press, 2014. p. 108–142.
MOORE, D.; FACUNDES, S.; PIRES, N. Nheengatu (Língua Geral Amazônica), its history, and the effects of language contact. In: Proceedings of the Meeting of the Society for the Study of the Indigenous languages of the Americas, July 2-4, 1993 and the Hokan-Penutian Workshop, July 3, 1993. Berkeley, CA: [University of California], 1994. p. 93–118. Disponível em: https://escholarship.org/uc/item/7tb981s1.
NAVARRO, E. de A. Curso de Língua Geral (nheengatu ou tupi moderno): A língua das origens da civilização amazônica. 2. ed. São Paulo: Centro Angel Rama da Faculdade de Filosofia, Letras e Ciências Humanas da Universidade de São Paulo, 2016.
RODRIGUES, A. D. As línguas gerais sul-americanas. Papia, São Paulo, v. 4, n. 2, p. 6–18, 1996.
RODRIGUES, A. D.; CABRAL, A. S. A. C. A contribution to the linguistic history of the Língua Geral Amazônica. ALFA: Revista de Linguística, v. 55, n. 2, 12 2011.
ZEMAN, D. et al. Universal Dependencies 2.14. 2024. LINDAT/CLARIAH CZ digital library at the Institute of Formal and Applied Linguistics (ÚFAL), Faculty of Mathematics and Physics, Charles University. Disponível em: http://hdl.handle.net/11234/1-5502.
Lecturer(s)
Leonel Figueiredo de Alencar
Professor Titular da Universidade Federal do Ceará. Coordenador do Grupo de Pesquisa Computação e Linguagem Natural (CompLin). Membro da organização Universal Dependencies no GitHub. Pesquisador associado do projeto DACILAT da UNICAMP/ FAPESP, voltado à construção de corpora e tradução automática de cadiuéu e nheengatu. Doutor em Linguística pela Universidade de Constança, Alemanha (2003). Estágios de pós-doutorado na Universidade de Constança (2013) e na Escola de Matemática Aplicada da Fundação Getúlio Vargas (EMAp/FGV) (2021 a 2022).