Home - aiboxlab/nlp GitHub Wiki
aibox-nlp
Wiki Bem vindo à wiki da aibox-nlp
! Aqui você encontra mais detalhes sobre a biblioteca, incluindo a lista de características, estimadores e demais funcionalidades. É possível acessar seções específicas através do menu lateral.
Instalação
O método recomendado de instalação da biblioteca é através do uv
, que possui um sistema de resolução de dependências superior ao pip
e com suporte integral à API do pip
:
$ pip install --upgrade pip uv
$ uv pip install aibox-nlp
Adicionalmente, a biblioteca possui dependências adicionais que devem ser instaladas separadamente:
# BR contém características para PT-BR
$ uv pip install aibox-nlp[BR]
# trees contém estimadores baseados em árvore
$ uv pip install aibox-nlp[trees]
# embeddings contém vetorizadores baseados em modelos
$ uv pip install aibox-nlp[embeddings]
# Ou, instalar todas:
$ uv pip install aibox-nlp[all]
Referências
O código base para construção da biblioteca se baseia no código produzido por diversas publicações científicas na área de Processamento de Linguagem Natural (NLP) para Educação. Definições de muitas características presentes na biblioteca podem ser encontradas nas referências abaixo.
-
Oliveira, H., Mello, R. F., Miranda, P., Batista, H., Filho, M. W. da S., Cordeiro, T., Bittencourt, I. I., & Isotani, S. (2025). A benchmark dataset of narrative student essays with multi-competency grades for automatic essay scoring in Brazilian Portuguese. Data in Brief, 60, 111526.
-
Galhardi, L., Herculano, M. F., Rodrigues, L., Miranda, P., Oliveira, H., Cordeiro, T., Bittencourt, I. I., Isotani, S., & Mello, R. F. (2024). Contextual Features for Automatic Essay Scoring in Portuguese. In Communications in Computer and Information Science (pp. 270–282). Springer Nature Switzerland.
-
Rafael Ferreira Mello, Hilário Oliveira, Moésio Wenceslau, Hyan Batista, Thiago Cordeiro, Ig Ibert Bittencourt, and Seiji Isotanif. 2024. PROPOR’24 Competition on Automatic Essay Scoring of Portuguese Narrative Essays. In Proceedings of the 16th International Conference on Computational Processing of Portuguese - Vol. 2, pages 1–5, Santiago de Compostela, Galicia/Spain. Association for Computational Lingustics.
-
Mello, R. F., Rodrigues, L., Sousa, E., Batista, H., Lins, M., Nascimento, A., & Gasevic, D. (2024). Automatic Detection of Narrative Rhetorical Categories and Elements on Middle School Written Essays. In Lecture Notes in Computer Science (pp. 295–308). Springer Nature Switzerland.
-
Oliveira, H., Ferreira Mello, R., Barreiros Rosa, B. A., Rakovic, M., Miranda, P., Cordeiro, T., Isotani, S., Bittencourt, I., & Gasevic, D. (2023). Towards explainable prediction of essay cohesion in Portuguese and English. In LAK23: 13th International Learning Analytics and Knowledge Conference (pp. 509–519). LAK 2023: 13th International Learning Analytics and Knowledge Conference. ACM.
-
Silva Filho, M. W. da, Nascimento, A. C. A., Miranda, P., Rodrigues, L., Cordeiro, T., Isotani, S., Bittencourt, I. I., & Mello, R. F. (2023). Automated Formal Register Scoring of Student Narrative Essays Written in Portuguese. In Anais do II Workshop de Aplicações Práticas de Learning Analytics em Instituições de Ensino no Brasil (WAPLA 2023) (pp. 1–11). Workshop de Aplicações Práticas de Learning Analytics em Instituições de Ensino no Brasil. Sociedade Brasileira de Computação.
-
Pacheco, R., Rodrigues, L., Lins, L., Miranda, P., Macário, V., Isotani, S., Cordeiro, T., Bittencourt, I. I., Dermeval, D., Gašević, D., & Mello, R. F. (2023). Automated Thematic Coherence Scoring of Student Essays Written in Portuguese. In Anais do XXXIV Simpósio Brasileiro de Informática na Educação (SBIE 2023) (pp. 1086–1097). Simpósio Brasileiro de Informática na Educação. Sociedade Brasileira de Computação - SBC.
-
Oliveira, H., Mello, R. F., Miranda, P., Alexandre, B., Cordeiro, T., Bittencourt, I. I., & Isotani, S. (2023). Classificação ou Regressão? Avaliando Coesão Textual em Redações no contexto do ENEM. In Anais do XXXIV Simpósio Brasileiro de Informática na Educação (SBIE 2023) (pp. 1226–1237). Simpósio Brasileiro de Informática na Educação. Sociedade Brasileira de Computação - SBC.
-
Lima, T. B. D., Miranda, P., Mello, R. F., Wenceslau, M., Bittencourt, I. I., Cordeiro, T. D., & José, J. (2022). Sequence Labeling Algorithms for Punctuation Restoration in Brazilian Portuguese Texts. In Lecture Notes in Computer Science (pp. 616–630). Springer International Publishing.
-
Freitas, E., Batista, H. H. N., Barbosa, G. A., Wenceslau, M., Portela, C., Isotani, S., Cordeiro, T., Bittencourt, I. I., Yasojima, K., Sobrinho, Á., Lisboa, R., & Ferreira Mello, R. (2022). Learning Analytics Desconectada: Um Estudo de Caso em Análise de Produções Textuais. In Anais do I Workshop de Aplicações Práticas de Learning Analytics em Instituições de Ensino no Brasil (WAPLA 2022) (pp. 40–49). Workshop de Aplicações Práticas de Learning Analytics em Instituições de Ensino no Brasil. Sociedade Brasileira de Computação.
-
Oliveira, H., Miranda, P., Isotani, S., Santos, J., Cordeiro, T., Bittencourt, I. I., & Ferreira Mello, R. (2022). Estimando Coesão Textual em Redações no Contexto do ENEM Utilizando Modelos de Aprendizado de Máquina. In Anais do XXXIII Simpósio Brasileiro de Informática na Educação (SBIE 2022) (pp. 883–894). Simpósio Brasileiro de Informática na Educação. Sociedade Brasileira de Computação - SBC.
-
Barbosa, G. A., Batista, H. H. N., Miranda, P., Santos, J., Isotani, S., Cordeiro, T., Bittencourt, I. I., & Ferreira Mello, R. (2022). Aprendizagem de Máquina para Classificação de Tipos Textuais: Estudo de Caso em Textos escritos em Português Brasileiro. In Anais do XXXIII Simpósio Brasileiro de Informática na Educação (SBIE 2022) (pp. 920–931). Simpósio Brasileiro de Informática na Educação. Sociedade Brasileira de Computação - SBC.