Please use this identifier to cite or link to this item: https://repositorio.ufjf.br/jspui/handle/ufjf/19250
Files in This Item:
File Description SizeFormat 
caiocedrolarocha.pdfPDF/A898.62 kBAdobe PDFView/Open
Full metadata record
DC FieldValueLanguage
dc.contributor.advisor1Souza, Jairo Francisco de-
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/4516605108233899pt_BR
dc.contributor.referee1Bernardino, Heder Soares-
dc.contributor.referee1Latteshttp://lattes.cnpq.br/7733681743453751pt_BR
dc.contributor.referee2Silva, José Eduardo de Carvalho-
dc.contributor.referee2Latteshttp://lattes.cnpq.br/7529136683493781pt_BR
dc.creatorRocha, Caio Cedrola-
dc.creator.Latteshttp://lattes.cnpq.br/7675250193708581pt_BR
dc.date.accessioned2025-08-22T13:58:04Z-
dc.date.available2025-08-22-
dc.date.available2025-08-22T13:58:04Z-
dc.date.issued2024-06-26-
dc.identifier.urihttps://repositorio.ufjf.br/jspui/handle/ufjf/19250-
dc.description.abstractAutomatic Phonetic Transcription (APT) is the technology that automates the process of converting speech into phonetic transcriptions. It is crucial for improving the accuracy of Automatic Speech Recognition (ASR) systems. Deep learning frameworks, such as wav2vec 2.0, have shown remarkable performance in learning phonetic features from data. However, they require phonetically transcribed speech corpora, which are scarse in languages such as Brazilian Portuguese (PT-BR). The primary objective of this research is to establish a systematic approach for generating a dataset with automatic phonetic transcriptions for PT-BR from available ASR corpora. By leveraging Grapheme-to-Phoneme (G2P) conversion tools, the aim is to streamline the transcription process and enhance the training of APT models. We researched PT-BR speech corpora suitable for training APT models, ultimately selecting the CORAA ASR corpus. Additionally, we evaluated five G2P converters for PT-BR, standardizing the transcriptions according to a reference phoneme chart. FalaBrasil’s G2P achieved the lowest discordance rate among the selected G2P tools, leading to its selection for transcribing the CORAA ASR corpus used in fine-tuning. The fine-tuning on 10 hours of audio yielded a 15.87% PER (Phoneme Error Rate) on the test set. In addition, the model presented high average confidence scores per phoneme, as well as little confusion between phonemes. It was then shared on the Hugging Face repository, contributing to ASR research in PT-BR.pt_BR
dc.description.resumoA Transcrição Fonética Automática (APT) é a tecnologia que automatiza o processo de converter fala em transcrições fonéticas. Ela é crucial para melhorar a precisão dos sistemas de Reconhecimento Automático de Fala (ASR). Modelos de aprendizado profundo, como wav2vec 2.0, têm mostrado desempenho notável em aprender características fonéticas a partir de dados. No entanto, eles requerem corpora de fala transcritos foneticamente, que são escassos em idiomas como o Português Brasileiro (PT-BR). O principal objetivo desta pesquisa é estabelecer uma abordagem sistemática para gerar um conjunto de dados com transcrições fonéticas automáticas para PT-BR a partir de corpora de ASR disponíveis. Utilizando ferramentas de conversão de Grafema para Fonema (G2P), o objetivo é otimizar o processo de transcrição e aprimorar o treinamento dos modelos APT. Pesquisamos corpora de fala em PT-BR adequados para treinar modelos APT, selecionando, por fim, o corpus CORAA ASR. Além disso, avaliamos cinco conversores G2P para PT-BR, padronizando as transcrições segundo um quadro referência de fonemas em PT-BR. O conversor G2P do FalaBrasil alcançou a menor taxa de discordância entre as ferramentas selecionadas, e foi usado para transcrever o corpus CORAA ASR utilizado para o ajuste do modelo fonético. O ajuste fino em 10 horas de áudio retornou uma taxa de erro de fonemas (PER) de 15,87% no conjunto de testes. Outrossim, o modelo apresentou altas pontuações médias de confiança por fonema, bem como pouca confusão entre fonemas, e foi compartilhado no repositório da Hugging Face, contribuindo para a pesquisa de ASR em PT-BR.pt_BR
dc.description.sponsorship-pt_BR
dc.languageengpt_BR
dc.publisherUniversidade Federal de Juiz de Fora (UFJF)pt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentFaculdade de Engenhariapt_BR
dc.publisher.initialsUFJFpt_BR
dc.rightsAcesso Abertopt_BR
dc.rights.urihttp://creativecommons.org/licenses/by/3.0/br/*
dc.subjectTranscrição fonética automáticapt_BR
dc.subjectReconhecimento automático de falapt_BR
dc.subjectConjunto de dados de falapt_BR
dc.subjectPortuguês brasileiropt_BR
dc.subjectGrafema para fonemapt_BR
dc.subjectAutomatic phonetic transcriptionpt_BR
dc.subjectAutomatic speech recognitionpt_BR
dc.subjectSpeech datasetpt_BR
dc.subjectBrazilian portuguesept_BR
dc.subjectGrapheme-to-phonemept_BR
dc.subject.cnpqCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::MATEMATICA DA COMPUTACAO::MODELOS ANALITICOS E DE SIMULACAOpt_BR
dc.subject.cnpqCNPQ::LINGUISTICA, LETRAS E ARTES::LETRAS::LINGUA PORTUGUESApt_BR
dc.titleCreating a dataset for automatic phonetic transcription in brazilian portuguesept_BR
dc.typeTrabalho de Conclusão de Cursopt_BR
Appears in Collections:Engenharia Computacional - TCC Graduação



This item is licensed under a Creative Commons License Creative Commons