Por favor, use este identificador para citar o enlazar este ítem: https://repositorio.ufjf.br/jspui/handle/ufjf/19250
Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
caiocedrolarocha.pdfPDF/A898.62 kBAdobe PDFVisualizar/Abrir
Clase: Trabalho de Conclusão de Curso
Título : Creating a dataset for automatic phonetic transcription in brazilian portuguese
Autor(es): Rocha, Caio Cedrola
Orientador: Souza, Jairo Francisco de
Miembros Examinadores: Bernardino, Heder Soares
Miembros Examinadores: Silva, José Eduardo de Carvalho
Resumo: A Transcrição Fonética Automática (APT) é a tecnologia que automatiza o processo de converter fala em transcrições fonéticas. Ela é crucial para melhorar a precisão dos sistemas de Reconhecimento Automático de Fala (ASR). Modelos de aprendizado profundo, como wav2vec 2.0, têm mostrado desempenho notável em aprender características fonéticas a partir de dados. No entanto, eles requerem corpora de fala transcritos foneticamente, que são escassos em idiomas como o Português Brasileiro (PT-BR). O principal objetivo desta pesquisa é estabelecer uma abordagem sistemática para gerar um conjunto de dados com transcrições fonéticas automáticas para PT-BR a partir de corpora de ASR disponíveis. Utilizando ferramentas de conversão de Grafema para Fonema (G2P), o objetivo é otimizar o processo de transcrição e aprimorar o treinamento dos modelos APT. Pesquisamos corpora de fala em PT-BR adequados para treinar modelos APT, selecionando, por fim, o corpus CORAA ASR. Além disso, avaliamos cinco conversores G2P para PT-BR, padronizando as transcrições segundo um quadro referência de fonemas em PT-BR. O conversor G2P do FalaBrasil alcançou a menor taxa de discordância entre as ferramentas selecionadas, e foi usado para transcrever o corpus CORAA ASR utilizado para o ajuste do modelo fonético. O ajuste fino em 10 horas de áudio retornou uma taxa de erro de fonemas (PER) de 15,87% no conjunto de testes. Outrossim, o modelo apresentou altas pontuações médias de confiança por fonema, bem como pouca confusão entre fonemas, e foi compartilhado no repositório da Hugging Face, contribuindo para a pesquisa de ASR em PT-BR.
Resumen : Automatic Phonetic Transcription (APT) is the technology that automates the process of converting speech into phonetic transcriptions. It is crucial for improving the accuracy of Automatic Speech Recognition (ASR) systems. Deep learning frameworks, such as wav2vec 2.0, have shown remarkable performance in learning phonetic features from data. However, they require phonetically transcribed speech corpora, which are scarse in languages such as Brazilian Portuguese (PT-BR). The primary objective of this research is to establish a systematic approach for generating a dataset with automatic phonetic transcriptions for PT-BR from available ASR corpora. By leveraging Grapheme-to-Phoneme (G2P) conversion tools, the aim is to streamline the transcription process and enhance the training of APT models. We researched PT-BR speech corpora suitable for training APT models, ultimately selecting the CORAA ASR corpus. Additionally, we evaluated five G2P converters for PT-BR, standardizing the transcriptions according to a reference phoneme chart. FalaBrasil’s G2P achieved the lowest discordance rate among the selected G2P tools, leading to its selection for transcribing the CORAA ASR corpus used in fine-tuning. The fine-tuning on 10 hours of audio yielded a 15.87% PER (Phoneme Error Rate) on the test set. In addition, the model presented high average confidence scores per phoneme, as well as little confusion between phonemes. It was then shared on the Hugging Face repository, contributing to ASR research in PT-BR.
Palabras clave : Transcrição fonética automática
Reconhecimento automático de fala
Conjunto de dados de fala
Português brasileiro
Grafema para fonema
Automatic phonetic transcription
Automatic speech recognition
Speech dataset
Brazilian portuguese
Grapheme-to-phoneme
CNPq: CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::MATEMATICA DA COMPUTACAO::MODELOS ANALITICOS E DE SIMULACAO
CNPQ::LINGUISTICA, LETRAS E ARTES::LETRAS::LINGUA PORTUGUESA
Idioma: eng
País: Brasil
Editorial : Universidade Federal de Juiz de Fora (UFJF)
Sigla de la Instituición: UFJF
Departamento: Faculdade de Engenharia
Clase de Acesso: Acesso Aberto
Licenças Creative Commons: http://creativecommons.org/licenses/by/3.0/br/
URI : https://repositorio.ufjf.br/jspui/handle/ufjf/19250
Fecha de publicación : 26-jun-2024
Aparece en las colecciones: Engenharia Computacional - TCC Graduação



Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons Creative Commons