https://repositorio.ufjf.br/jspui/handle/ufjf/19250
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
caiocedrolarocha.pdf | PDF/A | 898.62 kB | Adobe PDF | Visualizar/Abrir |
Tipo: | Trabalho de Conclusão de Curso |
Título: | Creating a dataset for automatic phonetic transcription in brazilian portuguese |
Autor(es): | Rocha, Caio Cedrola |
Primeiro Orientador: | Souza, Jairo Francisco de |
Membro da banca: | Bernardino, Heder Soares |
Membro da banca: | Silva, José Eduardo de Carvalho |
Resumo: | A Transcrição Fonética Automática (APT) é a tecnologia que automatiza o processo de converter fala em transcrições fonéticas. Ela é crucial para melhorar a precisão dos sistemas de Reconhecimento Automático de Fala (ASR). Modelos de aprendizado profundo, como wav2vec 2.0, têm mostrado desempenho notável em aprender características fonéticas a partir de dados. No entanto, eles requerem corpora de fala transcritos foneticamente, que são escassos em idiomas como o Português Brasileiro (PT-BR). O principal objetivo desta pesquisa é estabelecer uma abordagem sistemática para gerar um conjunto de dados com transcrições fonéticas automáticas para PT-BR a partir de corpora de ASR disponíveis. Utilizando ferramentas de conversão de Grafema para Fonema (G2P), o objetivo é otimizar o processo de transcrição e aprimorar o treinamento dos modelos APT. Pesquisamos corpora de fala em PT-BR adequados para treinar modelos APT, selecionando, por fim, o corpus CORAA ASR. Além disso, avaliamos cinco conversores G2P para PT-BR, padronizando as transcrições segundo um quadro referência de fonemas em PT-BR. O conversor G2P do FalaBrasil alcançou a menor taxa de discordância entre as ferramentas selecionadas, e foi usado para transcrever o corpus CORAA ASR utilizado para o ajuste do modelo fonético. O ajuste fino em 10 horas de áudio retornou uma taxa de erro de fonemas (PER) de 15,87% no conjunto de testes. Outrossim, o modelo apresentou altas pontuações médias de confiança por fonema, bem como pouca confusão entre fonemas, e foi compartilhado no repositório da Hugging Face, contribuindo para a pesquisa de ASR em PT-BR. |
Abstract: | Automatic Phonetic Transcription (APT) is the technology that automates the process of converting speech into phonetic transcriptions. It is crucial for improving the accuracy of Automatic Speech Recognition (ASR) systems. Deep learning frameworks, such as wav2vec 2.0, have shown remarkable performance in learning phonetic features from data. However, they require phonetically transcribed speech corpora, which are scarse in languages such as Brazilian Portuguese (PT-BR). The primary objective of this research is to establish a systematic approach for generating a dataset with automatic phonetic transcriptions for PT-BR from available ASR corpora. By leveraging Grapheme-to-Phoneme (G2P) conversion tools, the aim is to streamline the transcription process and enhance the training of APT models. We researched PT-BR speech corpora suitable for training APT models, ultimately selecting the CORAA ASR corpus. Additionally, we evaluated five G2P converters for PT-BR, standardizing the transcriptions according to a reference phoneme chart. FalaBrasil’s G2P achieved the lowest discordance rate among the selected G2P tools, leading to its selection for transcribing the CORAA ASR corpus used in fine-tuning. The fine-tuning on 10 hours of audio yielded a 15.87% PER (Phoneme Error Rate) on the test set. In addition, the model presented high average confidence scores per phoneme, as well as little confusion between phonemes. It was then shared on the Hugging Face repository, contributing to ASR research in PT-BR. |
Palavras-chave: | Transcrição fonética automática Reconhecimento automático de fala Conjunto de dados de fala Português brasileiro Grafema para fonema Automatic phonetic transcription Automatic speech recognition Speech dataset Brazilian portuguese Grapheme-to-phoneme |
CNPq: | CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::MATEMATICA DA COMPUTACAO::MODELOS ANALITICOS E DE SIMULACAO CNPQ::LINGUISTICA, LETRAS E ARTES::LETRAS::LINGUA PORTUGUESA |
Idioma: | eng |
País: | Brasil |
Editor: | Universidade Federal de Juiz de Fora (UFJF) |
Sigla da Instituição: | UFJF |
Departamento: | Faculdade de Engenharia |
Tipo de Acesso: | Acesso Aberto |
Licenças Creative Commons: | http://creativecommons.org/licenses/by/3.0/br/ |
URI: | https://repositorio.ufjf.br/jspui/handle/ufjf/19250 |
Data do documento: | 26-Jun-2024 |
Aparece nas coleções: | Engenharia Computacional - TCC Graduação |
Este item está licenciado sob uma Licença Creative Commons