Female Speaker

14,000,000 Leading Edge Experts on the ideXlab platform

Scan Science and Technology

Contact Leading Edge Experts & Companies

Scan Science and Technology

Contact Leading Edge Experts & Companies

The Experts below are selected from a list of 9393 Experts worldwide ranked by ideXlab platform

Matthew P Aylett - One of the best experts on this subject based on the ideXlab platform.

  • the romanian speech synthesis rss corpus building a high quality hmm based speech synthesis system using a high sampling rate
    Speech Communication, 2011
    Co-Authors: Adriana Stan, Simon King, Junichi Yamagishi, Matthew P Aylett
    Abstract:

    This paper first introduces a newly-recorded high quality Romanian speech corpus designed for speech synthesis, called ''RSS'', along with Romanian front-end text processing modules and HMM-based synthetic voices built from the corpus. All of these are now freely available for academic use in order to promote Romanian speech technology research. The RSS corpus comprises 3500 training sentences and 500 test sentences uttered by a Female Speaker and was recorded using multiple microphones at 96kHz sampling frequency in a hemianechoic chamber. The details of the new Romanian text processor we have developed are also given. Using the database, we then revisit some basic configuration choices of speech synthesis, such as waveform sampling frequency and auditory frequency warping scale, with the aim of improving Speaker similarity, which is an acknowledged weakness of current HMM-based speech synthesisers. As we demonstrate using perceptual tests, these configuration choices can make substantial differences to the quality of the synthetic speech. Contrary to common practice in automatic speech recognition, higher waveform sampling frequencies can offer enhanced feature extraction and improved Speaker similarity for HMM-based speech synthesis.

Adriana Stan - One of the best experts on this subject based on the ideXlab platform.

  • the romanian speech synthesis rss corpus building a high quality hmm based speech synthesis system using a high sampling rate
    Speech Communication, 2011
    Co-Authors: Adriana Stan, Simon King, Junichi Yamagishi, Matthew P Aylett
    Abstract:

    This paper first introduces a newly-recorded high quality Romanian speech corpus designed for speech synthesis, called ''RSS'', along with Romanian front-end text processing modules and HMM-based synthetic voices built from the corpus. All of these are now freely available for academic use in order to promote Romanian speech technology research. The RSS corpus comprises 3500 training sentences and 500 test sentences uttered by a Female Speaker and was recorded using multiple microphones at 96kHz sampling frequency in a hemianechoic chamber. The details of the new Romanian text processor we have developed are also given. Using the database, we then revisit some basic configuration choices of speech synthesis, such as waveform sampling frequency and auditory frequency warping scale, with the aim of improving Speaker similarity, which is an acknowledged weakness of current HMM-based speech synthesisers. As we demonstrate using perceptual tests, these configuration choices can make substantial differences to the quality of the synthetic speech. Contrary to common practice in automatic speech recognition, higher waveform sampling frequencies can offer enhanced feature extraction and improved Speaker similarity for HMM-based speech synthesis.

Yağlı Emre - One of the best experts on this subject based on the ideXlab platform.

  • Toplumsal anlamı dizinleme: Toplumsesbilgisel değişkenler ve Türkçenin dinleyici algısı
    'Siirt Universitesi Sosyal Bilimler Enstitusu Dergisi', 2018
    Co-Authors: Yağlı Emre
    Abstract:

    The communicative content taking place between Speakers and listeners yield variation in which people transmit and interpret the messages. In regard to the variation in pronunciation, the phonemic nature of sounds and their implementations in various segmental environments constitute and transmit the message. When the phonological and phonetic aspects of speech are taken into consideration along with social aspects and social constructions, broader aspects of variation arise. In this sense, the broader aspects of variation exhibit the cumulation of knowledge in the society and they are realized and interpreted by language users as social meanings. In line with this, the current perception study aims to uncover the social meanings associated with the variant pronunciations of alveolar flap /ɾ/ and velar stop /k/ variables in Turkish. In regard to this preliminary aim, the study endeavours to bring an understanding to the social resources employed during the perception and lays out the indexical fields (Eckert, 2008) associated with the /ɾ/ and /k/ variables. In uncovering the socially accumulated knowledge in the perception of listeners, the study employs a tripartite experimental design. In the first phase, variant pronunciations of the sociophonetic variables (i.e., /ɾ/ and /k/) have been obtained through three distinct sociolinguistic data elicitation methods; sociolinguistic interviews, map task and read speech. In the second phase, the environmental aspects (i.e., duration and pitch) of these variables have been equalized and the tokens for the next phase have been determined. In the third phase, which focuses on the perception of these variables, qualitative and quantitative data have been gathered through sociolinguistic group interviews (N=110 in 30 groups) and matched guise survey (N=228) respectively. In the sociolinguistic group interviews, the listeners have been provided with social cues about the Speaker as education and socioeconomic level. This interactional qualitative data have been analysed by employing ethnomethodological conversation analysis and further triangulated through a quantitative matched guise survey. The findings show that the /ɾ/ variation is perceived alongside two distinct social personae: tiki and gay men depending on who produces the variable. When produced by a Female Speaker, listeners have perceived the variable as a salient component of the sociolinguistic style of tiki persona, while they have perceived the same variable along with a gay persona when produced by a male Speaker. On the /k/ variable, listeners have yielded an Inner Anatolian persona. In perceiving the Speaker, it has been found that listeners exploit the social resources. These social resources, which are social cues and social information, have been employed by the listeners depending on the context of interaction. Thus, it can be argued that the context of interaction, which has been formulated through the social cues, themes and listeners’ backgrounds, is a mediator between listeners’ perception and the social persona of the Speaker. Furthermore, stances adopted by the listeners are also determinant in the perception process and act as a mediator in the social meaning perceiving process. Thus, it can be stated that listeners’ stances and their level of stance takings calibrate whether a sociophonetic variable bear indexical or iconic associations. The findings also show that social meaning perceiving is a complex process that draws on the relationship between the sociophonetic variant perceived, the context of interaction and the perceived persona of the Speaker.Konuşucu ve dinleyici arasında gerçekleşen iletişimsel içerik, mesajların iletiminde ve yorumlanışında değişkenler ortaya çıkarmaktadır. Bu değişkenler söyleyiş açısından ele alındığında, seslerin sesbilimsel doğası ve farklı ses çevrelerinde kullanımı mesajın oluşumuna ve aktarımına katkı yapar. Konuşmanın bu gibi sesbilimsel ve sesbilgisel görünümleri toplumsal görünümler ve yapılarla birlikte göz önünde bulundurulduğunda ise büyük ölçekli değişkeler ortaya çıkar. Bu bağlamda büyük ölçekli değişkenler toplumdaki bilgi birikimini yansıtır ve dil konuşucuları tarafından toplumsal anlam olarak algılanır ve yorumlanır. Bu açıklamalar çerçevesinde bu algı çalışması, dişyuvasıl dokunmalı /ɾ/ ve artdamaksıl duraklamalı /k/ değişkenlerinin alt değişkeleri ile ilişkilendirilen toplumsal anlamları bulgulamayı amaçlamaktadır. Bu birincil amaç doğrultusunda çalışma, dinleyiciler tarafından algı sürecinde kullanılan toplumsal kaynaklara açıklama getirmeyi amaçlayarak /ɾ/ ve /k/ değişkenlerine ait belirtisel alanları (Eckert, 2008) ortaya koymaktadır. Dinleyicilerin algısında bulunan toplumsal bilgi birikimlerini ortaya çıkarmak için üçlü bir deneysel tasarım uygulanmıştır. Deneyin ilk aşamasında /ɾ/ ve /k/ toplumsesbilgisel değişkenlerine ait alt söyleyiş değişkeleri üç farklı toplumdilbilimsel veri elde etme yöntemiyle toplanmıştır: Toplumdilbilimsel mülakat, harita ve okuma görevleri. İkinci aşamada ise bu sesler süre ve perde gibi çevresel etmenlerden arındırılmış ve algı aşamasında kullanılacak örnekçeler şeklinde belirlenmiştir. Bu örnekçelerin algısına odaklanan üçüncü aşamada ise nitel ve nicel veri sırasıyla toplumdilbilimsel grup mülakatları (30 grupta N=110) örtük eşleştirmeli anket (N=228) ile elde edilmiştir. Toplumdilbilimsel grup mülakatlarında dinleyicilere konuşmacıya dair öğrenim ve gelir düzeyi çerçevesinde toplumsal ipuçları sunulmuştur. Mülakatlarla gelen etkileşimsel nitel veri budunyöntembilimsel konuşma çözümlemesi yaklaşımıyla çözümlenmiş ve nicel örtük eşleştirmeli anket ile üçgenlenmiştir. Çalışmanın bulguları /ɾ/ değişkeninin kim tarafından üretildiğine bağlı olarak iki farklı toplumsal karakter ile eşleştiğini göstermiştir. Buna göre /ɾ/ değişkeni, kadın bir konuşucu tarafından üretildiğinde tiki, erkek konuşmacı tarafından üretildiğinde ise gey karakteri çerçevesinde algılanmaktadır. Çalışmanın bir diğer değişkeni olan /k/ ise dinleyicilerin algısında İç Anadolu insanı karakteri ile ilişkilendirilmiştir. Dinleyicilerin algı sırasında farklı toplumsal kaynakları kullandığı bulgulanmıştır. Toplumsal ipucu ve toplumsal bilgi olarak ele alınan bu toplumsal kaynakların, dinleme etkileşiminin gerçekleştiği bağlam ile ilişkili olduğu görülmektedir. Bu bulgu doğrultusunda, toplumsal ipuçları, toplumsal karakter ve dinleyicilerin arka planları ile oluşan etkileşim bağlamının, dinleyicilerin algısı ve toplumsal karakter arasında aracı olduğu düşünülmektedir. Buna ek olarak çalışma, dinleyicilerin aldığı duruşun algı sırasında belirleyici olduğunu bulgulamıştır. Dinleyiciler tarafından alınan duruşların ve bu duruşların düzeyinin, toplumsesbilgisel bir değişkenin belirtisel ve/ya da ikonik algısında belirleyici olduğu düşünülmektedir. Elde edilen bu bulgular, toplumsesbilgisel değişken, etkileşimin bağlamı ve konuşucuya dair algılanan karakter arasındaki ilişkiye odaklanan toplumsal anlam algısının karmaşık bir süreci içerdiğini göstermektedir

  • Toplumsal anlamı dizinleme: Toplumsesbilgisel değişkenler ve Türkçenin dinleyici algısı
    'Siirt Universitesi Sosyal Bilimler Enstitusu Dergisi', 2018
    Co-Authors: Yağlı Emre
    Abstract:

    The communicative content taking place between Speakers and listeners yield variation in which people transmit and interpret the messages. In regard to the variation in pronunciation, the phonemic nature of sounds and their implementations in various segmental environments constitute and transmit the message. When the phonological and phonetic aspects of speech are taken into consideration along with social aspects and social constructions, broader aspects of variation arise. In this sense, the broader aspects of variation exhibit the cumulation of knowledge in the society and they are realized and interpreted by language users as social meanings. In line with this, the current perception study aims to uncover the social meanings associated with the variant pronunciations of alveolar flap /ɾ/ and velar stop /k/ variables in Turkish. In regard to this preliminary aim, the study endeavours to bring an understanding to the social resources employed during the perception and lays out the indexical fields (Eckert, 2008) associated with the /ɾ/ and /k/ variables. In uncovering the socially accumulated knowledge in the perception of listeners, the study employs a tripartite experimental design. In the first phase, variant pronunciations of the sociophonetic variables (i.e., /ɾ/ and /k/) have been obtained through three distinct sociolinguistic data elicitation methods; sociolinguistic interviews, map task and read speech. In the second phase, the environmental aspects (i.e., duration and pitch) of these variables have been equalized and the tokens for the next phase have been determined. In the third phase, which focuses on the perception of these variables, qualitative and quantitative data have been gathered through sociolinguistic group interviews (N=110 in 30 groups) and matched guise survey (N=228) respectively. In the sociolinguistic group interviews, the listeners have been provided with social cues about the Speaker as education and socioeconomic level. This interactional qualitative data have been analysed by employing ethnomethodological conversation analysis and further triangulated through a quantitative matched guise survey. The findings show that the /ɾ/ variation is perceived alongside two distinct social personae: tiki and gay men depending on who produces the variable. When produced by a Female Speaker, listeners have perceived the variable as a salient component of the sociolinguistic style of tiki persona, while they have perceived the same variable along with a gay persona when produced by a male Speaker. On the /k/ variable, listeners have yielded an Inner Anatolian persona. In perceiving the Speaker, it has been found that listeners exploit the social resources. These social resources, which are social cues and social information, have been employed by the listeners depending on the context of interaction. Thus, it can be argued that the context of interaction, which has been formulated through the social cues, themes and listeners’ backgrounds, is a mediator between listeners’ perception and the social persona of the Speaker. Furthermore, stances adopted by the listeners are also determinant in the perception process and act as a mediator in the social meaning perceiving process. Thus, it can be stated that listeners’ stances and their level of stance takings calibrate whether a sociophonetic variable bear indexical or iconic associations. The findings also show that social meaning perceiving is a complex process that draws on the relationship between the sociophonetic variant perceived, the context of interaction and the perceived persona of the Speaker.KABUL VE ONAY iii BİLDİRİM iv YAYIMLAMA VE FİKRİ MÜLKİYET HAKLARI BEYANI v ETİK BEYAN vi ACKNOWLEDGEMENTS vii ÖZET viii ABSTRACT x TABLE OF CONTENTS xii INDEX OF TABLES xv INDEX OF FIGURES xvi CHAPTER 1 – INTRODUCTION 1 1.1. THEORETICAL BACKGROUND 2 1.2. SIGNIFICANCE OF THE STUDY 6 1.3. AIMS OF THE DISSERTATION 7 1.4. RESEARCH QUESTIONS 9 1.5. LIMITATIONS 11 1.6. OUTLINE OF THE DISSERTATION 13 CHAPTER 2 – LITERATURE REVIEW 15 2.1. SOCIOLINGUISTICS AND SOCIOPHONETICS 16 2.2. THE THREE WAVES OF SOCIOLINGUISTICS 19 2.3. SPEECH PERCEPTION 28 2.3.1. The Production – Perception Correlation 28 2.3.2. On Perception 29 2.3.2.1. The Role of Social Information in Perception 33 2.4. ON /ɾ/ 37 2.5. ON /k/ 38 2.6. CLOSING REMARKS 41 CHAPTER 3 – METHODOLOGY 42 3.1. OVERVIEW 42 3.2. WHY DO /ɾ/ AND /k/ MATTER? THE VARIABLES 43 3.2.1. The /ɾ/ Variable 43 3.2.2. The /k/ Variable 45 3.3. THE EXPERIMENTAL DESIGN 46 3.3.1. The Production Stage 47 3.3.1.1. The Linguistic Data Elicitation Methods 47 3.3.1.2. The Informant Pool 51 3.3.2. The Tokenization Stage 53 3.3.3. The Perception Stage 57 3.3.3.1. The Sociolinguistic Group Interviews 58 3.3.3.2. The Matched Guise Survey 62 3.3.3.3. The Listener Profile 65 3.4. DATA ANALYSIS 70 3.4.1. Interpreting the Interviews 71 3.4.2. Interpreting the Survey 72 3.5. THE PILOT 73 CHAPTER 4 – SOCIAL MEANING OF /ɾ/ 76 4.1. OVERVIEW 76 4.2. FINDINGS AND DISCUSSION 77 4.2.1. /ɾ/ Variation Indexing Tiki Persona 77 4.2.1.1. The Interpretation of the Interviews 81 4.2.1.2. Discussion 108 4.2.2. /ɾ/ Variation Indexing Gay 114 4.2.2.1. The Interpretation of the Interviews 114 4.2.2.1.1. Interpretation of the interviews conducted with the Group-A 115 4.2.2.1.2. Interpretation of the interviews conducted with the Group-B 143 4.2.2.2. Discussion 173 CHAPTER 5 – SOCIAL MEANING OF /k/ 183 5.1. OVERVIEW 183 5.2. FINDINGS AND DISCUSSION 183 5.2.1. Interpreting the Interviews 185 5.2.2. Interpreting the Survey 223 5.2.2.1. Factor Analysis 225 5.2.2.2. Social Cues as Guises 230 5.2.3. Discussion 236 CHAPTER 6 – CONCLUSION 245 6.1. OVERVIEW 245 6.2. ADDRESSING THE RESEARCH QUESTIONS 247 6.3. THE SIGNIFICANCE OF THE FINDINGS 253 6.4. LIMITATIONS 254 6.5. FUTURE RESEARCH 255 References 257 Appendix 1: Participant consent form 269 Appendix 2: Ethics permit 271 Appendix 3: Matched guise survey 272 Appendix 4: Participant profile 275 Appendix 5: Transcription conventions 279 Appendix 6: Originality report 280Konuşucu ve dinleyici arasında gerçekleşen iletişimsel içerik, mesajların iletiminde ve yorumlanışında değişkenler ortaya çıkarmaktadır. Bu değişkenler söyleyiş açısından ele alındığında, seslerin sesbilimsel doğası ve farklı ses çevrelerinde kullanımı mesajın oluşumuna ve aktarımına katkı yapar. Konuşmanın bu gibi sesbilimsel ve sesbilgisel görünümleri toplumsal görünümler ve yapılarla birlikte göz önünde bulundurulduğunda ise büyük ölçekli değişkeler ortaya çıkar. Bu bağlamda büyük ölçekli değişkenler toplumdaki bilgi birikimini yansıtır ve dil konuşucuları tarafından toplumsal anlam olarak algılanır ve yorumlanır. Bu açıklamalar çerçevesinde bu algı çalışması, dişyuvasıl dokunmalı /ɾ/ ve artdamaksıl duraklamalı /k/ değişkenlerinin alt değişkeleri ile ilişkilendirilen toplumsal anlamları bulgulamayı amaçlamaktadır. Bu birincil amaç doğrultusunda çalışma, dinleyiciler tarafından algı sürecinde kullanılan toplumsal kaynaklara açıklama getirmeyi amaçlayarak /ɾ/ ve /k/ değişkenlerine ait belirtisel alanları (Eckert, 2008) ortaya koymaktadır. Dinleyicilerin algısında bulunan toplumsal bilgi birikimlerini ortaya çıkarmak için üçlü bir deneysel tasarım uygulanmıştır. Deneyin ilk aşamasında /ɾ/ ve /k/ toplumsesbilgisel değişkenlerine ait alt söyleyiş değişkeleri üç farklı toplumdilbilimsel veri elde etme yöntemiyle toplanmıştır: Toplumdilbilimsel mülakat, harita ve okuma görevleri. İkinci aşamada ise bu sesler süre ve perde gibi çevresel etmenlerden arındırılmış ve algı aşamasında kullanılacak örnekçeler şeklinde belirlenmiştir. Bu örnekçelerin algısına odaklanan üçüncü aşamada ise nitel ve nicel veri sırasıyla toplumdilbilimsel grup mülakatları (30 grupta N=110) örtük eşleştirmeli anket (N=228) ile elde edilmiştir. Toplumdilbilimsel grup mülakatlarında dinleyicilere konuşmacıya dair öğrenim ve gelir düzeyi çerçevesinde toplumsal ipuçları sunulmuştur. Mülakatlarla gelen etkileşimsel nitel veri budunyöntembilimsel konuşma çözümlemesi yaklaşımıyla çözümlenmiş ve nicel örtük eşleştirmeli anket ile üçgenlenmiştir. Çalışmanın bulguları /ɾ/ değişkeninin kim tarafından üretildiğine bağlı olarak iki farklı toplumsal karakter ile eşleştiğini göstermiştir. Buna göre /ɾ/ değişkeni, kadın bir konuşucu tarafından üretildiğinde tiki, erkek konuşmacı tarafından üretildiğinde ise gey karakteri çerçevesinde algılanmaktadır. Çalışmanın bir diğer değişkeni olan /k/ ise dinleyicilerin algısında İç Anadolu insanı karakteri ile ilişkilendirilmiştir. Dinleyicilerin algı sırasında farklı toplumsal kaynakları kullandığı bulgulanmıştır. Toplumsal ipucu ve toplumsal bilgi olarak ele alınan bu toplumsal kaynakların, dinleme etkileşiminin gerçekleştiği bağlam ile ilişkili olduğu görülmektedir. Bu bulgu doğrultusunda, toplumsal ipuçları, toplumsal karakter ve dinleyicilerin arka planları ile oluşan etkileşim bağlamının, dinleyicilerin algısı ve toplumsal karakter arasında aracı olduğu düşünülmektedir. Buna ek olarak çalışma, dinleyicilerin aldığı duruşun algı sırasında belirleyici olduğunu bulgulamıştır. Dinleyiciler tarafından alınan duruşların ve bu duruşların düzeyinin, toplumsesbilgisel bir değişkenin belirtisel ve/ya da ikonik algısında belirleyici olduğu düşünülmektedir. Elde edilen bu bulgular, toplumsesbilgisel değişken, etkileşimin bağlamı ve konuşucuya dair algılanan karakter arasındaki ilişkiye odaklanan toplumsal anlam algısının karmaşık bir süreci içerdiğini göstermektedir

H Gish - One of the best experts on this subject based on the ideXlab platform.

  • a parametric approach to vocal tract length normalization
    International Conference on Acoustics Speech and Signal Processing, 1996
    Co-Authors: E Eide, H Gish
    Abstract:

    Differences in vocal tract size among individual Speakers contribute to the variability of speech waveforms. The first-order effect of a difference in vocal tract length is a scaling of the frequency axis; a Female Speaker, for example, exhibits formants roughly 20% higher than the formants of from a male Speaker, with the differences most severe in open vocal tract configurations. We describe a parametric method of normalisation which counteracts the effect of varied vocal tract length. The method is shown to be effective across a wide range of recognition systems and paradigms, but is particularly helpful in the case of a small amount of training data.

Brian C J Moore - One of the best experts on this subject based on the ideXlab platform.

  • speech processing to improve the perception of speech in background noise for children with auditory processing disorder and typically developing peers
    Trends in hearing, 2018
    Co-Authors: Sheila Flanagan, Tudorcătălin Zorilă, Yannis Stylianou, Brian C J Moore
    Abstract:

    Auditory processing disorder (APD) may be diagnosed when a child has listening difficulties but has normal audiometric thresholds. For adults with normal hearing and with mild-to-moderate hearing impairment, an algorithm called spectral shaping with dynamic range compression (SSDRC) has been shown to increase the intelligibility of speech when background noise is added after the processing. Here, we assessed the effect of such processing using 8 children with APD and 10 age-matched control children. The loudness of the processed and unprocessed sentences was matched using a loudness model. The task was to repeat back sentences produced by a Female Speaker when presented with either speech-shaped noise (SSN) or a male competing Speaker (CS) at two signal-to-background ratios (SBRs). Speech identification was significantly better with SSDRC processing than without, for both groups. The benefit of SSDRC processing was greater for the SSN than for the CS background. For the SSN, scores were similar for the two groups at both SBRs. For the CS, the APD group performed significantly more poorly than the control group. The overall improvement produced by SSDRC processing could be useful for enhancing communication in a classroom where the teacher's voice is broadcast using a wireless system.

  • the effect on speech intelligibility of varying compression time constants in a digital hearing aid
    International Journal of Audiology, 2004
    Co-Authors: Brian C J Moore, Thomas H Stainsby, Jose I Alcantara, Volker Ku Hnel
    Abstract:

    The identification of nonsense syllables in quiet and in three types of background (babble, cafeteria and single Female Speaker) was measured using four hearing aid compression algorithms differing in attack and release time constants, and using linear amplification. The speech level was always 65 dB SPL. The compression algorithms, which were implemented in a Phonak Claro ITE hearing aid, were: (1) ‘very fast’—the attack time was 8 ms and the release time was 32 ms, for all 20 channels; (2) ‘slow–fast’—the attack and release times decreased from 500 ms for low frequencies to about 100 ms for high frequencies; (3) ‘fast–slow’—the attack and release times increased from about 50 ms for low frequencies to 500 ms for high frequencies; and (4) ‘slow+fast’—a very slow-acting gain control signal was combined with a fast-acting gain control signal, for each channel in a 10-channel system. Acoustical stimuli were presented monaurally via a circumaural headphone mounted over the hearing aid. The linear condition d...