สัทศาสตร์
สัทศาสตร์ (อังกฤษ: phonetics) เป็นสาขาย่อยของภาษาศาสตร์ที่ประกอบด้วยการศึกษาเสียงพูดของมนุษย์ หรือลักษณะที่เทียบเท่ากันของสัญลักษณ์มือในกรณีที่พูดถึงภาษามือ[1] นักสัทศาสตร์คือนักภาษาศาสตร์ผู้ชำนาญการศึกษาคุณสมบัติทางกายภาพของการพูด สัทศาสตร์สนใจวิธีการที่มนุษย์วางแผนและดำเนินการเคลื่อนไหวเพื่อพูดออกมา (สรีรสัทศาสตร์, articulatory phonetics) วิธีการที่การเคลื่อนไหวต่าง ๆ ส่งผลต่อคุณสมบัติของเสียงที่เปล่งออกมา (สวนสัทศาสตร์, acoustic phonetics) และวิธีการที่มนุษย์เปลี่ยนคลื่นเสียงเป็นข้อมูลทางภาษา (โสตสัทศาสตร์, auditory phonetics) ตามเดิมแล้ว หน่วยทางภาษาที่เล็กที่สุดในสัทศาสตร์คือเสียง (phone (phonetics)) หรือเสียงพูดในภาษาหนึ่งซึ่งต่างจากหน่วยเสียงในสัทวิทยา หน่วยเสียงคือการจัดกลุ่มแบบนามธรรมของเสียง สัทศาสตร์สนใจอย่างกว้าง ๆ ในแง่สองแง่ของการพูดของมนุษย์: การผลิตหรือวิธีการที่มนุษย์ผลิตเสียง และการรับรู้หรือวิธีการที่มนุษย์เข้าใจเสียงพูด ทักษะมาลา (modality (semiotics)) ของภาษาอธิบายวิธีการผลิตและรับรู้ภาษา ภาษาที่ใช้ทักษะมาลาแบบฟัง-พูดเช่นภาษาอังกฤษผลิตการพูดโดยใช้ปากและรับรู้การพูดโดยใช้หู ภาษามือเช่นภาษามือออสเตรเลีย (Auslan) ใช้ทักษะมาลาแบบมือ-มองและผลิตการพูดโดยใช้มือและรับรู้การพูดโดยใช้ตา ในขณะที่บางภาษาเช่นภาษามืออเมริกัน (American Sign Language) มีสำเนียงที่มีทักษะมาลาแบบมือ-มือ เป็นภาษามือแบบสัมผัส (tactile signing) สำหรับคนตาบอดและหูหนวกซึ่งสัญลักษณ์ที่ใช้มือผลิตก็รับรู้ด้วยมือเช่นกัน การผลิตภาษาประกอบไปด้วยกระบวนการหลายกระบวนการที่พึ่งพากันและกัน ซึ่งเปลี่ยนให้ข้อความที่ไม่เป็นภาษาเป็นสัญญาณทางภาษาที่ถูกพูดหรือทำท่าออกมา หลังจากที่ผู้พูดได้ระบุข้อความหนึ่งที่จะถูกเข้ารหัสทางภาษาแล้ว ผู้นั้นจะต้องสรรหาคำศัพท์หรือรายการศัพท์ (lexical item) เพื่อแทนข้อความนั้นในกระบวนการที่เรียกว่าการคัดเลือกศัพท์ (lexical selection) ในระหว่างนั้นภาพแทนทางจิตของคำศัพท์ต่าง ๆ จะได้รับมอบหมายเนื้อหาทางสัทวิทยาเป็นลำดับของหน่วยเสียงที่จะต้องผลิตออกมา หน่วยเสียงจะระบุลักษณะการออกเสียงเช่น ปิดริมฝีปาก หรือการขยับลิ้นไปในที่ ๆ หนึ่ง จากนั้นหน่วยเสียงเหล่านี้จะถูกประสานงานเป็นลำดับของคำสั่งที่จะส่งไปให้กล้ามเนื้อ และเมื่อคำสั่งเหล่านี้ได้ดำเนินการอย่างถูกต้อง เสียงก็จะเปล่งออกมาอย่างที่เจตนา การเคลื่อนไหวเหล่านี้ขัดขวางและดัดแปลงกระแสลมทำให้เกิดคลื่นเสียง การดัดแปลงทำโดยฐานกรณ์ที่มีตำแหน่งและลักษณะเกิดเสียงต่าง ๆ ทำให้เกิดผลลัพธ์เสียงที่ต่างกัน ตัวอย่างเช่นคำว่า ทาก กับ ซาก ทั้งสองคำมีเสียงพยัญชนะปุ่มเหงือกเป็นพยัญชนะต้นแต่แตกต่างที่ระยะทางจากแนวปุ่มเหงือก ความแตกต่างนี้มีผลมากต่อกระแสลม เสียงที่ถูกผลิตจึงแตกต่างไปด้วย ในทางคล้ายกันทิศทางและแหล่งกำเนิดของกระแสลมก็ส่งผลต่อเสียงด้วย กลไกกระแสลมที่พบได้ทั่วไปที่สุดคือกลไกกระแสลมจากปอด แต่ช่องเส้นเสียง (glottis) และลิ้นก็สามารถใช้ผลิตกระแสลมเช่นกัน การรับรู้ภาษาเป็นกระบวนการทำความเข้าใจและถอดรหัสสัญญาณทางภาษา สัญญาณเสียงที่ต่อเนื่องจะต้องเปลี่ยนเป็นหน่วยวิยุตทางภาษาเช่นหน่วยเสียง หน่วยคำ และคำเพื่อรับรู้เสียงพูด ผู้ฟังจะให้ความสำคัญต่อแง่มุมหนึ่งของสัญญาณที่สามารถใช้แยกออกเป็นกลุ่มได้อย่างน่าเชื่อถือเพื่อระบุและจัดกลุ่มเสียงได้ถูกต้อง แม่สิ่งบ่งชี้อันหนึ่งจะได้รับความสำคัญมากกว่าอันอื่นแต่แง่มุมอื่น ๆ ก็สามารถมีส่วนต่อการรับรู้ ตัวอย่างเช่น แม้ภาษาพูดจะให้ความสำคัญต่อข้อมูลเสียง ปรากฏการณ์แม็คเกอร์กแสดงให้เห็นว่าข้อมูลทางสายตาก็ถูกใช้เพื่อแยกแยะข้อมูลที่กำกวมเมื่อสิ่งบ่งชี้ทางเสียงไม่น่าเชื่อถือ สัทศาสตร์สมัยใหม่มีสามสาขาหลัก:
ประวัติสมัยโบราณการศึกษาสัทศาสตร์เริ่มเป็นครั้งแรกอย่างน้อยเมื่อ 2,600 ปีที่แล้วหรือ 6 ศตวรรษก่อนคริสตกาลในอินเดียโบราณ[2] โดยปาณินินักวิชาการฮินดูได้อธิบายถึงฐานและกรณ์ในการออกเสียง พยัญชนะในตำราภาษาสันสกฤตของเขา อักษรอินเดียที่ใช้ในปัจจุบันเรียงลำดับตัวอักษรตามการแยกประเภทของปาณินิ เขาเป็นส่วนหนึ่งของผู้ที่สำรวจในเรื่องนี้เป็นคนแรก ๆ และไวยากรณ์สี่ภาคของเขาซึ่งเขียนไว้ประมาณ 350 ปีก่อนคริสกาลมีอิทธิพลต่อภาษาศาสตร์สมัยใหม่และยังเป็น "ภาษาศาสตร์เพิ่มพูนที่สมบูรณ์ที่สุดของภาษาใด ๆ ที่เคยมีเขียนมา" (the most complete generative grammar of any language yet written)[3] ไวยากรณ์ของเขาเป็นรากฐานของภาษาศาสตร์สมัยใหม่และอธิบายหลักการทางสัทศาสตร์ที่สำคัญหลายหลักการ รวมไปด้วยเสียงพูด เขาอธิบายว่าการสั่นพ้องถูกผลิตเป็น "น้ำเสียง" (tone) เมื่อเส้นเสียงปิด และเป็น "เสียง" (noise) เมื่อเส้นเสียงเปิด หลักการทางสัทศาสตร์ในไวยากรณ์นี้ถือว่าเป็น "ปฐมฐาน" ในแง่ที่มันเป็นรากฐานของการวิเคราะห์เชิงทฤษฎีของเขา และไม่ได้เป็นสิ่งที่ถูกวิเคราะห์ในทางทฤษฎีเอง และหลักการเหล่านี้ก็สามารถถูกอนุมานได้จากระบบทางสัทวิทยาของเขา[4] สมัยใหม่ความก้าวหน้าในวิชาสัทศาสตร์หลังจากปาณินิและผู้ร่วมสมัยกับเขานั้นถูกจำกัดจนกระทั่งยุคสมัยใหม่ หากสงวนการสำรวจที่จำกัดโดยนักไวยากรณ์ชาวกรีกและโรมันบางคน ในสหัสวรรษระหว่างสมัยนักไวยากรณ์อินเดียและสัทศาสตร์สมัยใหม่ จุดสนใจเปลี่ยนจากความแตกต่างระหว่างภาษาพูดและเขียนซึ่งเป็นแรงผลักดันเบื้องหลังการบรรยายของปาณินิ และเริ่มมาสนใจคุณสมบัติทางกายภาพของการพูดอย่างเดียว ความสนใจในสัทศาสตร์ที่ต่อเนื่องเริ่มขึ้นประมาณในปี ค.ศ. 1800 และคำว่า "phonetics" (สัทศาสตร์) ถูกใช้ในความหมายปัจจุบันเป็นครั้งแรกในปี ค.ศ. 1841[5][2] สัทศาสตร์สามารถมีความเข้าใจมากขึ้นจากการใช้และทบทวนข้อมูลที่ใหม่และมีรายละเอียดกว่าจากการพัฒนาของแพทยศาสตร์และอุปกรณ์ที่สามารถอัดเสียงและภาพ ยุคสมัยแรกของสัทศาสตร์สมัยใหม่นั้นก็รวมไปถึงการพัฒนาวิสิเบิลสปีช (visible speech) ซึ่งเป็นสัทอักษรอันทรงอิทธิพลที่อ้างอิงถึงตำแหน่งการออกเสียงโดยอเล็กซานเดอร์ เมลวิลล์ เบลล์ (Alexander Melville Bell) สัทอักษรนี้มีชื่อเสียงเป็นเครื่องมือในการศึกษาการพูดของเด็กหูหนวก (Oralism)[2] ก่อนที่อุปกรณ์อัดเสียงจะมีอยู่ทั่วไป นักสัทศาสตร์พึ่งพาธรรมเนียมของสัทศาสตร์เชิงปฏิบัติอย่างหนักเพื่อรับรองว่าการถอดเสียงและการค้นพบจะสอดคล้องกับนักสัทศาสตร์คนอื่น ๆ นี่รวมไปถึงการฝึกหูให้สามารถจำและแยกเสียงพูดได้ และความสามารถในการผลืตเสียงต่าง ๆ นักสัทศาสตร์ยังต้องเรียนรู้ที่จะฟัง จำ และนึกเสียงต่าง ๆ ในสัทอักษรสากล (IPA) ออก IPA นั้นยังถูกใช้เพื่อทดสอบและรับรองความสามารถที่จะออกเสียงภาษาอังกฤษของผู้พูดได้ (แต่ว่าการปฏิบัตินี้เลิกใช้แล้วในภาษาอื่น)[6] เมลวิลล์ เบลล์ได้พัฒนาการอธิบายสระด้วยความสูง (height) และการเป็นหน้าหลัง (backness) เพื่อปรับปรุงวิธีการสอนวิสิเบิลสปีชของเขา ก่อให้เกิดชุดสระมาตรฐาน (cardinal vowel) 9 อัน[7] นักสัทศาสตร์ถูกคาดหมายว่าต้องสามารถพูดชุดสระมาตรฐานได้เพื่อยึดเป็นจุดอ้างอิงในการรับรู้และถอดเสียงต่าง ๆ เวลาลงพื้นที่จริง[6] แนวทางนี้ถูกวิจารณ์โดยปีเตอร์ เลเดโฟเกด (Peter Ladefoged) ในช่วงปี ค.ศ. 1960s บนรากฐานของหลักฐานทางทดลองที่เขาพบว่าชุดสระมาตรฐานเป็นเป้าทางเสียงแทนที่จะเป็นเป้าทางการออกเสียง เป็นการท้าทายการอ้างที่ว่านักสัทศาสตร์สามารถใช้ชุดสระมาตรฐานเป็นตัวยึดหลักในการตัดสินการออกเสียงอื่น[8] การผลิตการผลิตภาษา (อังกฤษ: Language production) ประกอบไปด้วยกระบวนการหลายกระบวนการที่พึ่งพากันและกัน ซึ่งเปลี่ยนให้ข้อความที่ไม่เป็นภาษาเป็นสัญญาณทางภาษาที่ถูกพูดหรือทำท่าออกมา นักภาษาศาสตร์โต้แย้งว่ากระบวนการผลิตภาษาเกิดขึ้นเป็นลำดับของระยะ (การประมวลผลแบบลำดับ) หรือไม่ และกระบวนการผลิตเกิดขึ้นขนานกัน หลังจากที่ผู้พูดได้ระบุข้อความหนึ่งที่จะถูกเข้ารหัสทางภาษาแล้ว ผู้นั้นจะต้องสรรหาคำศัพท์หรือรายการศัพท์ (lexical item) เพื่อแทนข้อความนั้นในกระบวนการที่เรียกว่าการคัดเลือกศัพท์ (lexical selection) คำจะถูกเลือกมาบนรากฐานของความหมายซึ่งนักภาษาศาสตร์เรียกว่าข้อมูลความหมาย การคัดเลือกศัพท์กระตุ้นราก (lemma (psycholinguistics)) ของคำซึ่งมีทั้งข้อมูลความหมายและไวยากรณ์ของคำนั้น[9][a] หลังจากได้วางแผนการพูดไว้แล้ว[b] มันจึงจะผ่านการเข้ารหัสทางสัทวิทยา ในการผลิตภาษาระยะนี้ ภาพแทนทางจิตของคำศัพท์ต่าง ๆ จะได้รับมอบหมายเนื้อหาทางสัทวิทยาเป็นลำดับของหน่วยเสียงที่จะต้องผลิตออกมา หน่วยเสียงจะระบุลักษณะการออกเสียงเช่น ปิดริมฝีปาก หรือการขยับลิ้นไปในที่ ๆ หนึ่ง จากนั้นหน่วยเสียงเหล่านี้จะถูกประสานงานเป็นลำดับของคำสั่งที่จะส่งไปให้กล้ามเนื้อ และเมื่อคำสั่งเหล่านี้ได้ดำเนินการอย่างถูกต้อง เสียงก็จะเปล่งออกมาอย่างที่เจตนา[11] ดังนั้นกระบวนการผลิตจากข้อความไปสู่การออกเสียงออกมาสามารถสรุปได้ตามลำดับดังนี้:[c]
ตำแหน่งเกิดเสียงเสียงที่ถูกผลิตโดยการการบีบตัว (constriction) อย่างเต็มหรือบางส่วนของช่องเสียง (vocal tract) จะเรียกว่าพยัญชนะ พยัญชนะถูกออกเสียงในช่องเสียง โดยปกติเป็นในปาก และตำแหน่งที่บีบตัวนี้ก็ส่งผลต่อเสียงผลลัพธ์ เนื่องด้วยความสัมพันธ์ที่แนบชิดระหว่างตำแหน่งของลิ้นและเสียงที่เปล่งออกมา ตำแหน่งเกิดเสียงเป็นแนวคิดที่สำคัญในสาขาวิชาย่อยหลายสาขาในวิชาสัทศาสตร์ เสียงถูกจัดประเภทในบางส่วนด้วยตำแหน่งของการบีบตัว รวมไปทั้งส่วนของร่างกายที่ใช้ในการบีบตัว ตัวอย่างเช่นคำว่า fought และ thought ในภาษาอังกฤษ ทั้งสองเป็นคู่เทียบเสียง (minimal pair) ที่ต่างกันเพียงอวัยวะที่ใช้บีบตัว มากกว่าตำแหน่งของการบีบตัว "f" ใน fought เป็นการออกเสียงพยัญชนะริมฝีปากล่าง-ฟันบน (labiodental consonant) ที่เกิดจากริมฝีปากล่างกับฟันบน "th" ใน thought เป็นการออกเสียงพยัญชนะลิ้น-ฟันบน (linguodental consonant) ที่เกิดจากลิ้นกับฟันบน การบีบตัวที่ทำโดยริมฝีปากเรียกว่าเสียงพยัญชนะริมฝีปาก (labialization) และที่ทำโดยลิ้นจะเรียกว่าเสียงพยัญชนะลิ้น (lingual) การบีบตัวโดยลิ้นสามารถเกิดขึ้นได้ในหลายส่วนของช่องเสียง โดยจัดกลุ่มอย่างกว้าง ๆ เป็นโพรงปาก หลังลิ้น (dorsal) และโคนลิ้น (radical) การออกเสียงที่โพรงปากถูกทำโดยส่วนหน้าของลิ้น การออกเสียงที่หลังลิ้นถูกทำโดยส่วนหลังของลิ้น และการออกเสียงที่โคนลิ้นถูกทำในคอหอย[12] การแบ่งกลุ่มนี้ไม่พอสำหรับการแยกแยะและอธิบายเสียงพูดทั้งหมด[12] ตัวอย่างเช่น เสียง [s] และ [ʃ] เป็นเสียงโพรงปากทั้งสอง แต่ถูกผลิตในตำแหน่งที่ต่างกัน เพื่ออธิบายสิ่งนี้ ตำแหน่งเกิดเสียงที่ละเอียดกว่านี้จึงจำเป็นโดยจะพูดถึงพื้นที่ในปากที่เกิดการบีบตัว[13] ริมฝีปากการออกเสียงที่ใช้ริมฝีปากสามารถออกได้สามแบบ: ทั้งบนและล่าง (เสียงพยัญชนะริมฝีปากคู่) ริมฝีปากกับฟัน (เสียงพยัญชนะริมฝีปากล่าง-ฟันบน) และลิ้นกับริมฝีปากบน (เสียงพยัญชนะลิ้น-ริมฝีปากบน)[14] การออกเสียงจำพวกนี้ทั้งหมดหรือบางส่วนขึ้นอยู่กับนิยามที่ใช้สามารถจัดกลุ่มให้เป็นเสียงพยัญชนะริมฝีปาก (labial consonant) เสียงพยัญชนะริมฝีปากคู่ (bilabial consonant) ทำโดยใช้ริมฝีปากบนและล่าง เพื่อผลิตเสียงนี้ริมฝีปากล่างเคลื่อนที่ไกลที่สุดไปหาริมฝีปากบนซึ่งเคลื่อนลงมาหน่อยเดียว[15] แต่ในบางกรณีแรงลมที่ผ่านช่องระหว่างริมฝีปากทั้งสองอาจทำให้ริมฝีปากแยกออกจากกันเร็วกว่าที่เข้ามาหากัน[16] การออกเสียงทั้งสองแบบเกิดจากเนื้อเยื่ออ่อนซึ่งต่างจากการออกเสียงอื่น ๆ เสียงหยุดริมฝีปากจึงมักจะถูกผลิตด้วยการปิดไม่สมบูรณ์ มากกว่าการออกเสียงที่ใช้พื้นผิวแข็งเช่นฟันหรือเพดานปาก นอกจากนั้นเสียงหยุดริมฝีปากยังแปลกอีกตรงที่ฐานกรณ์ส่วนบนมีการเคลื่อนที่ลงล่าง อย่างที่ริมฝีปากบนมีการเคลื่อนที่ลงล่างเล็กน้อย[17] เสียงพยัญชนะลิ้น-ริมฝีปากบน (linguolabial consonant) ทำจากปลายลิ้นแตะริมฝีปากบน ริมฝีปากบนเคลื่อนที่เข้าหาฐานกรณ์ที่เคลื่อนไหวมากกว่าเหมือนกับในการออกเสียงริมฝีปากคู่ การออกเสียงของพยัญชนะในกลุ่มนี้ไม่มีตัวอักษรของตัวเองในสัทอักษรสากลและต้องใช้สัญลักษณ์ปลายสุดลิ้นกับเครื่องหมายเสริมที่ชี้ว่าเสียงนี้อยู่ในประเภทโพรงปาก [d̼] (เสียงหยุดลิ้น-ริมฝีปากบนก้อง) [18][19] เสียงพวกนี้มีอยู่ในภาษาหลายภาษาพื้นเมืองของวานูอาตูเช่นภาษาทังโกอา (Tangoa language) เสียงพยัญชนะริมฝีปากล่าง-ฟันบนทำจากริมฝีปากล่างแตะฟันบน โดยปกติพยัญชนะริมฝีปากล่าง-ฟันบนเป็นพยัญชนะเสียงเสียดแทรก (fricative) และเสียงนาสิกก็พบเจอได้[20] มีการโต้แย้งกันว่าเสียงหยุดริมฝีปากล่าง-ฟันบนที่แท้จริงมีอยู่ในภาษาธรรมชาติหรือไม่[21] แม้มีรายงานว่าภาษาหลายภาษามีเสียงหยุดริมฝีปากล่าง-ฟันบนก็ตาม เช่นภาษาซูลู (Zulu) [22] ภาษาตองกา (Tonga language (Zambia and Zimbabwe)) [23] และภาษาชูบิ (Shubi language)[21] โพรงปากพยัญชนะโพรงปาก (อังกฤษ: Coronal consonant) ทำจากปลายลิ้นและเนื่องมาจากความคล่องแคล่วของลิ้นส่วนหน้าจึงมีตำแหน่งและท่าทางที่หลากหลาย ตำแหน่งเกิดเสียงโพรงปากคือพื้นที่ในปากที่ลิ้นแตะหรือบีบตัว ซึ่งรวมไปถึงตำแหน่งที่ฟัน ปุ่มเหงือก และหลังปุ่มเหงือก ท่าทางลิ้นที่ใช้ส่วนปลายสุดของลิ้นจะได้เสียงปลายสุดลิ้น (apical consonant) หากใช้ส่วนปลายลิ้นจะได้เสียงปลายลิ้น (laminal consonant) และหากปลายลิ้นโค้งขึ้นข้างหลังและใช้ส่วนล่างของปลายลิ้นจะได้เสียงปลายลิ้นม้วน (retroflex consonant) พยัญชนะโพรงปากเป็นกลุ่มพยัญชนะที่มีลักษณะเฉพาะตรงที่มันรองรับลักษณะเกิดเสียงทุกลักษณะ[18][24] ภาษาชนดั้งเดิมออสเตรเลีย (Australian languages) เป็นที่รู้จักว่ามีพยัญชนะโพรงปากที่มีความหลากหลาย[25] เสียงพยัญชนะฟัน (Dental consonant) ทำจากส่วนปลายของลิ้นและฟันบนและสามารถจัดออกเป็นสองกลุ่มขึ้นกับส่วนของลิ้นที่ใช้ผลิต: เสียงพยัญชนะปลายสุดลิ้น-ฟัน (apical dental consonant) ผลิตจากส่วนปลายสุดของลิ้นแตะฟันบน เสียงพยัญชนะลิ้นระหว่างฟัน (interdental consonant) ผลิตจากส่วนบนของปลายลิ้นแตะฟันบนและส่วนปลายสุดของลิ้นยื่นออกไปด้านหน้า ไม่มีภาษาไหนที่เป็นที่รู้จักว่าใช้ทั้งสองเสียงพยัญชนะเป็นเสียงที่แยกจากกันแต่อาจมีที่ใช้ทั้งสองเป็นหน่วยเสียงย่อย เสียงพยัญชนะปุ่มเหงือก (Alveolar consonant) ทำจากส่วนปลายของลิ้นแตะที่แนวปุ่มเหงือกด้านหลังฟันบนและอาจเป็นได้ทั้งปลายสุดลิ้นหรือปลายลิ้น[26] พยัญชนะฟันและปุ่มเหงือกถูกแยกแยะในหลาย ๆ ภาษา ทำให้มีการวางนัยทั่วไปแบบแผนระหว่างภาษาขึ้นมาจำนวนหนึ่ง ส่วนของลิ้นที่ใช้ผลิตเสียงก็ถูกแยะแยะเป็นตำแหน่งเกิดเสียงที่ต่างกันด้วย: ภาษาที่มีเสียงหยุดฟันส่วนใหญ่จะมีเสียงปลายลิ้น-ฟัน และภาษาที่มีเสียงหยุดปลายสุดลิ้นจะมีเสียงหยุดปลายสุดลิ้น น้อยมากที่ภาษาจะมีพยัญชนะสองตัวในที่เดียวกันที่ใช้ปลายลิ้นคนละส่วน ยกเว้นภาษาตา (ǃXóõ) ซึ่งไม่เป็นตามแบบแผนนี้[27] ถ้าภาษาหนึ่งมีเสียงหยุดฟันหรือปุ่มเหงือกอย่างใดอย่างหนึ่งเพียงเสียงเดียว เสียงนั้นจะเป็นปลายลิ้นหากเป็นเสียงฟัน และเป็นปลายสุดลิ้นหากเป็นเสียงปุ่มเหงือก ยกเว้นบางภาษาเช่นภาษาเทมเน (Temne language) และภาษา และภาษาบัลแกเรีย[28]ซึ่งไม่เป็นตามแบบแผนนี้[29] ถ้าภาษาหนึ่งมีทั้งเสียงหยุดปลายลิ้นและปลายสุดลิ้น เสียงปลายลิ้นมักจะเป็นเสียงกักเสียดแทรกเช่นในภาษาอิโซโก (Isoko language) ในขณะที่ภาษาดาฮาโล (Dahalo language) มีแบบแผนที่ตรงข้ามกัน เสียงหยุดปุ่มเหงือกกักเสียดแทรกกว่า[30] เสียงพยัญชนะปลายลิ้นม้วน (Retroflex consonant) มีหลายนิยามซึ่งขึ้นอยู่กับว่าตำแหน่งของลิ้นหรือตำแหน่งขแงเพดานปากเด่นชัดกว่า โดยทั่วไปแล้วเป็นกลุ่มของการออกเสียงที่ปลายลิ้นม้วนขึ้นด้านบนระดับหนึ่ง ด้วยวิธีนี้การออกเสียงแบบม้วนลิ้นสามารถเกิดขึ้นได้บนหลายตำแหน่งของเพดานปากซึ่งรวมไปถึงปุ่มเหงือก หลังปุ่มเหงือก และเพดานแข็ง หากด้านใต้ของลิ้นไปสัมผัสเพดานปากก็จะเป็นเสียงจากใต้ปลายสุดลิ้น แต่เสียงปลายสุดลิ้นจากปุ่มเหงือกก็ถูกเรียกเป็นเสียงลิ้นม้วนเช่นเดียวกัน[31] ตัวอย่างปกติของเสียงลิ้นม้วนใต้ปลายสุดลิ้นคือเสียงที่พบเจอได้ทั่วไปในภาษากลุ่มดราวิเดียน และในภาษาชนพื้นเมืองทางตอนตะวันตกเฉียงใต้ของสหรัฐอเมริกา (Indigenous languages of the Americas) บางภาษา ความแตกต่างระหว่างเสียงหยุดฟันและปุ่มเหงือกคือเสียงปุ่มเหงือกจะม้วนลิ้นเล็กน้อย[32] ในทางเสียง การม้วนลิ้นมักส่งผลต่อกลุ่มความถี่สั่นพ้อง (formant) ที่สูงกว่า[32] การออกเสียงที่เกิดขึ้นด้านหลังของแนวปุ่มเหงือก (alveolar ridge) เรียกว่าเสียงพยัญชนะหลังปุ่มเหงือก (post-alveolar consonants) และมีคำศัพท์เรียกหลายคำ เสียงพยัญชนะหลังปุ่มเหงือกปลายสุดลิ้นมักจะถูกเรียกว่าพยัญชนะลิ้นม้วน ในขณะที่การออกเสียงปลายลิ้น (laminal) มักจะถูกเรียกว่าเสียงพยัญชนะปุ่มเหงือก-เพดานแข็ง (palato-alveolar)[33] ในวรรณกรรมของภาษาชนดั้งเดิมออสเตรเลีย เสียงหยุดปลายลิ้นมักถูกเรียกเป็นเสียง 'เพดานแข็ง' ถึงแม้จะถูกผลิตเยื้องไปข้างหน้ากว่าพื้นที่แถบเพดานแข็ง[25] และเพราะแต่ละคนมีกายวิภาคที่ต่างกัน การออกเสียงปุ่มเหงือก-เพดานแข็ง (และเสียงโพรงปากโดยทั่วไป) สามารถมีความแตกต่างกันอย่างมากภายในชุมชนภาษา[34] หลังลิ้นเสียงพยัญชนะหลังลิ้น (อังกฤษ: Dorsal consonants) คือเสียงพยัญชนะที่ใช้ตัวลิ้นแทนส่วนปลายลิ้นและมักจะถูกผลิตที่เพดานแข็ง เพดานอ่อน (velum) หรือลิ้นไก่ (uvula) เสียงพยัญชนะเพดานแข็ง (Palatal consonants) ทำโดยใช้ตัวลิ้นแตะเพดานแข็งที่เพดานปาก เสียงพยัญชนะเพดานแข็งมักจะถูกเปรียบต่างกับเสียงพยัญชนะเพดานอ่อนหรือลิ้นไก่ และหายากที่จะมีภาษาใดเปรียบต่างทั้งสามเสียง ตัวอย่างหนึ่งของภาษาที่เปรียบต่างทั้งสามเสียงคือภาษาฮาการุ (Jaqaru language)[35] เสียงพยัญชนะเพดานอ่อน (Velar consonants) ทำโดยใช้ตัวลิ้นแตะเพดานอ่อน (soft palate) เสียงนี้เป็นเสียงที่พบเจอได้บ่อยมากในหลาย ๆ ภาษา เกือบทุกภาษามีเสียงหยุดเพดานอ่อน การออกเสียงผสม (coarticulation) ระหว่างเสียงเพดานอ่อนกับสระมักจะเกิดขึ้นและอาจทำให้ตำแหน่งออกเสียงอยู่ไกลถึงเพดานแข็งด้านหน้าหรือถึงลิ้นไก่ด้านหลังเพราะทั้งเสียงเพดานอ่อนและเสียงสระผลิตโดยใช้ตัวลิ้น การแปรผันเหล่านี้ปกติจะถูกแบ่งเป็นเสียงเพดานอ่อนหน้า กลาง และหลังตามบริเวณเสียงสระ[36] เสียงนี้อาจถูกแยกแยะจากเสียงเพดานแข็งได้ยากในทางสัทศาสตร์แต่มันถูกผลิตอยู่หลังบริเวณที่เสียงพยัญชนะเพดานแข็งทั่วไปถูกผลิตเล็กน้อย[37] เสียงพยัญชนะลิ้นไก่ (Uvular consonants) ทำโดยใช้ตัวลิ้นแตะหรือเคลื่อนหาลิ้นไก่ เสียงนี้หายากและถูกประมาณว่ามีแค่ใน 19 เปอร์เซ็นต์ของภาษาทั้งหมด ส่วนภูมิภาคขนาดใหญ่ของทวีปอเมริกาและแอฟริกาไม่มีภาษาที่มีเสียงพยัญชนะลิ้นไก่เลย ในภาษาที่มีเสียงพยัญชนะลิ้นไก่เสียงหยุดมักจะตามด้วยเสียงพยัญชนะต่อเนื่อง (continuant) (รวมไปถึงเสียงพยัญชนะนาสิก)[38] ช่องคอและกล่องเสียงเสียงพยัญชนะที่ทำโดยการบีบตัวของช่องคอคือเสียงพยัญชนะช่องคอ (Pharyngeal consonant) และที่ทำโดยการบีบตัวในกล่องเสียงคือเสียงพยัญชนะกล่องเสียง (Laryngeal consonant) เสียงจากกล่องเสียงทำโดยใช้เส้นเสียงเพราะตัวกล่องเสียงอยู่ลึกเกินที่จะใช้ลิ้นได้ แต่เสียงจากช่องคอยังใกล้ปากพอที่ส่วนของลิ้นเคลื่อนถึง เสียงพยัญชนะโคนลิ้นใช้โคนของลิ้นหรือลิ้นปิดกล่องเสียงเพื่อผลิต และถูกผลิตลึกมากไปในช่องเสียง[39] เสียงพยัญชนะช่องคอทำโดยการร่นถอยโคนลิ้นไปไกลจนเกือบแตะคอหอย เพราะผลิตได้ยากจึงมีเพียงแค่เสียงเสียดแทรกและเสียงเปิดที่ผลิตในที่นี้ได้[40][41] เสียงพยัญชนะลิ้นปิดกล่องเสียง (Epiglottal consonant) ทำโดยลิ้นปิดกล่องเสียงและผนังด้านหลังของคอหอย เสียงหยุดลิ้นปิดกล่องเสียงถูกบันทึกในภาษาดาฮาโล[42] เสียงพยัญชนะลิ้นปิดกล่องเสียงก้องเป็นไปไม่ได้เพราะโพรงระหว่างช่องเส้นเสียงและลิ้นปิดกล่องเสียงเล็กเกินกว่าจะทำเสียงก้องได้[43] เสียงพยัญชนะเส้นเสียง (Glottal consonant) ถูกผลิตโดยใช้เส้นเสียงในกล่องเสียง พยัญชนะเส้นเสียงหลายอันไม่มีวันออกเสียงได้เช่นเสียงหยุดเส้นเสียงก้องเพราะเส้นเสียงเป็นต้นกำเนิดของการเปล่งเสียงพูดและอยู่ข้างล่างช่องเสียงปาก-จมูก มีเสียงพยัญชนะเส้นเสียงสามเสียงที่ทำได้คือเสียงหยุดเส้นเสียงไม่ก้องและเสียงเสียดแทรกเส้นเสียงสองเสียง ทั้งหมดถูกยืนยันว่ามีอยู่ในภาษาธรรมชาติ[18] เสียงหยุดเส้นเสียงซึ่งถูกผลิตโดยการปิดเส้นเสียง พบเจอได้บ่อยในภาษาต่าง ๆ ทั่วโลก[43] ในขณะที่หลาย ๆ ภาษาใช้เสียงนี้เพื่อแบ่งเขตของวลี บางภาษาเช่นมาซาเท็กเวาตลา (Mazatecan Language) ใช้เป็นหน่วยเสียงหน่วยนึง นอกจากนั้นในภาษานี้เสียงหยุดเส้นเสียงที่ตามด้ายสระอาจทำให้สระเกิดเสียงต่ำลึก (Creaky voice) ด้วย[44] เสียงหยุดเส้นเสียงมักจะปิดหรือหยุดไม่สมบูรณ์เมื่ออยู่ระหว่างสระ เสียงหยุดเส้นเสียงที่แท้จริงเกิดขึ้นเมื่อถูกซ้ำเสียง (Gemination) เท่านั้น[45] กล่องเสียงกล่องเสียงเป็นโครงสร้างกระดูกอ่อนที่อยู่ในหลอดลมซึ่งมีหน้าที่เปล่งเสียงพูด (phonation) เส้นเสียงขยับเข้าหากันเพื่อสั่นหรือออกห่างจากกันเพื่อไม่ให้สั่น เส้นเสียงเปลี่ยนเป็นตำแหน่งต่าง ๆ ด้วยการเคลื่อนไหวของกระดูกอ่อนอริทีนอยด์ (Arytenoid cartilage)[46] กล้ามเนื้อกล่องเสียงภายใน (intrinsic laryngeal muscles) มีหน้าที่ขยับกระดูกอ่อนอริทีนอยด์และปรับความตึงของเส้นเสียง[47] ถ้าเส้นเสียงปิดไม่แคบหรือดึงไม่ตึงพอก็จะสั่นแบบไม่สม่ำเสมอหรือไม่สั่นเลย ถ้าสั่นแบบไม่สม่ำเสมอก็อาจให้เสียงต่ำลึกหรือเสียงลมแทรก (breathy voice) ขึ้นอยู่กับว่าสั่นระดับไหน และหากไม่สั่นเลยก็จะเป็นเสียงไม่ก้อง (voicelessness) นอกจากการจัดตำแหน่งเส้นเสียงให้ถูกต้องแล้ว ลมจะต้องไหลผ่านไม่อย่างนั้นก็จะไม่สั่น ความแตกต่างของความดันตลอดช่องเส้นเสียงที่ต้องมีเพื่อออกเสียงถูกประมาณอยู่ระหว่างความดัน 1 ถึง 2 เซนติเมตรน้ำ (98.0665 ถึง 196.133 ปาสกาล)[48] ความแตกต่างของความดันสามารถต่ำกว่าระดับที่จำเป้นต่อการเปล่งเสียงได้อาจเพราะมีความดันเพิ่มขึ้นเหนือช่องเส้นเสียง (ความดันเหนือช่องเส้นเสียง) หรือความดันลดลงใต้ช่องเส้นเสียง (ความดันใต้ช่องเส้นเสียง) ความดันใต้ช่องเส้นเสียงถูกรักษาโดยกล้ามเนื้อระบบหายใจ (respiratory muscles) ความดันเหนือช่องเส้นเสียงเท่ากับความดันบรรยากาศหากเส้นเสียงไม่มีการบีบตัวหรือการออกเสียง แต่เพราะการออกเสียงคือการบีบตัวกักการไหลของอากาศโดยเฉพาะเสียงพยัญชนะ ความดันในโพรงข้างหลังการบีบตัวอาจเพิ่มสูงขึ้นได้ทำให้ความดันเหนือช่องเส้นเสียงสูงขึ้นด้วย[49] การเข้าถึงศัพทานุกรมจากตัวแบบการเข้าถึงศัพทานุกรม มีระยะของการรู้คิดอยู่สองระยะ จึงเรียกว่าทฤษฎีการเข้าถึงศัพทานุกรมสองระยะ ระยะแรกกระบวนการเลือกศัพท์ (lexical selection) จะให้ข้อมูลเกี่ยวกับรายการศัพท์ (lexical item) ที่จำเป็นเพื่อสร้างตัวแทนระดับหน้าที่ (functional level representation) รายการเหล่านี้ถูกค้นคืนตามคุณสมบัติทางความหมายและวากยสัมพันธ์แต่รูปทางเสียงยังไม่มีในระยะนี้ ระยะที่สองการค้นรูปคำคืน (retrieval of wordforms) ให้ข้อมูลที่จำเป็นต่อการสร้างตัวแทนระดับตำแหน่ง (positional level representation)[50] ตัวแบบการออกเสียงเวลาพูด ฐานกรณ์จะขยับผ่านหรือแตะตำแหน่งหนี่งในปากทำให้สัญญาณเสียงเปลี่ยนไป ตัวแบบการผลิตเสียงพูดบางแบบใช้สิ่งนี้เป็นฐานสำรับการจำลองการออกเสียงเป็นระบบพิกัดที่อาจเป็นแบบภายใน (intrinsic) หรือภายนอก (extrinsic) ระบบพิกัดแบบภายในจำลองการเคลื่อนไหวของฐานกรณ์เป็นตำแหน่งและมุมของข้อต่อต่าง ๆ ในร่างกาย ตัวแบบพิกัดแบบภายในของขากรรไกรมักใช้องศาเสรี (degree of freedom) สองถึงสามองศาซึ่งแทนการเคลื่อนและการหมุน การจำลองแบบนี้จะมีปัญหากับลิ้นซึ่งเป็นอุทกสถิตกล้ามเนื้อ (muscular hydrostat) เหมือนงวงช้าง ไม่มีข้อต่อแบบขากรรไกรหรือแขน[51] เพราะมีโครงสร้างสรีระที่ต่างกัน เส้นทางการเคลื่อนไหวของขากรรไกรจึงเป็นเส้นตรงขณะพูดและเคี้ยว ในขณะที่การเคลื่อนไหวของลิ้นจะเป็นเส้นโค้งไปมา[52] การเคลื่อนที่เป็นเส้นตรงถูกใช้เพื่ออ้างว่าการออกเสียงถูกวางแผนบนพื้นที่ว่างภายนอกมากกว่าภายใน แต่ระบบพิกัดแบบภายนอกจะรวมถึงพื้นที่ว่างพิกัดทางเสียงด้วยไม่ใช่แค่พื้นที่พิกัดทางกายภาพ[51] ตัวแบบที่สมมุติว่าการเคลื่อนไหวถูกวางแผนในพื้นที่ว่างภายนอกจะเจอปัญหาผกผัน (inverse problem) ในการอธิบายตำแหน่งของกล้ามเนื้อและข้อต่อที่ผลิตเส้นทางหรือสัญญาณเสียงอันหนึ่ง ตัวอย่างเช่นแขนมีองศาเสรีเจ็ดองศาและกล้ามเนื้อ 22 มัด การผสมผสานระหว่างการปรับตำแหน่งของข้อต่อและกล้ามเนื้อที่ต่างกันสามารถนำไปสู่ตำแหน่งสุดท้ายตำแหน่งเดียวกันได้ ปัญหาการวางแผนผังจากหนึ่งไปมากก็มีอยู่สำหรับตัวแบบการวางแผนในพื้นที่ทางเสียงภายนอก โดยไม่มีการวางแผนผังที่เป็นเอกลักษณ์จากเป้าหมายทางเสียงหรือกายภาพที่ต้องการอันหนึ่งกับการเคลื่อนไหวของกล้ามเนื้อที่ต้องขยับ แต่ทว่าความกังวลเรื่องปัญหาผกผันอาจถูกพูดให้เกินจริงไปมาก ในเมื่อการพูดเป็นทักษะที่เรียนรู้โดยใช้โครงสร้างทางประสาทที่วิวัฒนาการมาเพื่อการนี้โดยเฉพาะ[53] ตัวแบบจุดสมดุล (equilibrium-point model) นำเสนอมติต่อปัญหาผกผันโดยอ้างให้เป้าหมายของการเคลื่อนไหวถูกแทนเป็นตำแหน่งของคู่กล้ามเนื้อที่กระทำบนข้อต่อ[d] กล้ามเนื้อถูกจำลองเป็นสปริงและเป้าหมายเป็นจุดสมดุลของระบบของมวลกับสปริง เพราะว่าใช้สปริง ตัวแบบจุดสมดุลสามารถแก้เพื่อชดเชยหรือตอบสนองต่อการก่อกวนการเคลื่อนไหวได้ ตัวแบบนี้นับเป็นตัวแบบพิกัดเพราะมันสมมุติแทนตำแหน่งกล้ามเนื้อเหล่านี้เป็นจุดในปริภูมิ หรือจุดสมดุล ที่ซึ่งกิริยาคล้ายสปริงของกล้ามเนื้อมาบรรจบกัน[54][55] วิธีการทางท่าทางต่อการผลิตเสียงพูด (speech production) นำเสนอให้การออกเสียงถูกแทนเป็นแบบแผนการเคลื่อนไหวแทนพิกัดเป้าหมายพิกัดหนึ่ง หน่วยที่เล็กที่สุดคือท่าทางที่แทนกลุ่มของ "แบบแผนการเคลื่อนไหวทางสรีระที่สมมูลกันเชิงหน้าที่ที่ถูกควบคุมโดยอ้างอิงจุดหมายที่เกี่ยวข้องกับการพูดจุดหนึ่ง (เช่น การปิดริมฝีปากคู่)"[56] กลุ่มเหล่านี้แทนโครงสร้างทางพิกัดหรือ "synergies" ซึ่งมองการเคลื่อนไหวเป็นการรวมกลุ่มของกล้ามเนื้อที่ทำงานด้วยกันเป็นหน่วยเดียวโดยพึ่งพาภารกิจแทนการเคลื่อนไหวของกล้ามเนื้อที่เป็นปัจเจก[57][58] นี่ลดองศาเสรีในการวางแผนการออกเสียงซึ่งเป็นปัญหาโดยเฉพาะในตัวแบบพิกัดแบบภายในซึ่งอนุญาตการเคลื่อนไหวใด ๆ ที่สำเร็จจุดมุ่งหมายการพูด แทนที่จะเข้ารหัสการเคลื่อนไหวอันหนึ่งให้เป็นตัวแทนนามธรรม การออกเสียงผสมถูกอธิบายเป็นอย่างดีด้วยตัวแบบทางท่าทาง เพราะการออกเสียงในอัตราที่สูงกว่าสามารถอธิบายเป็นการประกอบกันของท่าทางที่อิสระจากกันในการพูดด้วยอัตราที่ช้ากว่า[59] สวนศาสตร์เสียงพูดถูกผลิตโดยการดัดแปลงกระแสลมโดยฐานกรณ์ทำให้เกิดคลื่นเสียง ฐานกรณ์ที่อยู่ในตำแหน่งและลักษณะต่าง ๆ ทำให้เกิดเสียงที่ต่างกัน นอกจากตำแหน่งของลิ้นแล้วรูปร่างของช่องเสียงก็ส่งผลต่อเสียงที่เปล่งออกมาเช่นเดียวกัน ลักษณะเกิดเสียง (manner of articulation) จึงเป็นสื่งสำคัญในการพรรณนาเสียงพูด คำว่า ทาก และ ซาก ขึ้นต้นด้วยเสียงปุ่มเหงือกทั้งสองคำ แต่ทั้งสองเสียงต่างกันที่ระยะทางระหว่างลิ้นและแนวปุ่มเหงือก ความแตกต่างนี้มีผลมากต่อกระแสลม เสียงที่ถูกผลิตจึงแตกต่างไปด้วย กลไกกระแสลมที่พบได้ทั่วไปที่สุดคือกลไกกระแสลมจากปอด (pulmonic) แต่ช่องเส้นเสียง (glottis) และลิ้นก็สามารถใช้ผลิตกระแสลมเช่นกัน ความก้องและลักษณะเสียงพูดความแตกต่างสำคัญระหว่างเสียงพูดต่าง ๆ คือว่าเสียงนั้นก้อง (voiced) หรือไม่ก้อง เสียงหนึ่งจะก้องเมื่อเส้นเสียงเริ่มสั่นในกระบวนการเปล่งเสียงพูด (phonation) เสียงหลายเสียงสามารถผลิตได้ด้วยทั้งการเปล่งเสียงหรือไม่เปล่งเสียง แต่บางครั้งข้อจำกัดทางกายภาพของการออกเสียงอันหนึ่งทำให้เป็นไปไม่ได้ เมื่อออกเสียงก้องแหล่งกำเนิดหลักของเสียงคือการสั่นของเส้นเสียง การออกเสียงไม่ก้องเช่นเสียงหยุดไม่ก้องไม่มีแหล่งกำเนิดเสียงจึงมีเสียงเงียบ ส่วนเสียงไม่ก้องแบบเสียดแทรกมีแหล่งกำเนิดเสียงของตัวเองโดยไม่ต้องเปล่งเสียง การเปล่งเสียงถูกควบคุมโดยกล้ามเนื้อของกล่องเสียง ความก้องในภาษามีรายละเอียดเยอะกว่าแค่เป็นทวิภาค เวลาเปล่งเสียงเส้นเสียงจะสั่นในอัตราหนึ่ง การสั่นนี้ทำให้เกิดรูปคลื่นเสียงซ้ำคาบที่ประกอบไปด้วยความถี่มูลฐานและฮาร์มอนิก ความถี่มูลฐานของคลื่นเสียงสามารถถูกควบคุมด้วยการปรับกล้ามเนื้อของกล่องเสียงและผู้ฟังจะรับรู้ความถี่มูลฐานนี้เป็นระดับเสียง ภาษาปรับระดับเสียงเพื่อถ่ายทอดข้อมูลความหมายในภาษาที่มีวรรณยุกต์และหลายภาษาใช้ระดับเสียงเพื่อตราข้อมูลทางสัทสัมพันธ์ (prosodic) หรือทางปฏิบัติ (pragmatic) เส้นเสียงจะต้องอยู่ในตำแหน่งที่ถูกต้องและต้องมีลมไหลผ่านช่องเส้นเสียงเพื่อสั่น [48] ลักษณะเสียงพูดถูกจำลองด้วยภาวะต่อเนื่อง (continuum) ของช่องเส้นเสียงจากเปิดสุด (ไม่ก้อง) จนถึงปิดสุด (เสียงหยุดเส้นเสียง) ตำแหน่งที่เหมาะสมสำหรับการสั่นและเสียงปกติ (modal voice) ที่เป็นลักษณะเสียงที่ใช้พูดบ่อยที่สุดอยู่ตรงกลางระหว่างทั้งสองแบบ ถ้าช่องเส้นเสียงกว้างกว่าเดิมเล็กน้อยก็จะเกิดเสียงลมแทรก (breathy voice) และถ้าช่องเส้นเสียงแคบลงก็จะเกิดเสียงต่ำลึก (creaky voice)[60] รูปแบบการเปล่งเสียงปกติที่ใช้พูดโดยทั่วไปคือเสียงปกติ เป็นเสียงที่ถูกผลิตเมื่อเส้นเสียงอยู่ใกล้กันและมีความตึงปานกลาง เส้นเสียงสั่นเป็นหน่วยเดียวกันอย่างซ้ำคาบและมีประสิทธิภาพโดยไม่มีการพ่นลม (aspiration) และช่องเส้นเสียงปิดสนิท[61] ถ้าเส้นเสียงถูกดึงห่างจากกันก็จะไม่สั่นและผลิตเสียงไม่ก้อง และถ้าเส้นเสียงชิดกันแน่นก็จะผลิตเสียงหยุดเส้นเสียง[60] หากเส้นเสียงอยู่ห่างกันกว่าที่เป็นในเสียงปกติเล็กน้อยก็จะผลิตลักษณะเสียงพูดที่เรียกว่าเสียงลมแทรกหรือเสียงกระซิบ (whispery voice) ความตึงของเส้นเสียงน้อยกว่าในเสียงปกติทำให้อากาศสามารถไหลได้อิสระกว่าเดิม ทั้งเสียงลมแทรกและเสียงกระซิบอยู่เป็นภาวะต่อเนื่องของรูปคลื่นตั้งแต่รูปคลื่นของเสียงลมแทรกที่ซ้ำคาบกว่าจนถึงรูปคลื่นของเสียงกระซิบที่มีการรบกวนเยอะกว่า ในทางสวนศาสตร์ทั้งสองเสียงยับยั้งความถี่สั่นพ้องแรก โดยเฉพาะเสียงกระซิบซึ่งมีการเบี่ยงเบนที่สุดขีดกว่า[62] เมื่อเส้นเสียงอยู่ใกล้กันก็จะเกิดเสียงต่ำลึก ความตึงของเส้นเสียงน้อยกว่าในเสียงปกติและถูกดึงใกล้กันแน่นทำให้มีเอ็นเสีนเสียงเอ็นเดียวที่สั่น[e] พัลส์ไม่สม่ำเสมอและมีระดับเสียงกับแอมพลิจูดความถี่ที่ตำ[63] บางภาษาไม่แยกแยะพยัญชนะระหว่างก้องและไม่ก้อง[f] แต่ทุกภาษาใช้ความก้องในระดับหนึ่ง เช่นไม่มีภาษาไหนที่เปรียบต่างความก้องของเสียงสระทางหน่วยเสียง และเสียงสระทุกเสียงที่รู้จักถูกยอมรับโดยทั่วไปว่าออกเสียงแบบปกติ[g] ตำแหน่งอื่น ๆ ในช่องเส้นเสียงเช่นลมแทรกและต่ำลึกถูกใช้ในภาษาอื่น ๆ หลายภาษาเช่นภาษามาซาเท็กฆาลาปา (Jalapa Mazatec) เพื่อเปรียบต่างหน่วยเสียง ในขณะที่เสียงทั้งสองแบบนี้เป็นหน่วยเสียงย่อยในภาษาอื่นเช่นภาษาอังกฤษ มีหลายวิธีเพื่อตัดสินว่าส่วนส่วนหนึ่งก้องหรือไม่ วิธีที่ง่ายที่สุดคือการเอามือแตะบริเวณกล่องเสียงระหว่างพูดและสังเกตการสั่น วิธีการวัดที่แม่นยำกว่าใช้การวิเคราะห์ทางเสียงของสเปกโตรแกรมหรือชิ้นสเปกตรัม ในการวิเคราะห์สเปกโตรแกรมส่วนที่ก้องจะแสดงแถบความก้องหรือพื้นที่ที่มีพลังงานทางเสียงสูงในช่วงความถี่ต่ำของส่วนที่ก้อง[64] ในการตรวจสอบชิ้นสเปกตรัมหรือสเปกตรัมเสียง ณ จุดเวลาจุดหนึ่ง ตัวแบบของเสียงสระที่ออกเสียงมากลับการกรองของปากทำให้ได้สเปกตรัมของช่องเส้นเสียง ตัวแบบเชิงคำนวณของสัญญาณจากช่องเส้นเสียงที่ยังไม่ถูกกรองจึงถูกนำไปสอดกับสัญญาณเสียงที่ถูกกรองย้อนกลับเพื่อพิจารณาคุณลักษณะของช่องเส้นเสียง[65] การวิเคราะห์ทางสายตาก็สามารถทำได้ด้วยการใช้เครื่องมือแพทย์พิเศษเช่นอัลตราซาวด์และการส่องกล้อง[64][h] สระสระถูกจัดกลุ่มกว้าง ๆ จากพื้นที่ในปากที่สระนั้นถูกผลิต แต่เพราะสระถูกผลิตโดยไม่มีการบีบตัวของช่องเสียง การพรรณนาอย่างแม่นยำจำเป็นต้องใช้การวัดสหสัมพันธ์ (correlation) ระหว่างเสียงกับตำแหน่งของลิ้น ตำแหน่งของลิ้นระหว่างการผลิตเสียงสระเปลี่ยนความถี่ที่สะท้อนในโพรงปากและเสียงสะท้อนนี้เรียกว่ากลุ่มความถี่สั่นพ้อง (formant) ซึ่งถูกวัดและถูกใช้เพื่อบ่งลักษณะของสระเสียงหนึ่ง ความสูงของสระโดยดั้งเดิมแล้วหมายถึงจุดสูงสุดของลิ้นระหว่างการออกเสียง[66] ความสูงสามารถแบ่งเป็นสี่ระดับพื้นฐาน: ระดับสูง (close) กลางสูง (close-mid) กลางต่ำ (open-mid) และระดับต่ำ (open) สระที่ความสูงอยู่ตรงกลางจะเรียกว่าสระระดับกลาง (mid) สระสูงที่ต่ำลงเล็กน้อยและสระต่ำที่สูงขึ้นเล็กน้อยเรียกว่าสระเฉียดสูง (near-close) และเฉียดต่ำ (near-open) ตามลำดับ สระที่ต่ำที่สุดไม่ได้ใช้แค่ลิ้นที่ต่ำแต่ใช้ขากรรไกรที่ต่ำด้วย[67] แม้ IPA จะแสดงว่าสระมีระดับความสูงเจ็ดระดับ แต่ยากมากที่ภาษาใดจะเปรียบต่างทั้งเจ็ดระดับ ชอมสกีและ ฮัลเล (Morris Halle) เสนอว่ามีแค่สามระดับ[68] แต่ว่าต้องใช้สี่ระดับเพื่อพรรณนาสระในภาษาเดนมาร์กและเป็นไปได้ที่บางภาษาจำเป็นจะต้องใช้ห้าระดับ[69] ความหลังของสระแบ่งได้เป็นสามระดับ: หน้า (front) กลาง (central) และหลัง (back) ภาษาต่าง ๆ มักไม่เปรียบต่างเกินไปกว่าสองระดับ บางภาษาถูกอ้างว่ามีความหลังสามระดับรวมไปถึงภาษานิมโบรัน (Nimboran language) และภาษานอร์เวย์[70] ในภาษาส่วนใหญ่ริมฝีปากสามารถแบ่งเป็นห่อ (rounded) และไม่ห่อ (unrounded) แต่ริมฝีปากรูปแบบอื่น ๆ เช่นการห่อเข้า (compression) และห่อออก (protrusion) ก็มี รูปแบบริมฝีปากเทียบสัมพันธ์กับความสูงและความหลัง: สระหน้าและสระต่ำมักจะไม่ห่อปากในทางตรงกันข้ามสระหลังและสูงมักจะห่อปาก[71] สระที่คู่กันบนแผนผัง IPA ด้านซ้ายคือสระปากไม่ห่อและด้านขวาคือสระปากห่อ[72] สระในบางภาษามีลักษณะเฉพาะเพิ่มเติมเช่นเสียงสระนาสิก (nasal vowel) ความยาวเสียงสระ (vowel length) และลักษณะเสียงพูดต่าง ๆ เช่นเสียงสระไม่ก้อง (voiceless vowel) หรือเสียงต่ำลึก บางครั้งลิ้นต้องอยู่ในท่าทางพิเศษเช่นเสียงสระม้วนลิ้น (rhotic vowel) โคนลิ้นเคลื่อนหน้าและหดกลับ (advanced and retracted tongue root) เสียงสระแข็งกร้าว (strident vowel) และความเสียดแทรก (frication) เพื่อที่จะใช้พรรณนาเสียงสระบางเสียง[73] ลักษณะเกิดเสียงแค่ตำแหน่งเกิดเสียงไม่พอที่จะพรรณนาเสียงพยัญชนะ วิธีการบีบบังคับ (stricture) ก็สำคัญพอ ๆ กัน ลักษณะเกิดเสียง (อังกฤษ: Manners of articulation) อธิบายวิธีที่กรณ์ (active articulator) ดัดแปลง บีบแคบ หรือปิดช่องเสียง[74] เสียงพยัญชนะหยุดคือเสียงพยัญชนะที่กระแสลมถูกขวางมิด ความดันเพิ่มขึ้นในปากขณะที่บีบบังคับและถูกปล่อยออกมาเป็นการระเบิดเสียงสั้น ๆ หลังจากเมื่อกรณ์ขยับแยกออกมา เพดานอ่อนยกตัวขึ้นเพื่อไม่ให้มีอากาศไหลผ่านจมูก ถ้าเพดานอ่อนลดตัวลงและปล่อยอากาศไหลผ่านโพรงจมูกก็จะเกิดเสียงพยัญชนะหยุดนาสิก แต่นักสัทศาสตร์จเรียกเสียงพยัญชนะหยุดนาสิก (nasal stop) ว่า "nasal" หรือเสียงนาสิกเกือบตลอด[74] เสียงพยัญชนะกักเสียดแทรก (Affricate consonant) เป็นการออกเสียงหยุดตามด้วยเสียงเสียดแทรกในตำแหน่งเดียวกัน[75] เสียงพยัญชนะเสียดแทรก (Fricative consonant) เป็นเสียงพยัญชนะที่กระแสลมถูกทำให้ปั่นป่วนด้วยการขวางช่องเสียงบางส่วน[74] เสียงพยัญชนะอุสุม (Sibilant) เป็นเสียงเสียดแทรกชนิดพิเศษที่กระแสลมถูกเบี่ยงตรงเข้าหาฟัน[76]ทำให้เกิดเสียงฟ่อแหลมสูง[77] เสียงพยัญชนะนาสิก (บางครั้งก็เรียกว่าเสียงหยุดนาสิก) เป็นเสียงพยัญชนะที่ช่องปากปิดและเพดานอ่อนลดตัวลงทำให้ลมไหลผ่านจมูก[78] เสียงพยัญชนะเปิด (Approximant consonant) เป็นเสียงพยัญชนะที่เกิดเมื่อฐานกรณ์ขยับเข้าหากันแต่ไม่ใกล้กันจนเกินกระแสลมปั่นป่วน[77] เสียงพยัญชนะข้างลิ้น (Lateral consonant) เป็นเสียงพยัญชนะที่กระแสลมถูกขวางตามแนวตรงกลางของช่องเสียงทำให้กระแสลมไหลไปด้านข้างข้างเดียวหรือทั้งสองข้าง[77] เสียงข้างลิ้นยังถูกนิยามเป็นพยัญชนะที่ลิ้นหดตัวทำให้กระแสลมด้านข้างแรงกว่าตรงกลางของลิ้น[79] นิยามแรกไม่ให้ลมไหลข้ามบนลิ้น เสียงพยัญชนะรัว (Trill consonant) เป็นเสียงพยัญชนะที่ลิ้นหรือริมฝีปากถูกทำให้เคลื่อนไหวด้วยกระแสลม[80] เกิดจากการบีบบังคับกระแสลมให้ฐานกรณ์อ่อน (soft articulator) ขยับปิดเปิดซ้ำไปเรื่อย ๆ[81] เสียงรัวปลายสุดลิ้นปกติเกิดจากการสั่นสองสามคาบ[82] เสียงพยัญชนะลิ้นกระทบและสะบัด (tap and flap consonant) เป็นเสียงพยัณชนะที่เกิดจากปลายสุดลิ้นกระทบกับเพดานปากครั้งเดียวอย่างรวดเร็ว เทียบได้กับเสียงหยุดที่รวดเร็วมาก[80] ทั้ง "กระทบ" (tap) หรือ "สะบัด" (flap) ใช้แทนกันได้แต่นักสัทศาสตร์บางคนถือว่าเป็นเสียงที่ต่างกัน[83] เสียงลิ้นกระทบเกิดจากลิ้นที่กระทบกับเพดานด้วยการเคลื่อนไหวครั้งเดียว ในขณะที่เสียงลิ้นสะบัดเกิดจากลิ้นที่เคลื่อนที่ในแนวสัมผัสกับเพดานปากและกระทบเมื่อเคลื่อนผ่าน ระหว่างกลไกกระแสลมช่องเส้นเสียง (airstream mechanism) ช่องเส้นเสียงจะปิดและกักอากาศไว้ ทำให้อากาศที่เหลือในช่องเสียงสามารถเคลื่อนที่เป็นอิสระกันได้ เมื่อช่องเส้นเสียงปิดเคลื่อนที่ขึ้นอากาศนี้ก็จะออกไปทำให้เกิดเสียงพยัญชนะกักเส้นเสียงลมออก (ejective consonant) ในทางกลับกันเมื่อช่องเส้นเสียงเคลื่อนที่ลงอากาศจะถูกดูดเข้ามาเพิ่มทำให้เกิดเสียงพยัญชนะกักเส้นเสียงลมเข้า (implosive consonant)[84] เสียงพยัญชนะเดาะ (Click consonant) เป็นเสียงหยุดที่อากาศถูกดุดเข้าปากด้วยการเคลื่อนที่ของลิ้น นี่เรียกว่ากระแสลมจากลิ้น[85] ระหว่างที่เดาะลิ้นอากาศในช่องที่ถูกปิดทั้งสองทางจะยืดขยาย (rarefaction) และเกิดเสียง 'เดาะ' เสียงดังเมื่อที่ปิดด้านหน้า (anterior) ถูกเปิด การเปิดที่ปิดด้านหน้าเรียกว่าการไหลเข้าเสียงเดาะ (click influx) การเปิดที่ปิดด้านหลัง (posterior) ซึ่งอาจเป็นทั้งที่เพดานอ่อนหรือลิ้นไก่จะเรียกว่าการไหลออกเสียงเดาะ (click efflux) เสียงเดาะมีใช้ในตระกูลภาษาแอฟริกันหลายตระกูลเช่นตระกูลภาษาคอยซัน (Khoisan languages) และตระกูลภาษาบันตู (Bantu languages)[86] ระบบปอดและระบบใต้ช่องเส้นเสียงปอดผลิตเสียงพูดส่วนใหญ่ด้วยการสร้างความดันสำหรับเสียงจากปอด ชนิดของเสียงที่พบเจอบ่อยที่สุดในภาษาต่าง ๆ คือเสียงลมออกจากปอด (pulmonic egress)[87] ในทางกลับกันก็มีเสียงลมเข้าปอด แต่ไม่มีภาษาใดในโลกที่ใช้เสียงลมเข้าปอดเป็นหน่วยเสียง[88] หลายภาษาเช่นภาษาสวีเดนใช้เสียงลมเข้าปอดสำหรับการออกเสียงปรลักษณ์ภาษา (paralanguage) เช่นการยืนยัน (affirmation) ในภาษาหลายภาษาที่หลากหลายทางภูมิศาสตร์และพันธุกรรม[89] ทั้งเสียงลมออกและลมเข้าพึ่งพาการจับเส้นเสียงให้อยู่ในท่าท่าหนึ่งและใช้ปอดนำอากาศผ่านเส้นเสียงทำให้สั่น (ก้อง) หรือไม่สั่น (ไม่ก้อง)[87] การออกเสียงจากปอดถูกจำกัดด้วยปริมาตรของอากาศที่สามารถหายใจออกได้ในหนึ่งรอบการหายใจ เรียกว่าความจุปอดปกติ (vital capacity) ปอดถูกใช้รักษาความดันสองประเภทพร้อม ๆ กันเพื่อผลิตและดัดแปลงการเปล่งเสียง เพื่อเปล่งเสียงปอดจะต้องรักษาความดัน 3-5 เซนติเมตรน้ำมากกว่าความดันเหนือช่องเส้นเสียง นอกจากนั้นสามารถปรับเปลี่ยนความดันใต้ช่องเส้นเสียงได้เล็กน้อยอย่างเร็ว ๆ เพื่อดัดแปลงเสียงพูดให้ได้คุณลักษณะเสียงไม่อิสระ (suprasegmental) เช่นการเน้น (stress) เสียงถูกปรับเปลี่ยนโดยกล้ามเนื้อทรวงอกจำนวนหนึ่ง เนื่องเพราะปอดและทรวงอกขยายออกเมื่อหายใจเข้า แค่แรงยืดหยุ่นของปอดที่ปริมาตรเกินครึ่งของความจุปอดปกติก็พอที่จะผลิตความแตกต่างของความดันที่สามารถใช้เปล่งเสียงได้[90] เมื่อปริมาตรเกินครึ่งของความจุปอดปกติกล้ามเนื้อหายใจ (muscles of respiration) ถูกใช้ตรวจแรงยืดหยุ่นในทรวงอกเพื่อรักษาความแตกต่างของความดันที่คงที่ หากปริมาตรน้อยกว่านั้นกล้ามเนื้อหายใจก็จะถูกใช้เพื่อเพิ่มความดันใต้ช่องเส้นเสียงด้วยการหายใจออก ระหว่างพูดวงจรการหายใจถูกดัดแปลงให้เข้ากับความต้องการทางภาษาและชีวภาพ การหายใจออกที่ปกติกินวงจรไปประมาณ 60 เปอร์เซ็นต์ก็เพิ่มขึ้นกลายเป็น 90 เปอร์เซ็นต์ เพราะความต้องการทางเมแทบอลิซึมยังคงที่ ในกรณีส่วนใหญ่ปริมาตรอากาศทั้งหมดที่เคลื่อนเข้าคงอยู่เท่ากับการหายใจปกติแบบเงียบ ๆ[91] การพูดดังขึ้น 18 เดซิเบล (การสนทนาเสียงดัง) มีผลน้อยต่อปริมาตรของอากาศที่เคลื่อนที่ เด็กมีแนวโน้มที่จะใช้สัดส่วนของความจุปอดปกติมากกว่าผู้ใหญ่และหายใจเข้าลึกกว่าเพราะระบบหายใจยังไม่พัฒนาเท่าผู้ใหญ่[92] ทฤษฎีแหล่ง-ตัวกรองตัวแบบแหล่ง-ตัวกรอง (อังกฤษ: source-filter model) ของการพูดเป็นทฤษฎีเสียงพูดที่อธิบายความเกี่ยวข้องระหว่างรูปร่างของช่องเสียงและเสียงที่เปล่งออกมา ในตัวแบบนี้ช่องเสียงสามารถจำลองเป็นแหล่งกำเนิดของเสียงที่คู่กับตัวกรองเสียง (acoustic filter)[93] ในหลายกรณีแหล่งกำเนิดเสียงคือกล่องเสียงระหว่างการออกเสียงก้อง แต่แหล่งอื่นก็สามารถจำลองในทางเดียวกันได้ รูปร่างของช่องเสียงเหนือช่องเส้นเสียงปฏิบัติตัวเป็นตัวกรอง และการจัดเรียงรูปแบบต่าง ๆ ของฐานกรณ์ทำให้เกิดเสียงรูปแบบต่าง ๆ การเปลี่ยนแปลงเป็นอะไรที่ทำนายได้ ช่องเสียงสามารถจำลองเป็นลำดับท่อที่ปิดที่ปลายหนึ่งและมีเส้นผ่านศูนย์กลางที่ต่างกัน และก็สามารถอนุพัทธ์รูปร่างสรีระสำหรับผลทางเสียงต่าง ๆ ได้ด้วยสมการของการสั่นพ้องของเสียง (acoustic resonance)[94] กระบวนการย้อนกลับการกรองใช้หลักการนี้เพื่อวิเคราะห์สเปกตรัมของแหล่งที่ผลิตโดยเส้นเสียงระหว่างการออกเสียงก้อง ผลทางเสียงของช่องเสียงสามารถถูกทำกลับด้วยการย้อนกลับด้วยตัวกรองตามที่คาดไว้ และจะได้สเปกตรัมเสียงที่ถุกผลิตโดยเส้นเสียง[95] นี่ทำให้สามารถศึกษาลักษณะเสียงพูดต่าง ๆ ในเชิงปริมาณได้ การรับรู้การรับรู้ภาษา (language perception) เป็นกระบวนการทำความเข้าใจและถอดรหัสสัญญาณทางภาษา[i] สัญญาณเสียงที่ต่อเนื่องจะต้องเปลี่ยนเป็นหน่วยวิยุต (discrete) ทางภาษาเช่นหน่วยเสียง หน่วยคำ และคำเพื่อรับรู้เสียงพูด [96] ผู้ฟังจะให้ความสำคัญต่อแง่มุมหนึ่งของสัญญาณที่สามารถใช้แยกออกเป็นกลุ่มได้อย่างน่าเชื่อถือเพื่อระบุและจัดกลุ่มเสียงได้ถูกต้อง[97] แม่สิ่งบ่งชี้อันหนึ่งจะได้รับความสำคัญมากกว่าอันอื่นแต่แง่มุมอื่น ๆ ก็สามารถมีส่วนต่อการรับรู้ ตัวอย่างเช่น แม้ภาษาพูดจะให้ความสำคัญต่อข้อมูลเสียง ปรากฏการณ์แม็คเกอร์กแสดงให้เห็นว่าข้อมูลทางสายตาก็ถูกใช้เพื่อแยกแยะข้อมูลที่กำกวมเมื่อสิ่งบ่งชี้ทางเสียงไม่น่าเชื่อถือ[98] ถึงผู้ฟังสามารถใช้ข้อมูลที่หลากหลายเพื่อแบ่งส่วนสัญญาณเสียงพูด แต่ความสัมพันธ์ระหว่างสัญญาณเสียงและการรับรู้หมวดหมู่ไม่ใช่การแปลงที่สมบูรณ์ ยังมีความผันแปรทางเสียงในหมวดหมู่หนึ่งในระดับที่สูงเพราะการออกเสียงผสม สภาพแวดล้อมที่เสียงรบกวน และความแตกต่างของแต่ละบุคคล[99] นี่เป็นปัญหาที่เรียกว่า ความไม่ผันแปรของการรับรู้ (perceptual invariance) ผู้ฟังสามารถรับรู้หมวดหมู่ต่าง ๆ อย่างน่าเชื่อถือแม้มีความผันแปรในสัญญาณเสียง[100] ผู้ฟังสามารถทำแบบนี้ได้เพราะปรับเข้ากับผู้พูดใหม่อย่างรวดเร็วและขยับขอบเขตของแต่ละหมวดหมู่เพื่อให้ตรงกับความแตกต่างของเสียงที่คู่สนทนาพูดออกมา[101] การได้ยินการได้ยินเสียง (อังกฤษ: Audition) เป็นระยะแรกของการรับรู้เสียงพูด ฐานกรณ์เปลี่ยนความดันอากาศอย่างเป็นระบบเป็นคลื่นเสียงที่เดินทางไปถึงหูผู้ฟัง คลื่นเสียงชนกับแก้วหู (eardrum) ของผู้ฟังทำให้มันสั่น กระดูกหูส่งการสั่นของแก้วหูไปที่หูชั้นในรูปหอยโข่งหรือคอเคลีย[102] คอเคลียรูปทรงเป็นวงท่อที่เต็มไปด้วยของเหลวซึ่งถูกแบ่งตามแนวยาวโดยอวัยวะของคอร์ติที่มีเยื่อกั้นหูชั้นใน เยื่อกั้นหูชั้นในหนาขึ้นเรื่อยเมื่อยิ่งเข้าไปในคอเคลียทำให้แต่ละตำแหน่งมีความถี่สั่นพ้องที่ต่างกัน รูปแบบโทโนโทปิคนี้ทำให้หูสามารถวิเคราะห์เสียงในลักษณะที่คล้ายกับการแปลงฟูรีเย[103] ความแตกต่างของการสั่นของเยื่อกั้นหูชั้นในทำให้เซลล์ขนภายในอวัยวะของคอร์ติเคลื่อนไหว และนี่ทำให้เซลล์ขนลดขั้วและในที่สุดก็แปลงสัญญาณเสียงเป็นกระแสประสาท[104] เซลล์ขนเองไม่ได้ผลิตศักยะงาน แต่ปล่อยสารสื่อประสาทที่จุดประสานประสาทกับโสตประสาทซึ่งผลิตศักยะงาน ด้วยวิธีนี้รูปแบบการสั่นบนเยื่อกั้นหูชั้นในถูกแปลงเป็นรูปแบบปริภูมิกาล (spatiotemporal pattern) ของการยิงกระแสประสาทที่ส่งข้อมูลเกี่ยวกับเสียงเข้าก้านสมอง[105] สัทสัมพันธ์นอกจากสระและพยัญชนะแล้ว สัทศาสตร์ยังพรรณนาถึงคุณสมบัติของเสียงพูดนอกเหนือจากส่วน (segment (linguistics)) เฉพาะส่วนและหน่วยของเสียงพูดที่ใหญ่กว่าเช่นพยางค์และวลี สัทสัมพันธ์รวมไปถึงโสตสัทศาสตร์ (auditory phonetics) เช่นระดับเสียง ความยาวเสียง (duration (music)) และความดัง (loudness) ภาษาต่าง ๆ ใช้คุณสมบัติเหล่านี้ในระดับต่าง ๆ สำหรับการเน้นเสียง (stress (linguistics)) การเน้นระดับเสียง (pitch accent (intonation)) และทำนองเสียง (intonation (linguistics) ตัวอย่างเช่นการเน้นเสียงในภาษาอังกฤษ (stress and vowel reduction in English) และภาษาสเปน (stress in Spanish) สัมพันธ์กับความเปลี่ยนแปลงของระดับและความยาวเสียง ในขณะที่การเน้นเสียงในภาษาเวลส์สัมพันธ์กับระดับเสียงอย่างสอดคล้องกันมากกว่าความยาวเสียง และการเน้นเสียงในภาษาไทยสัมพันธ์กับความยาวเสียงเท่านั้น[106] ทฤษฎีของการรับรู้เสียงพูดทฤษฎีของการรับรู้การพูด (อังกฤษ: Theory of speech perception) ทฤษฎีแรก ๆ เช่นทฤษฎีเคลื่อนไหว (motor theory of speech perception) มีความพยายามที่จะแก้ปัญหาความไม่ผันแปรของการรับรู้โดยอ้างว่าการรับรู้และการผลิตเสียงพูดมีความเชื่อมโยงกันอย่างใกล้ชิด ในรูปที่แรงที่สุดทฤษฎีเคลื่อนไหวอ้างว่าการรับรู้เสียงพูด จำเป็น ต้องให้ผู้ฟังเข้าถึงตัวแทนทางสรีระของเสียง[107] ผู้ฟังวิศวกรรมย้อนกลับหาการออกเสียงที่จะผลิตเสียงนั้นเพื่อระบุกลุ่มของเสียงตามที่ผู้พูดเจตนาเพื่อจัดกลุ่มเสียงนั้นได้อย่างเหมาะสม[108] แม้การค้นพบเช่นปรากฏการณ์แม็คเกอร์กและกรณีศึกษาจากผู้ป่วยที่มีการบาดเจ็บทางประสาทสนับสนุนทฤษฎีเคลื่อนไหว การทดลองเพิ่มเติมไม่ได้สนับสนุนทฤษฎีในรูปแรงแต่สนับสนุนรูปของทฤษฎ๊ที่อ่อนลงที่อ้างว่ามีความสัมพันธ์อย่างไม่กำหนด (non-deterministic) ระหว่างการผลิตและการรับรู้[108][109][110] ทฤษฎีของการรับรู้เสียงพูดต่อมาพุ้งความสนใจกับสิ่งบ่งชี้ทางเสียง (acoustic cue) เพื่อจัดกลุ่มเสียง และสามารุถแบ่งเป็นสองกลุ่มใหญ่ ๆ ได้คือ: ทฤษฎีนามธรรม (abstractionist theory) และทฤษฎีเหตุการณ์ (episodic theory)[111] ในทฤษฎีนามธรรม การรับรู้เสียงพูดคือการระบุวัตถุเสียงในอุดมคติโดยอ้างอิงสัญญาณเสียงที่ถูกลดเป็นองค์ประกอบที่จำเป็นและทำให้สัญญาณเป็นมาตรฐานเพื่อทำกลับความแปรปรวนของผู้พูด ทฤษฎีเหตุการณ์เช่นตัวแบบแบบอย่าง (exemplar model) อ้างว่าการรับรู้เสียงพูดคือการเข้าถึงความทรงจำ (นั่นคือ ความจำอาศัยเหตุการณ์) ของเสียงที่เคยได้ยินมาก่อน ปัญหาความไม่ผันแปรของการรับรู้ถูกอธิบายโดยทฤษฎีเหตุการณ์ว่าเป็นเรื่องของความคุ้นเคย: การทำให้เป็นมาตรฐานเป็นผลพลอยได้ของการได้สัมผัสความแปรปรวนมากกว่าเป็นกระบวนการวิยุตอย่างที่ทฤษฎีนามธรรมอ้าง[111] สาขาวิชาย่อยสวนสัทศาสตร์สวนสัทศาสตร์ (อังกฤษ: Acoustics phonetics) ศึกษาคุณลักษณะทางเสียงของเสียงพูด ประสาทสัมผัสเสียงเกิดขึ้นจากการผันแแปร (fluctuation) ของความดันที่ทำให้แก้วหูขยับตาม หูเปลี่ยนการเคลื่อนไหวเป็นกระแสประสาทที่สมองแปลเป็นเสียง รูปคลื่นของเสียงเป็นบันทึกที่วัดความผันแปรของความดัน[112] สรีรสัทศาสตร์สรีรสัทศาสตร์ (อังกฤษ: Articulatory phonetics) ศึกษาวิธีที่เสียงพูดถูกผลิตออกมา โสตสัทศาสตร์โสตสัทศาสตร์ศึกษาวิธีที่มนุษย์รับรู้เสียงพูด มนุษย์ไม่ได้รับรู้เสียงพูดเป็นบันทึกเสียงแบบถูกต้องสมบูรณ์เพราะลักษณะทางกายวิภาคของระบบการได้ยินบิดเบือนสัญญาณเสียงพูด ตัวอย่างเช่นความดังของเสียง (Loudness) ซึ่งถูกวัดเป็นเดซิเบล (ดีบี, dB) ไม่ได้มีความสัมพันธ์โดยตรง (linear) กับความแตกต่างของความดันเสียง[113] สิ่งที่ผู้ฟังได้ยินกับการวิเคราะห์ทางเสียงจะไม่ตรงกันโดยเฉพาะอย่างยิ่งกับเสียงพูดที่มีความถี่สูงเช่นเสียงเสียดแทรกบางเสียง จึงมีการพัฒนาตัวแบบเชิงหน้าที่ของระบบการได้ยินเพื่อแก้ไขความไม่ตรงกัน[114] การพรรณนาเสียงภาษามนุษย์ใช้เสียงต่าง ๆ หลายเสียง และนักภาษาศาสตร์จะต้องสามารถพรรณนาเสียงในวิธีที่เป็นอิสระจากภาษาเพื่อเปรียบเทียบเสียง เราสามารถพรรณนาเสียงพูดด้วยหลายวิธี โดยทั่วไปใช้การเคลื่อนไหวของปากที่จำเป็นเพื่อผลิตเสียงพูด พยัญชนะและสระเป็นหมวดหมู่ขนาดใหญ่สองหมวดที่นักสัทศาสตร์นิยามด้วยการเคลื่อนไหวขณะพูด ตัวบ่งชี้ที่ลงรายละเอียดกว่าก็เช่นตำแหน่งเกิดเสียง ตำแหน่งเกิดเสียง ลักษณะเกิดเสียง และความก้อง (voicing (phonetics)) ถูกใช้เพื่อพรรณนาพยัญชนะและเป็นสัดส่วนหลักของแผนผังพยัญชนะของสัทอักษรสากล สระสามารถพรรณนาด้วยความสูง ความหลัง และการห่อริมฝีปาก ภาษามือสามารถพรรณนาด้วยปัจจัยคนละชุดแต่ก็คล้ายกันเพื่อพรรณนาท่ามือ (sign) คือ: ตำแหน่ง (location) การเคลื่อนไหว (movement) รูปร่างมือ (handshape) ทิศทางฝ่ามือ (palm orientation) และลักษณะของสิ่งอื่น ๆ นอกเหนือจากมือ (non-manual feature) นอกจากการพรรณนาสรีระท่าทางแล้วยังสามารถพรรณนาเสียงในภาษาพูดในทางสวนศาสตร์ด้วย วิธีการพรรณนาทั้งสองวิธีเพียงพอที่จะเอามาใช้เปรียบต่างเสียงพูดเพราะเสียงเป็นผลพวงจากการออกเสียง ซึ่งจะเลือกวิธีใดมาใช้ขึ้นอยู่กับลักษณะทางสัทศาสตร์ที่สนใจ เสียงพยัญชนะเป็นเสียงพูดที่ออกเสียงด้วยการปิดแบบสมบูรณ์หรือบางส่วนของช่องเสียง โดยปกติจะถูกผลิตด้วยการดัดแปลงกระแสลมที่หายใจออหมาขากปอด อวัยวะหายใจที่ถูกใช้เพื่อผลิตและดัดแปลงกระแสลมถูกแบ่งเป็นสามส่วน: ช่องเสียง (เหนือกล่องเสียง) กล่องเสียง และระบบใต้ช่องเส้นเสียง กระแสลมอาจเป็นได้ทั้งลมออก (egressive sound) (ออกจากช่องเสียง) หรือลมเข้า (ingressive sound) (เข้าช่องเสียง) กระแสลมของเสียงจากปอดถูกผลิตโดยปอดในระบบใต้ช่องเส้นเสียงและไหลผ่านกล่องเสียงกับช่องเสียง เสียงจากช่องเส้นเสียง (Glottalic consonant) ใช้กระแสลมที่ผลิตด้วยการเคลื่อนไหวของกล่องเสียงโดยไม่มีกระแสลมจากปอด เสียงพยัญชนะเดาะ (Click consonant) ออกเสียงด้วยการยืดขยายของอากาศโดยใช้ลิ้นและตามด้วยการเปิดส่วนที่ปิดส่วนหน้าของลิ้น เสียงสระเป็นเสียงพูดพยางค์ที่ออกเสียงโดยไม่มีการกีดขวางในช่องเสียง[115] เสียงสระถูกนิยามโดยสัมพัทธ์กับชุดของเสียงสระอ้างอิงที่เรียกว่าชุดสระมาตรฐาน (cardinal vowels) แตกต่างจากเสียงพยัญชนะซึ่งปกติมีตำแหน่งเกิดเสียงที่แน่นอน จำเป็นต้องมีคุณลักษณะสามข้อเพื่อนิยามเสียงสระ: ความสูงของลิ้น ความหลังของลิ้น และการห่อริมฝีปาก เสียงสระที่ออกเสียงด้วยคุณภาพคงที่เรียกว่าสระเดี่ยว (monophthong) การประสมกันของเสียงสระสองเสียงในพยางค์เดียวคือสระประสมสองเสียง (diphthong)[116] ในสัทอักษรสากล เสียงสระถูกแทนบนรูปสี่เหลี่ยมคางหมูที่แทนปากมนุษย์ แกนแนวตั้งแทนพื้นจนถึงเพดานปาก แกนแนวนอนแทนแนวหน้าหลัง[117] การถอดเสียงการถอดเสียงแสดงสัทลักษณ์ (อังกฤษ: Phonetic transcription) เป็นระบบการถอดเสียงในภาษาพูด (oral language) หรือภาษามือ ระบบการถอดเสียงแสดงสัทลักษณ์ที่เป็นที่รู้จักมากที่สุดคือสัทอักษรสากล (IPA) เป็นชุดสัญลักษณ์มาตรฐานสำหรับเสียงพูด[118][119] ความเป็นมาตรฐานของ IPA ทำให้ผู้ใช้สามารถถอดเสียงภาษา ภาษาย่อย และเอกัตภาษณ์ (idiolect)[118][120][121] IPA เป็นเครื่องมือที่มีประโยชน์นอกจากต่อการศึกษาสัทศาสตร์แล้ว ยังมีประโยชน์ต่อการสอนภาษา การแสดงมืออาชีพ และอรรถบำบัดด้วย[120] แม้ไม่มีภาษามือใด ๆ ที่มีระบบการเขียนที่เป็นมาตรฐาน นักภาษาศาสตร์ได้พัฒนาระบบสัญกรณ์ของตัวเองไว้พรรณนารูปร่างมือ ตำแหน่ง และการเคลื่อนไหว ระบบสัญกรณ์ฮัมบวร์ค (HamNoSys) มีความคล้าย IPA ตรงที่ระบบนี้อนุญาตให้มีรายละเอียดในระดับที่ต่างกัน ระบบสัญกรณ์บางระบบเช่น KOMVA และ สํญกรณ์สโตคี (Stokoe notation) ถูกออกแบบสำหรับใช้ในพจนานุกรมและยังใข้ตัวอักษรของภาษาท้องถิ่นสำหรับรูปร่างมือในขณะที่ HamNoSys แทนรูปร่างมือโดยตรง SignWriting วางเป้าหมายไว้ว่าจะเป็นระบบการเขียนสำหรับภาษามือที่เรียนรู้ง่าย แต่ก็ยังไม่ได้ถูกนำไปใช้ในกลุ่มคนหูหนวกกลุ่มใดอย่างเป็นทางการ[122] ภาษามือคำในภาษามือถูกรับรู้ด้วยตาแทนหู ท่ามือถูก "พูด" ด้วยมือ ร่างกายส่วนบน และหัว "ฐานกรณ์" หรืออวัยวะหลักที่ใช้ทำท่าคือมือและแขน ส่วนของแขนถูกพรรณนาอย่างสัมพัทธ์ว่าส่วนต้นและส่วนปลาย (Anatomical terms of location) ส่วนต้นหมายถึงส่วนที่อยู่ใกล้ลำตัวและส่วนปลายคือส่วนที่อยู่ไกลออกไป ตัวอย่างเช่นการเคลื่อนไหวข้อมือคือส่วนปลายเมื่อเปรียบเทียบกับข้อศอก โดยปกติการเคลื่อนไหวส่วนปลายผลิตง่ายกว่าเพราะใช้พลังงานน้อยกว่า ปัจจัยต่าง ๆ เช่นความยืดหยุ่นของกล้ามเนื้อหรือหากท่าทางนั้นเป็นข้อห้ามทางสังคมจำกัดว่าอะไรสามารถถือเป็นท่ามือได้[123] เจ้าของภาษามือไม่มองที่มือของคู่สนทนาแต่หากมองไปที่หน้าแทน เพราะการมองเห็นรอบนอก (peripheral vision) ไม่ชัดเท่าตรงกลางของลานสายตา ทำให้สามารถรับรู้การเคลื่อนไหวและตำแหน่งของนิ้วของท่ามือที่อยู่ใกล้หน้ากว่าได้ละเอียดกว่า[124] ภาษามือมีฐานกรณ์ที่เหมือนกันสองอันคือมือ ผู้พูดภาษามือสามารถใช้มือข้างไหนก็ได้โดยไม่ส่งผลต่อการสื่อสาร ท่ามือที่ใช้สองมือโดยทั่วไปจะมีการทำท่าท่าเดียวกันทั้งสองข้างเพราะข้อจำกัดทางประสาทที่มีทั่วกันทุกคนที่เรียกว่าเงื่อนไขความสมมาตร (Symmetry Condition)[123] ข้อจำกัดที่สองที่มีทั่วกันคือเงื่อนไขความถนัด (Dominance Condition) ซึ่งบอกว่าหากท่ามือทั้งสองข้างไม่เหมือนกัน มือที่ไม่ถนัดจะอยู่นิ่งและมีชุดรูปร่างมือที่จำกัดกว่าเมื่อเทียบกับมือข้างที่ถนัดซึ่งเคลื่อนไหว[125] นอกจากนั้น มือข้างหนึ่งในท่ามือสองมือก็มักถูกทิ้ง (ไม่ทำ) เวลาสนทนาอย่างไม่ทางการ ซึ่งนี่เรียกหว่ากระบวนการ weak drop[123] รูปคำแต่ละคำก็อาจทำให้เกิดการออกเสียงผสมได้เหมือนในภาษาพูด ตัวอย่างเช่นรูปร่างมือของท่ามือที่พูดต่อกันก็กลายเป็นคล้ายกัน (การกลมกลืนเสียง) (Assimilation (phonology)) หรือเกิด weak drop (ตัวอย่างหนึ่งของการตัดเสียง) (Deletion (phonology)) [126] ดูเพิ่ม
เชิงอรรถหมายเหตุ
อ้างอิง
บรรณานุกรม
แหล่งข้อมูลอื่น
|