שיטת התעתוק

שיטת התעתוק שננקטה במאגר היא GAT2 (Couper-Kuhlen & Barth-Weingarten, 2011). שהותאמה לשפה העברית. שיטה זו פותחה על ידי חוקרים בתחום בלשנות האינטראקציה במטרה לייצג באופן מיטבי את מכלול התופעות המרכיבות את השיחה האנושית. מוסכמות התעתוק של GAT2 מציעות מבנה מודולורי, המאפשר ייצוג של השיחה בדרגות שונות של פירוט. התעתיקים במאגר הווידאו נעשו בהתאם לרמת הפירוט המינימלית שמציעה השיטה. הם כוללים את התוכן המילולי, הפקות קול לא-מילוליות, וייצוג מפורט של המבנה הטמפורלי של השיחה, ובפרט: חלוקת רצף הדיבור ליחידות הנגנה, חפיפה בין דוברים, ופסקים (pauses).

התעתיקים במאגר האודיו נעשו בהתאם לרמת הפירוט המירבית שמציעה שיטת GAT2. מעבר לייצוג של המבנה הטמפורלי של השיחה, הם כוללים ייצוג של מגוון רחב של תופעות פרוזודיות, ביניהן מאפייני הנגנה (תנועת גובה הצליל המסיימת כל יחידה פרוזודית, תנועות גובה צליל המתרחשות בתוך היחידה, קפיצות פתאומיות בגובה הצליל), מאפייני דינמיקה (הדגשה, התגברות, דעיכה), ומאפייני איכות קול (דיבור בקול סדוק, דיבור מאונפף, לחישה וכן הלאה). בנוסף, התעתיק כולל הערות פרשניות במקרים שבהם אין די בייצוג של מאפיינים צורניים כדי ללכוד תופעה לשונית שניתן לזהותה בבירור. כך, למשל, כאשר הדובר מבצע שינוי כוללני במאפייני הקול על מנת לשוות לדיבורו סגנון המהדהד דמות או טיפוס מסוימים הדיבור יתויג בתווית "חקייני".

בשני המאגרים, תמלול השיחות נעשה באות עברית ובהתאם לכתיב העברי הסטנדרטי (כתיב מלא). במקרים שבהם צורה נהגתה באופן לא סטנדרטי הובא לצד התעתיק העברי גם תעתיק פונמי רחב של הצורה באות לטינית. בנוסף, במקרים שבהם מילה או חלק ממנה יכולים להיקרא ביותר מאופן אחד, נעשה שימוש בסימני ניקוד לצורך הבהרת הצורה הרצויה. השימוש בסימני ניקוד אינו לפי כללי הניקוד התקני, והוא כולל אחד משלושה סימנים בלבד, שמטרתם להבחין בין התנועות /e/ בסגול, /a/ בפתח, ו-/i/ בחיריק. חילופי קוד (שימוש בצורות לשוניות שאינן עברית) מתויגים בתעתיק באמצעות תווית המציינת את שפת החילוף. במאגר האודיו בלבד, סימן נוסף מציין חילופים הכוללים גם התאמה של המבטא.

פירוט מלא של התופעות המיוצגות בתעתיקים בכל אחד מהמאגרים ומקרא לסימנים המייצגים אותן אפשר למצוא במסמך מוסכמות התעתוק

מכונת כתיבה