קורפוס העברית: מאגר העברית הדבורה של האוניברסיטה העברית מאגד הקלטות ותעתיקים של שיחות בין חברים ובני משפחה בעברית בת ימינו. מטרת המאגר לספק בסיס לחקר השפה העברית בתחום השיח הדבור והאינטראקציה וכן בכל שאר תחומי הבלשנות.
הקורפוס מורכב ממאגר אודיו ומאגר וידאו. מאגר האודיו כולל 30 שיחות טלפון בנות 10 דקות ומעלה, שהוקלטו בשנים 2022-2020. מתוך כל הקלטה תועתק קטע שאורכו 10-5 דקות ובסך הכול תועתקו כ-230 דקות שיחה. בשיחות השתתפו 41 דוברות ו-19 דוברים. מאגר הווידאו כולל 10 שיחות דיאדיות שצולמו בשנים 2024-2022. משך השיחות הכולל הוא כ-570 דקות והן תועתקו במלואן. בשיחות השתתפו 8 דוברות ו- 11 דוברים.
כל הדוברות והדוברים המתועדים במאגר חתמו על טופס הסכמה המתיר את פרסום הנתונים והשימוש בהם לצורכי מחקר אקדמי. שמות פרטיים, כתובות מגורים ופרטים מזהים אחרים הוחלפו בפרטים בדויים בתעתיקים וטושטשו בקובצי השמע באמצעות מסנן מעביר תדרים נמוכים (low-pass filter).
שיטת התעתוק שננקטה במאגר היא GAT2, שהותאמה לשפה העברית. מוסכמות התעתוק של GAT2 מציעות מבנה מודולורי, המאפשר ייצוג של השיחה בדרגות שונות של פירוט. תעתיקי מאגר הווידאו כוללים את התוכן המילולי, הפקות קול לא-מילוליות, וייצוג מפורט של המבנה הטמפורלי של השיחה. תעתיקי מאגר האודיו מפורטים יותר, והם כוללים בנוסף ייצוג של מגוון רחב של תופעות פרוזודיות. ראו פירוט נוסף בעמוד שיטת התעתוק.
מאגר האודיו פתוח באופן חופשי לגולשים באתר. מאגר הווידאו, מטעמים של מגבלות אתיות, פתוח לנרשמים מורשים בלבד. עקבו אחר ההוראות בדף ההרשמה על מנת לבקש הרשאת גישה למאגר הווידאו.
About
HCSH: HUJI Corpus of Spoken Hebrew comprises recordings and transcripts of modern Hebrew conversations. The purpose of the corpus is to provide a basis for research on the Hebrew language in the domains of spoken discourse and interaction, as well as in all other areas of linguistic analysis.
The corpus comprises an audio and a video collection. The audio collection consists of 30 telephone conversions, each lasting 10 minutes or more, that were recorded during the years 2020-2022. A segment of 5-10 minutes was transcribed from each recording. Altogether, the transcripts cover 230 minutes of recorded conversation involving 60 participants (41 female, 19 male). The video collection includes 10 dyadic conversations that were recorded during the years 2022-2024 and which involved 19 speakers (8 female, 11 male). The conversations, consisting of 570 minutes of talk overall, were fully transcribed.
The recorded participants signed a consent form that allows the publication of the recordings and their use for academic research. Personal names, addresses and other identifying information have been replaced by pseudonyms in the transcripts and have been altered in the audio files by using a low-pass filter.
Transcripts follow the GAT2 transcription system, adapted to the Hebrew language. GAT2 is a modular system, allowing for various degrees of granularity. The video collection transcripts include the wording, non-lexical vocalizations, and a detailed representation of the temporal structure of the conversation. The audio collection is more detailed and includes in addition the representation of a wide variety of prosodic phenomena.