מדעי הרוח הדיגיטליים בספרייה המרכזית ע"ש סוראסקי
מהם מדעי הרוח הדיגיטליים?
מהפכת המידע של העשורים האחרונים לא פוסחת על מדעי הרוח והאומנויות, והיא משנה את דפוסי המחקר, הפרסום, חיפוש המידע ומבנה הידע בתחומים אלו.
בהקשר זה מתפתחים מדעי הרוח הדיגיטליים (Digital Humanities) שמטרתם היא להרחיב ואף להגדיר מחדש את המחקר המסורתי, על מושאיו, מקורותיו והמתודולוגיה שלו, וזאת באמצעות שימוש בשיטות ובכלים מתחומי המדעים. שדה מחקרי זה משלב שאלות ושיטות מחקר מהמקצועות ההומניים המסורתיים וממדעי החברה עם כלים דיגיטליים.
מטרה
בספרייה המרכזית ע"ש סוראסקי אנו מציעים תמיכה ומשאבים עבור חוקרי ותלמידי האוניברסיטה המבקשים לבצע שימוש בטכנולוגיות מבוססות מחשב כדי לענות על שאלות מחקריות הקשורות למדעי הרוח והאומנויות.
עקרונות מנחים
- תמיכה ברכישת מיומנויות במדעי הרוח הדיגיטליים, הן למטרות מחקר והן למטרות הוראה, באמצעות פגישות ייעוץ, הדרכות וימי עיון.
- התמיכה מתרכזת בחמישה תחומים עיקריים: המרה מתמונה לטקסט (OCR), ניתוח מרחבי (GIS), קריאה רחוקה (Distant Reading) ומערכות לניהול תוכן (CMS), תמלול אודיו/וידאו באמצעות תוכנת Whisper.
- דגש על תמיכה בכלי תוכנה חופשית, הנגשת תוצרים מחקריים לאוכלוסיות רחבות, ושימור המידע גם לאחר תום או הפרויקט והתקציב.
- תמיכה וייעוץ בכתיבת הצעות מחקר הכוללות בתוכן שימוש בכלים דיגיטליים, החל משלב כתיבת ההצעה ועד לשלב היישום.
שירותינו לקהילת אוניברסיטת תל-אביב
- שירותי OCR באמצעות טופס ייעודי (לקהילת האוניברסיטה, טיפול בהתאם לעומס העבודה)
- העברת סדנאות מעשיות על מגוון כלים שימושים והיבטים שונים של תחום ה- DH. אנו מפרסמים מעת לעת סדנאות פתוחות לקהילת האוניברסיטה, וניתן גם לתאם איתנו סדנה ייעודית בהתאמה לשיעור או לקבוצה.
- ייעוץ אישי לקהילת האוניברסיטה – ניתן לקבוע פגישת ייעוץ אישית של שעה, במידת הצורך ניתן לקבוע פגישה נוספת. פגישות אלה הן ללא תשלום. החל מהפגישה השלישית השירות הוא בתשלום לסגל האקדמי (300 ₪ לפגישה).
מהו זיהוי תווים אופטי (OCR)?
כאשר אנו סורקים עמוד מספר, עיתון או מקור טקסטואלי אחר, הפלט המתקבל הוא למעשה תמונה של העמוד, ואינו שונה במהותו מהתמונות שאנו מצלמים בטלפון הנייד. בתחילה, המחשב אינו מזהה שהתמונה כוללת טקסט, וכתוצאה מכך לא ניתן לחפש בה מילים או ביטויים.
זיהוי תווים אופטי (באנגלית: Optical Character Recognition; בראשי תיבות: OCR) הוא שמו של התהליך המאפשר למחשב לזהות תווים של טקסט מודפס או כתוב בתמונה הסרוקה, וזאת באמצעות הפעלת תוכנה מתאימה שביכולתה לזהות בתמונה את התווים השונים המרכיבים את הטקסט והמרת כל אחד מהם לתו יחיד.
זיהוי תווים אופטי ומדעי הרוח הדיגיטליים
כיום, זיהוי תווים אופטי מהווה את נקודת המוצא למחקר חישובי או כמותי של מקורות טקסטואליים. תהליך זה, שבמסגרתו ניתן להפוך מספר רב של מקורות סרוקים לקבצי טקסט קריאים למחשב, מהווה תנאי הכרחי לעיבוד כמויות גדולות של מושאי מחקר טקסטואליים בשיטות חישוביות.
כך, ממקורות שעברו תהליך OCR ניתן לייצר תמונה מופשטת של הטקסט, לתייג מחרוזות טקסטואליות בעלות משמעות זו או אחרת, ולנתח באופן סטטיסטי את מושאי המחקר.
כלים לזיהוי תווים אופטי בספרייה המרכזית ע"ש סוראסקי
- Adobe Acrobat Pro: הגרסה המסחרית של עורך קבצי ה-PDF הנפוץ מאפשרת להמיר קבצי PDF למסמכים חפישים בקלות וביעילות. התוכנה תומכת ב-42 בשפות (רשימת השפות המלאה כאן). עם סיום תהליך זיהוי התווים האופטי על מסמך המקור תתאפשר עריכתו ושמירתו בפורמטים אחרים. במעבדה למדעי הרוח הדיגיטליים קיימות שתי עמדות עם רישוי מלא ל-Adobe Acrobat Pro 2017.
- Tesseract: מנוע OCR בקוד פתוח לזיהוי תווים אופטי של חברת Google. מנוע זה תומך ב-165 שפות, כולל עברית וערבית (רשימת השפות המלאה כאן). ל-Tesseract אין ממשק משתמש גרפי, והפעלתה בצורה מושכלת מצריכה מיומנויות טכניות מסוימות. תלמידים וחוקרים המעוניינים בתמיכה והדרכה בתוכנה זו מתבקשים לפנות ישירות למדור יעץ והדרכה. במעבדה למדעי הרוח הדיגיטליים קיימות שתי עמדות עם התקנה מלאה של Tesseract בגרסה 5.
- ABBYY FineReader: תוכנה מסחרית מובילה לזיהוי תווים אופטי. התוכנה תומכת ב-201 שפות, כולל עברית וערבית (רשימת השפות המלאה כאן). לתוכנה זו יכולות עיבוד תמונה מתקדמות, והיא אף כוללת אפשרות לאימון זיהוי תווים ויצירת תבניות שפה חדשות על ידי המשתמש. במעבדה למדעי הרוח הדיגיטליים קיימת עמדה אחת עם רישיון מלא ל-ABBYY FineReader 16.
- שירות OCR on Demand: שלחו אלינו קבצי PDF וקבלו בחזרה קובץ טקסט חפיש. למידע נוסף והגשת בקשה ל-OCR לחצו כאן.
צרו קשר
נשמח לסייע בכל שאלה או בקשה הנוגעת למדעי הרוח הדיגיטליים, ניתן ליצור קשר באמצעות דוא"ל, טלפון: 03-6408423 או ווטסאפ (יש להגדיר את המספר 050-5075982 כאיש קשר).