ABCDEFGHIJKLMNOPQRSTUVWX
1
מטרת ותכולת מקור המידעאתר אינטרנטשם איש קשרתפקידטלפוןמייל@dropdown
2
מאגר המשרות שירות התעסוקה מאגר המשרות שירות התעסוקה לינק למאגראופיר פינטוסמנכ"ל מחקר ותכנון 972506284786ofirp@ies.gov.il
3
MVOICEמרכזי שירות של מסעדות, רשתות, וכדומה. שיחות מוקלטות ליצירת CHATBOTMVoice - תקשורת חכמה לעסק - מרכזיה בענן | כוכבית לעסק | מספרים וירטואליםדניאל מרימןמנכל ובעליםdaniel@mvoice.co.il
4
קופת חולים לאומיתעשרות מיליוני רשומות מותממות של טקסט חופשי שנכתב בתיק הרפואי ע"י רופאים ו/או מטפלים (לא כולל תחום הסיעוד) במגוון רחב של תחומי טיפול המצויים ברפואת הקהילה, למעט תחומי הטיפול הבאים שהוחרגו מהמאגר: פסיכיאטריה, פסיכולוגיה, רפואה תעסוקתית, עבודה סוציאלית. הנתונים מונגשים כמו שהם (As is) בחדרי מחקר מאובטחים של לאומית. הטקסטים אינם מתוייגיםהמאגר של מפאתיזהר לאופרמנהל יחידת החדשנות, לאומית שרותי בריאותilaufer@leumit.co.il
5
האיגוד הישראלי לטכנולוגיות שפת אנוש40000 משפטים עם תיוג מורפולוגי בעברית ע"ב סכמת UD
47000 פסקאות NER בעברית
75000 NER בערבית
5000 משפטים עם תיוג מורפולוגי בערבית
לינק למאגראבנר אלגוםמנכ"ל544276528avner.algom@gmail.com
6
מסמכי בית המשפט העליוןהחלטות ופסקי דין של בית המשפט העליוןלינק למאגריישום עברית-Prof. Lev Muchniklevmuchnik@gmail.com
7
מודל שפה עבריתNLP Data Corpus and Language Model for Hebrew Legal, Judicial and Legislative Domainלינק למאגרProf. Anna Belfer- "יישום עברית"אנה- 0546856022anna.pellivert@yissum.co.il
8
טקסט לדיבור ודיבור לטקסטSpoken Hebrew Corpus, Speech-to-Text and Text-to-Speechלינק למאגרProf. Anna Belfer- "יישום עברית"אנה- 0546856022anna.pellivert@yissum.co.il
9
Sentiment HebrewDatasetThe sentiment analysis dataset contains 75,152 tagged sentences from 3 categories: economy, news(mostly politics) and sport. All the sentences were annotated by crowd members (2-5 annotators) to sentiment: positive, negative or neutral. This dataset was created by SUMIT-AI company, thanks to joint funding of the NNLP-IL.לינק למאגרShlomi Peretz- SumitCTOshlomi@sumit-ai.com
10
הספריה לעיווריםהספריה לעיוורים מכילה הקלטות קוליות (ולפעמים תמלול) של ספרים, מגזינים ועיתונים בעברית.לינק למאגררועי גורדוןמנהל טכנולוגיות052-7075458tech@clfb.org.il
11
מאגר NLP כנסתפרוטוקולים ממליאת הכנסת + "מילות מפתח" (תגיות), המתארות את עיקר הטקסט.
הכנסת רואה במאגר כ-dataset ייחודי שיכול לשמש למשימות שונות של NLP ובפרט סיווג נושאי (Topic Modeling).

לינק למאגר1. עמית שניצר – ראש מטה חטיבת המידע1. עמית שניצר – ראש מטה חטיבת המידע
2. אסף בן שאול – ראש תחום מידע אירגוני
עמית נייד: 050-9165390

אסף נייד: 054-4882997
מייל: amitsh@knesset.gov.il
מייל: assafb@knesset.gov.il
12
הספרייה הלאומיתארכיון דיגיטלי של עיתונות.
האתר מכיל 6.5 מיליון עמודים~ של עיתונים מה-250 שנה האחרונות. החומר מגוון מאוד ומכיל כתבי עת משלהי המאה ה-18 לצד עיתונות יומית מלפני מאה שנה, חמישים שנה וכן מלפני שנה או חודש.
העיתונים במאגר הם ב- 25 שפות שונות, כשכל החומר באתר מכיל שכבת טקסט.החומר גם מאוד מגוון מבחינת מקור גיאוגרפי.
לינק למאגראייל מילר972586769183Eyal.miller@nli.org.il
13
ארכיון הסרטים הישראליבארכיון למעלה מ 17,000 כותרים אודיו ויזואליים ארץ ישראלים וישראלים, כולל חומרי המקור של מרבית מהכותרים.
חומרים מהשנים: 1896-2023
אוסף של למעלה מ 1,000 סרטים עלילתיים
כלל ההסרטים התיעודיים שנתמכו ונתמכים ע"י קרנות הקולנוע בישראל
יומני החדשות משנים 1927-1958, יומני כרמל
יומני כרמל הרצליה ויומני גבע מהשנים 1955-1970
סרטי סטודנטים
לינק לאתר
הנגשת חומרים היסטוריים באתר- לינק למאגר
לינק ארכיון
מאיר רוסו – מנהל הארכיוןמנהל הארכיון972586769183Meirr@jer-cin.org.il
14
האקדמיה ללשון העבריתלטובת תכנית ה-NLP הלאומית האקדמיה הנגישה את המידע הבא:
1. כ־8,200 לוחות, שהם כל הפעלים המשמשים בעברית בת זמננו ועוד, ובהם כ־255,000 נטיות (כולל צורות חלופיות).
2. כ־15,000 לוחות ובהם כ־280,000 נטיות (כולל צורות חלופיות)
3. כ־22,000 ערכים מילוניים, כולל נתונים דקדוקיים והגדרות
קישור לדף המכיל דוגמאות למידע הניתן לשימושדורית לררסמנכ"לית+972-2-6493564/555doritl@hebrew-academy.org.il
15
מערך הדיגיטל והאקדמיה ללשון העבריתקורפוס עם 40000 מילים (יגיע ל-200000 עד לסוף השנה) עם תיוג מורפולוגית ידני לפי תקן UDלינק למאגריעקב גוטקיןמנהל חדשנות במערך הדיגיטל+972-50-4489668yakovg@digital.gov.il
16
קורפוס בתחום הבניההקורפוס מכיל מושגים בתחום הבניה, תכנון וארכיטקטורה. יוצר ע"י מעבדת ה-Big Data של הפקולטה לארכיטקטורה בטכניון.
חלק מהקורפוס כבר באויר והוא עדיין בעבודה ומתעדכן.
לינק למאגרד"ר אדר' אור אלכסנדרוביץ'ראש מעבדת נתוני עתק במחקר אדריכלי (BDAR)oraleks@technion.ac.il
17
קורפוס אודיו - spoke modern hebrewהקורפוס יכיל מאות שעות של דיבור חופשי שחלקו מתוייג.
ברגע זה מאמנים במקביל מודלים ע"ב wav2vec 2 ו-hubert לתמלול.

המודלים והמידע ישוחררו בתוך מספר חודשים
המאגר בעבודהפרופ' יוסי קשת, ד"ר יוסי עדיפרופ' יוסי קשת - חבר סגל במחלקה להנדסת חשמל
ד"ר יוסי עדי - חבר סגל בבית הספר להנדסה ומדמ"ח באוניברסיטה העברית
jkeshet@technion.ac.il

yossiadidrum@gmail.com
18
מאגר מידע בעברית רפואית – רפואה פסיכיאטריתמאגר תכנים מתוייגים המאפשר לממש אלג' לזיהוי מסוכנות אצל חולים פסיכיאטרייםהמאגר בעבודהשרון הראל קאינומנהלת הפרויקטsharon.harell@moh.gov.il
19
קורפוס אודיו - תכנים בערבית מדוברתמאגר תכנים משוכתבים משמע ומתויגים, בשפה ערבית מדוברת בניב פלסטיני-ארץ ישראלי. (20,000 מקטעי דאטה) בערבית דבורה, בניב הישראלי והפלסטיני, משני מקורות שמע (75 שעות של פודקאסטים וסרטוני יוטיוב מהרשת ו-15 שעות של הקלטות יזומות של שיחות מבוימות).
המאגר יהיה מוכן בספטמבר 2023
לינק למאגרד"ר שי פייןראש המכון למדעי הנתונים 054-6976295shai.fine@runi.ac.ilF
20
מאגר מידע מרכז שירות רשות החדשנותמאגר המכיל עשרות אלפי שיחות ממרכז השירות של הרשות לחדשנות. ניתן לפתח על בסיסו Chatbot ו/או שירותים נוספים.
המאגר בעבודה וישוחרר בשבועות הקרובים.
המאגר בעבודהיעל גרשנפלדyael.gershenfeld@innovationisrael.org.il
21
מכון מחקר קופת חולים מכבימאות אלפי רשומות ותמלולים של תכנים רפואיים בתחומים מגוונים כולל נתונים דמוגרפיים, ביקורי רופא, דיאגנוזות ומתן תרופות, רישומי מחלות ועודהמאגר זמין לשימוש שרית צ'חנוביץ'מנהלת ביג דאטה ופיתוח עסקיchehanow_s@mac.org.il
22
רובו-שאול - מנגנון TTS בעבריתרובו-שאול הוא פרויקט קוד פתוח לג׳ינרוט טקסט-לדיבור בקולו של שאול אמסטרדמסקי. המודל אומן ע"ב 30 שעות של הקלטות ברמה גבוהה מאד בשת״פ עם כאן11. גם המודלים וגם הדאטה פתוחים וזמינים לשימוש מחקרי

פודקאסט - שאול הופך לרובוט חלק א
פודקאסט - שאול הופך לרובוט חלק ב
30 שעות דאטה סט

מודל TTS פתוח עם הסברים
רועי שנברג

אוריין שרוני
חוקרי ויועצי אודיו ML, עובדים עם חברות על פיתוח hands-on של יכולותorian.sharoni@upai.dev

roee.shenberg@upai.dev
23
נושאים שכבר ממומשים בתכנית:
24
מאגר מידע מתויג ל QA בעברית וערבית30K רשומות מתויגות של שאלה, תשובה והקטע עליו נשאלה השאלה, ומודל שאומן (fine tune) לפתרון הבעיה, מע התיוג וכל הסקריפטים בהם השתמשולינק למאגראמיר כהן054-7711555amirdnc@gmail.com
25
מאגר מידע מתויג ל COREF עברית40K רשומות של הקטע, הישות וכל האחזורים שלה בקטע ומודל שאומן (fine tune) לפתרון הבעיה, מע התיוג וכל הסקריפטים בהם השתמשו
26
מאגר מידע מתויג ל COREF ערבית40K רשומות של הקטע, הישות וכל האחזורים שלה בקטע ומודל שאומן (fine tune) לפתרון הבעיה, מע התיוג וכל הסקריפטים בהם השתמשומטוויטר ומפודקסטים מתומלליםכפיר בר, שי פייןמדענים054-4457771+054-6976295shai.fine@runi.ac.il
27
מאגר מידע מתויג לסיכום בערבית (EXTRACTIVE / ABSTRACTIVE)30K משפטים + סיכומים, כולל מודל BENCHMARK שעבר FINETUNE למשימה, קוד שימוש ואימון ותיוג ו-GUIDELINESכפיר בר, שי פייןמדענים054-4457771+054-6976295shai.fine@runi.ac.il
28
מאגר מידע מתויג לסיכום בעברית (EXTRACTIVE)30K משפטים + סיכומים, כולל מודל BENCHMARK שעבר FINETUNE למשימה, קוד שימוש ואימון ותיוג ו-GUIDELINESדוחות של מבקר המדינהנפתלי אבודרהםמנהל פיתוח NLP רפאל54484424
29
מאגר מידע מתויג לסיכום בעברית וערבית30K רשומות של ההמסמך וסיכומו' ומודל שאומן (fine tune) לפתרון הבעיה, מע התיוג וכל הסקריפטים בהם השתמשוכפיר בר, שי פייןמדענים054-4457771+054-6976296shai.fine@runi.ac.il
30
מאגר מידע מתויג לסיווג מסמכים30K מסמכים, נושאים, ומודל שאומן (fine tune) לפתרון הבעיה מע התיוג וכל הסקריפטים בהם השתמשונפתלי אבודרהםמנהל פיתוח NLP רפאל054484424'
31
תוסף שפתי ל elastic - עבריתתוסף בקוד פתוח לחיפוש מורפולוגי בעברית ע"פ דרישות ELASTIC כולל אישור של אלסטיק להתקנה כתוסףעומר קורןווביקסomer@webiks.com
32
תרגום עברית-ערביתשרשרת תרגום קצה לקצה, לאימון ו inference הכוללת מודולים מודל, כל הנדרש לתרגוםשי אקלרר פיתוח עסקי מטריקס529280762
33
כלי לאיחוד ואיתור ישויותכלי לאיתור ישויות במסמך כולל איחוד ישויות והצגה גרפית בגרף דינמי בקוד פתוחנפתלי אבודרהםמנהל פיתוח NLP רפאל054484424'
34
ארכיון יד טבנקיןבארכיון שלושה מאגרים דיגיטליים:
מאגר של למעלה מ-3 מיליון מסמכים היסטוריים סרוקים, רובם עם שיכבת OCR. המסמכים מאוד מגוונים כוללים מסמכים בכתבי יד, במכונת כתיבה ובהדפסה. המסמכים במגוון גדול של שפות. כל המסמכים כוללים דטה קטלוגי בעברית.
מאגר אודיו הכולל כ-5000 קבצי אודיו דיגיטליים (המרה מאודיו אנלוגי) כולל מוזיקה, ראיונות והקלטת אירועים. כולל דטה קטלוגי.
מאגר וידאו הכולל כ-2000 קבצי וידאו (המרה מוידאו אנלוגי) כולל סרטים ישנים ללא צליל בשחור לבן וסרטים חדשים בצבע. כולל דטה קטלוגי.
https://yadtabenkin.org.il/מאשה זולוטרבסקי ברמנהלת הארכיון052-2348292masha.zol@yadtabenkin.org.il
35
קורפוס אודיו בעברית - ivrit.aiאודיו בעברית הפתוח לשימוש מסחרי ומחקרי - מעל 1000 דוברים, מעל 3300 שעות אודיוhttps://www.ivrit.ai/en/ivrit-ai-2/יאיר ליפשיץyair@lifshitz.io
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100