A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | Q | R | S | T | U | V | W | X | ||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | מטרת ותכולת מקור המידע | אתר אינטרנט | שם איש קשר | תפקיד | טלפון | מייל | @dropdown | ||||||||||||||||||
2 | מאגר המשרות שירות התעסוקה | מאגר המשרות שירות התעסוקה | לינק למאגר | אופיר פינטו | סמנכ"ל מחקר ותכנון | 972506284786 | ofirp@ies.gov.il | ||||||||||||||||||
3 | MVOICE | מרכזי שירות של מסעדות, רשתות, וכדומה. שיחות מוקלטות ליצירת CHATBOT | MVoice - תקשורת חכמה לעסק - מרכזיה בענן | כוכבית לעסק | מספרים וירטואלים | דניאל מרימן | מנכל ובעלים | daniel@mvoice.co.il | |||||||||||||||||||
4 | קופת חולים לאומית | עשרות מיליוני רשומות מותממות של טקסט חופשי שנכתב בתיק הרפואי ע"י רופאים ו/או מטפלים (לא כולל תחום הסיעוד) במגוון רחב של תחומי טיפול המצויים ברפואת הקהילה, למעט תחומי הטיפול הבאים שהוחרגו מהמאגר: פסיכיאטריה, פסיכולוגיה, רפואה תעסוקתית, עבודה סוציאלית. הנתונים מונגשים כמו שהם (As is) בחדרי מחקר מאובטחים של לאומית. הטקסטים אינם מתוייגים | המאגר של מפאת | יזהר לאופר | מנהל יחידת החדשנות, לאומית שרותי בריאות | ilaufer@leumit.co.il | |||||||||||||||||||
5 | האיגוד הישראלי לטכנולוגיות שפת אנוש | 40000 משפטים עם תיוג מורפולוגי בעברית ע"ב סכמת UD 47000 פסקאות NER בעברית 75000 NER בערבית 5000 משפטים עם תיוג מורפולוגי בערבית | לינק למאגר | אבנר אלגום | מנכ"ל | 544276528 | avner.algom@gmail.com | ||||||||||||||||||
6 | מסמכי בית המשפט העליון | החלטות ופסקי דין של בית המשפט העליון | לינק למאגר | יישום עברית-Prof. Lev Muchnik | levmuchnik@gmail.com | ||||||||||||||||||||
7 | מודל שפה עברית | NLP Data Corpus and Language Model for Hebrew Legal, Judicial and Legislative Domain | לינק למאגר | Prof. Anna Belfer- "יישום עברית" | אנה- 0546856022 | anna.pellivert@yissum.co.il | |||||||||||||||||||
8 | טקסט לדיבור ודיבור לטקסט | Spoken Hebrew Corpus, Speech-to-Text and Text-to-Speech | לינק למאגר | Prof. Anna Belfer- "יישום עברית" | אנה- 0546856022 | anna.pellivert@yissum.co.il | |||||||||||||||||||
9 | Sentiment HebrewDataset | The sentiment analysis dataset contains 75,152 tagged sentences from 3 categories: economy, news(mostly politics) and sport. All the sentences were annotated by crowd members (2-5 annotators) to sentiment: positive, negative or neutral. This dataset was created by SUMIT-AI company, thanks to joint funding of the NNLP-IL. | לינק למאגר | Shlomi Peretz- Sumit | CTO | shlomi@sumit-ai.com | |||||||||||||||||||
10 | הספריה לעיוורים | הספריה לעיוורים מכילה הקלטות קוליות (ולפעמים תמלול) של ספרים, מגזינים ועיתונים בעברית. | לינק למאגר | רועי גורדון | מנהל טכנולוגיות | 052-7075458 | tech@clfb.org.il | ||||||||||||||||||
11 | מאגר NLP כנסת | פרוטוקולים ממליאת הכנסת + "מילות מפתח" (תגיות), המתארות את עיקר הטקסט. הכנסת רואה במאגר כ-dataset ייחודי שיכול לשמש למשימות שונות של NLP ובפרט סיווג נושאי (Topic Modeling). | לינק למאגר | 1. עמית שניצר – ראש מטה חטיבת המידע | 1. עמית שניצר – ראש מטה חטיבת המידע 2. אסף בן שאול – ראש תחום מידע אירגוני | עמית נייד: 050-9165390 אסף נייד: 054-4882997 | מייל: amitsh@knesset.gov.il מייל: assafb@knesset.gov.il | ||||||||||||||||||
12 | הספרייה הלאומית | ארכיון דיגיטלי של עיתונות. האתר מכיל 6.5 מיליון עמודים~ של עיתונים מה-250 שנה האחרונות. החומר מגוון מאוד ומכיל כתבי עת משלהי המאה ה-18 לצד עיתונות יומית מלפני מאה שנה, חמישים שנה וכן מלפני שנה או חודש. העיתונים במאגר הם ב- 25 שפות שונות, כשכל החומר באתר מכיל שכבת טקסט.החומר גם מאוד מגוון מבחינת מקור גיאוגרפי. | לינק למאגר | אייל מילר | 972586769183 | Eyal.miller@nli.org.il | |||||||||||||||||||
13 | ארכיון הסרטים הישראלי | בארכיון למעלה מ 17,000 כותרים אודיו ויזואליים ארץ ישראלים וישראלים, כולל חומרי המקור של מרבית מהכותרים. חומרים מהשנים: 1896-2023 אוסף של למעלה מ 1,000 סרטים עלילתיים כלל ההסרטים התיעודיים שנתמכו ונתמכים ע"י קרנות הקולנוע בישראל יומני החדשות משנים 1927-1958, יומני כרמל יומני כרמל הרצליה ויומני גבע מהשנים 1955-1970 סרטי סטודנטים | לינק לאתר הנגשת חומרים היסטוריים באתר- לינק למאגר לינק ארכיון | מאיר רוסו – מנהל הארכיון | מנהל הארכיון | 972586769183 | Meirr@jer-cin.org.il | ||||||||||||||||||
14 | האקדמיה ללשון העברית | לטובת תכנית ה-NLP הלאומית האקדמיה הנגישה את המידע הבא: 1. כ־8,200 לוחות, שהם כל הפעלים המשמשים בעברית בת זמננו ועוד, ובהם כ־255,000 נטיות (כולל צורות חלופיות). 2. כ־15,000 לוחות ובהם כ־280,000 נטיות (כולל צורות חלופיות) 3. כ־22,000 ערכים מילוניים, כולל נתונים דקדוקיים והגדרות | קישור לדף המכיל דוגמאות למידע הניתן לשימוש | דורית לרר | סמנכ"לית | +972-2-6493564/555 | doritl@hebrew-academy.org.il | ||||||||||||||||||
15 | מערך הדיגיטל והאקדמיה ללשון העברית | קורפוס עם 40000 מילים (יגיע ל-200000 עד לסוף השנה) עם תיוג מורפולוגית ידני לפי תקן UD | לינק למאגר | יעקב גוטקין | מנהל חדשנות במערך הדיגיטל | +972-50-4489668 | yakovg@digital.gov.il | ||||||||||||||||||
16 | קורפוס בתחום הבניה | הקורפוס מכיל מושגים בתחום הבניה, תכנון וארכיטקטורה. יוצר ע"י מעבדת ה-Big Data של הפקולטה לארכיטקטורה בטכניון. חלק מהקורפוס כבר באויר והוא עדיין בעבודה ומתעדכן. | לינק למאגר | ד"ר אדר' אור אלכסנדרוביץ' | ראש מעבדת נתוני עתק במחקר אדריכלי (BDAR) | oraleks@technion.ac.il | |||||||||||||||||||
17 | קורפוס אודיו - spoke modern hebrew | הקורפוס יכיל מאות שעות של דיבור חופשי שחלקו מתוייג. ברגע זה מאמנים במקביל מודלים ע"ב wav2vec 2 ו-hubert לתמלול. המודלים והמידע ישוחררו בתוך מספר חודשים | המאגר בעבודה | פרופ' יוסי קשת, ד"ר יוסי עדי | פרופ' יוסי קשת - חבר סגל במחלקה להנדסת חשמל ד"ר יוסי עדי - חבר סגל בבית הספר להנדסה ומדמ"ח באוניברסיטה העברית | jkeshet@technion.ac.il yossiadidrum@gmail.com | |||||||||||||||||||
18 | מאגר מידע בעברית רפואית – רפואה פסיכיאטרית | מאגר תכנים מתוייגים המאפשר לממש אלג' לזיהוי מסוכנות אצל חולים פסיכיאטריים | המאגר בעבודה | שרון הראל קאינו | מנהלת הפרויקט | sharon.harell@moh.gov.il | |||||||||||||||||||
19 | קורפוס אודיו - תכנים בערבית מדוברת | מאגר תכנים משוכתבים משמע ומתויגים, בשפה ערבית מדוברת בניב פלסטיני-ארץ ישראלי. (20,000 מקטעי דאטה) בערבית דבורה, בניב הישראלי והפלסטיני, משני מקורות שמע (75 שעות של פודקאסטים וסרטוני יוטיוב מהרשת ו-15 שעות של הקלטות יזומות של שיחות מבוימות). המאגר יהיה מוכן בספטמבר 2023 | לינק למאגר | ד"ר שי פיין | ראש המכון למדעי הנתונים | 054-6976295 | shai.fine@runi.ac.il | F | |||||||||||||||||
20 | מאגר מידע מרכז שירות רשות החדשנות | מאגר המכיל עשרות אלפי שיחות ממרכז השירות של הרשות לחדשנות. ניתן לפתח על בסיסו Chatbot ו/או שירותים נוספים. המאגר בעבודה וישוחרר בשבועות הקרובים. | המאגר בעבודה | יעל גרשנפלד | yael.gershenfeld@innovationisrael.org.il | ||||||||||||||||||||
21 | מכון מחקר קופת חולים מכבי | מאות אלפי רשומות ותמלולים של תכנים רפואיים בתחומים מגוונים כולל נתונים דמוגרפיים, ביקורי רופא, דיאגנוזות ומתן תרופות, רישומי מחלות ועוד | המאגר זמין לשימוש | שרית צ'חנוביץ' | מנהלת ביג דאטה ופיתוח עסקי | chehanow_s@mac.org.il | |||||||||||||||||||
22 | רובו-שאול - מנגנון TTS בעברית | רובו-שאול הוא פרויקט קוד פתוח לג׳ינרוט טקסט-לדיבור בקולו של שאול אמסטרדמסקי. המודל אומן ע"ב 30 שעות של הקלטות ברמה גבוהה מאד בשת״פ עם כאן11. גם המודלים וגם הדאטה פתוחים וזמינים לשימוש מחקרי פודקאסט - שאול הופך לרובוט חלק א פודקאסט - שאול הופך לרובוט חלק ב | 30 שעות דאטה סט מודל TTS פתוח עם הסברים | רועי שנברג אוריין שרוני | חוקרי ויועצי אודיו ML, עובדים עם חברות על פיתוח hands-on של יכולות | orian.sharoni@upai.dev roee.shenberg@upai.dev | |||||||||||||||||||
23 | נושאים שכבר ממומשים בתכנית: | ||||||||||||||||||||||||
24 | מאגר מידע מתויג ל QA בעברית וערבית | 30K רשומות מתויגות של שאלה, תשובה והקטע עליו נשאלה השאלה, ומודל שאומן (fine tune) לפתרון הבעיה, מע התיוג וכל הסקריפטים בהם השתמשו | לינק למאגר | אמיר כהן | 054-7711555 | amirdnc@gmail.com | |||||||||||||||||||
25 | מאגר מידע מתויג ל COREF עברית | 40K רשומות של הקטע, הישות וכל האחזורים שלה בקטע ומודל שאומן (fine tune) לפתרון הבעיה, מע התיוג וכל הסקריפטים בהם השתמשו | |||||||||||||||||||||||
26 | מאגר מידע מתויג ל COREF ערבית | 40K רשומות של הקטע, הישות וכל האחזורים שלה בקטע ומודל שאומן (fine tune) לפתרון הבעיה, מע התיוג וכל הסקריפטים בהם השתמשו | מטוויטר ומפודקסטים מתומללים | כפיר בר, שי פיין | מדענים | 054-4457771+054-6976295 | shai.fine@runi.ac.il | ||||||||||||||||||
27 | מאגר מידע מתויג לסיכום בערבית (EXTRACTIVE / ABSTRACTIVE) | 30K משפטים + סיכומים, כולל מודל BENCHMARK שעבר FINETUNE למשימה, קוד שימוש ואימון ותיוג ו-GUIDELINES | כפיר בר, שי פיין | מדענים | 054-4457771+054-6976295 | shai.fine@runi.ac.il | |||||||||||||||||||
28 | מאגר מידע מתויג לסיכום בעברית (EXTRACTIVE) | 30K משפטים + סיכומים, כולל מודל BENCHMARK שעבר FINETUNE למשימה, קוד שימוש ואימון ותיוג ו-GUIDELINES | דוחות של מבקר המדינה | נפתלי אבודרהם | מנהל פיתוח NLP רפאל | 54484424 | |||||||||||||||||||
29 | מאגר מידע מתויג לסיכום בעברית וערבית | 30K רשומות של ההמסמך וסיכומו' ומודל שאומן (fine tune) לפתרון הבעיה, מע התיוג וכל הסקריפטים בהם השתמשו | כפיר בר, שי פיין | מדענים | 054-4457771+054-6976296 | shai.fine@runi.ac.il | |||||||||||||||||||
30 | מאגר מידע מתויג לסיווג מסמכים | 30K מסמכים, נושאים, ומודל שאומן (fine tune) לפתרון הבעיה מע התיוג וכל הסקריפטים בהם השתמשו | נפתלי אבודרהם | מנהל פיתוח NLP רפאל | 054484424' | ||||||||||||||||||||
31 | תוסף שפתי ל elastic - עברית | תוסף בקוד פתוח לחיפוש מורפולוגי בעברית ע"פ דרישות ELASTIC כולל אישור של אלסטיק להתקנה כתוסף | עומר קורן | ווביקס | omer@webiks.com | ||||||||||||||||||||
32 | תרגום עברית-ערבית | שרשרת תרגום קצה לקצה, לאימון ו inference הכוללת מודולים מודל, כל הנדרש לתרגום | שי אקלר | ר פיתוח עסקי מטריקס | 529280762 | ||||||||||||||||||||
33 | כלי לאיחוד ואיתור ישויות | כלי לאיתור ישויות במסמך כולל איחוד ישויות והצגה גרפית בגרף דינמי בקוד פתוח | נפתלי אבודרהם | מנהל פיתוח NLP רפאל | 054484424' | ||||||||||||||||||||
34 | ארכיון יד טבנקין | בארכיון שלושה מאגרים דיגיטליים: מאגר של למעלה מ-3 מיליון מסמכים היסטוריים סרוקים, רובם עם שיכבת OCR. המסמכים מאוד מגוונים כוללים מסמכים בכתבי יד, במכונת כתיבה ובהדפסה. המסמכים במגוון גדול של שפות. כל המסמכים כוללים דטה קטלוגי בעברית. מאגר אודיו הכולל כ-5000 קבצי אודיו דיגיטליים (המרה מאודיו אנלוגי) כולל מוזיקה, ראיונות והקלטת אירועים. כולל דטה קטלוגי. מאגר וידאו הכולל כ-2000 קבצי וידאו (המרה מוידאו אנלוגי) כולל סרטים ישנים ללא צליל בשחור לבן וסרטים חדשים בצבע. כולל דטה קטלוגי. | https://yadtabenkin.org.il/ | מאשה זולוטרבסקי בר | מנהלת הארכיון | 052-2348292 | masha.zol@yadtabenkin.org.il | ||||||||||||||||||
35 | קורפוס אודיו בעברית - ivrit.ai | אודיו בעברית הפתוח לשימוש מסחרי ומחקרי - מעל 1000 דוברים, מעל 3300 שעות אודיו | https://www.ivrit.ai/en/ivrit-ai-2/ | יאיר ליפשיץ | yair@lifshitz.io | ||||||||||||||||||||
36 | |||||||||||||||||||||||||
37 | |||||||||||||||||||||||||
38 | |||||||||||||||||||||||||
39 | |||||||||||||||||||||||||
40 | |||||||||||||||||||||||||
41 | |||||||||||||||||||||||||
42 | |||||||||||||||||||||||||
43 | |||||||||||||||||||||||||
44 | |||||||||||||||||||||||||
45 | |||||||||||||||||||||||||
46 | |||||||||||||||||||||||||
47 | |||||||||||||||||||||||||
48 | |||||||||||||||||||||||||
49 | |||||||||||||||||||||||||
50 | |||||||||||||||||||||||||
51 | |||||||||||||||||||||||||
52 | |||||||||||||||||||||||||
53 | |||||||||||||||||||||||||
54 | |||||||||||||||||||||||||
55 | |||||||||||||||||||||||||
56 | |||||||||||||||||||||||||
57 | |||||||||||||||||||||||||
58 | |||||||||||||||||||||||||
59 | |||||||||||||||||||||||||
60 | |||||||||||||||||||||||||
61 | |||||||||||||||||||||||||
62 | |||||||||||||||||||||||||
63 | |||||||||||||||||||||||||
64 | |||||||||||||||||||||||||
65 | |||||||||||||||||||||||||
66 | |||||||||||||||||||||||||
67 | |||||||||||||||||||||||||
68 | |||||||||||||||||||||||||
69 | |||||||||||||||||||||||||
70 | |||||||||||||||||||||||||
71 | |||||||||||||||||||||||||
72 | |||||||||||||||||||||||||
73 | |||||||||||||||||||||||||
74 | |||||||||||||||||||||||||
75 | |||||||||||||||||||||||||
76 | |||||||||||||||||||||||||
77 | |||||||||||||||||||||||||
78 | |||||||||||||||||||||||||
79 | |||||||||||||||||||||||||
80 | |||||||||||||||||||||||||
81 | |||||||||||||||||||||||||
82 | |||||||||||||||||||||||||
83 | |||||||||||||||||||||||||
84 | |||||||||||||||||||||||||
85 | |||||||||||||||||||||||||
86 | |||||||||||||||||||||||||
87 | |||||||||||||||||||||||||
88 | |||||||||||||||||||||||||
89 | |||||||||||||||||||||||||
90 | |||||||||||||||||||||||||
91 | |||||||||||||||||||||||||
92 | |||||||||||||||||||||||||
93 | |||||||||||||||||||||||||
94 | |||||||||||||||||||||||||
95 | |||||||||||||||||||||||||
96 | |||||||||||||||||||||||||
97 | |||||||||||||||||||||||||
98 | |||||||||||||||||||||||||
99 | |||||||||||||||||||||||||
100 |