מאגרי מידע ושת"פים אפשריים - NLP

	A	B	C	D	E	F	G	H	I
1		מטרת ותכולת מקור המידע	אתר אינטרנט	שם איש קשר	תפקיד	טלפון	מייל	@dropdown

2	מאגר המשרות שירות התעסוקה	מאגר המשרות שירות התעסוקה	לינק למאגר	אופיר פינטו	סמנכ"ל מחקר ותכנון	972506284786	ofirp@ies.gov.il
3	MVOICE	מרכזי שירות של מסעדות, רשתות, וכדומה. שיחות מוקלטות ליצירת CHATBOT	MVoice - תקשורת חכמה לעסק - מרכזיה בענן \| כוכבית לעסק \| מספרים וירטואלים	דניאל מרימן	מנכל ובעלים		daniel@mvoice.co.il
4	קופת חולים לאומית	עשרות מיליוני רשומות מותממות של טקסט חופשי שנכתב בתיק הרפואי ע"י רופאים ו/או מטפלים (לא כולל תחום הסיעוד) במגוון רחב של תחומי טיפול המצויים ברפואת הקהילה, למעט תחומי הטיפול הבאים שהוחרגו מהמאגר: פסיכיאטריה, פסיכולוגיה, רפואה תעסוקתית, עבודה סוציאלית. הנתונים מונגשים כמו שהם (As is) בחדרי מחקר מאובטחים של לאומית. הטקסטים אינם מתוייגים	המאגר של מפאת	יזהר לאופר	מנהל יחידת החדשנות, לאומית שרותי בריאות		ilaufer@leumit.co.il
5	האיגוד הישראלי לטכנולוגיות שפת אנוש	40000 משפטים עם תיוג מורפולוגי בעברית ע"ב סכמת UD 47000 פסקאות NER בעברית 75000 NER בערבית 5000 משפטים עם תיוג מורפולוגי בערבית	לינק למאגר	אבנר אלגום	מנכ"ל	544276528	avner.algom@gmail.com
6	מסמכי בית המשפט העליון	החלטות ופסקי דין של בית המשפט העליון	לינק למאגר	יישום עברית-Prof. Lev Muchnik			levmuchnik@gmail.com
7	מודל שפה עברית	NLP Data Corpus and Language Model for Hebrew Legal, Judicial and Legislative Domain	לינק למאגר	Prof. Anna Belfer- "יישום עברית"		אנה- 0546856022	anna.pellivert@yissum.co.il
8	טקסט לדיבור ודיבור לטקסט	Spoken Hebrew Corpus, Speech-to-Text and Text-to-Speech	לינק למאגר	Prof. Anna Belfer- "יישום עברית"		אנה- 0546856022	anna.pellivert@yissum.co.il
9	Sentiment HebrewDataset	The sentiment analysis dataset contains 75,152 tagged sentences from 3 categories: economy, news(mostly politics) and sport. All the sentences were annotated by crowd members (2-5 annotators) to sentiment: positive, negative or neutral. This dataset was created by SUMIT-AI company, thanks to joint funding of the NNLP-IL.	לינק למאגר	Shlomi Peretz- Sumit	CTO		shlomi@sumit-ai.com
10	הספריה לעיוורים	הספריה לעיוורים מכילה הקלטות קוליות (ולפעמים תמלול) של ספרים, מגזינים ועיתונים בעברית.	לינק למאגר	רועי גורדון	מנהל טכנולוגיות	052-7075458	tech@clfb.org.il
11	מאגר NLP כנסת	פרוטוקולים ממליאת הכנסת + "מילות מפתח" (תגיות), המתארות את עיקר הטקסט. הכנסת רואה במאגר כ-dataset ייחודי שיכול לשמש למשימות שונות של NLP ובפרט סיווג נושאי (Topic Modeling).	לינק למאגר	1. עמית שניצר – ראש מטה חטיבת המידע	1. עמית שניצר – ראש מטה חטיבת המידע 2. אסף בן שאול – ראש תחום מידע אירגוני	עמית נייד: 050-9165390 אסף נייד: 054-4882997	מייל: amitsh@knesset.gov.il מייל: assafb@knesset.gov.il
12	הספרייה הלאומית	ארכיון דיגיטלי של עיתונות. האתר מכיל 6.5 מיליון עמודים~ של עיתונים מה-250 שנה האחרונות. החומר מגוון מאוד ומכיל כתבי עת משלהי המאה ה-18 לצד עיתונות יומית מלפני מאה שנה, חמישים שנה וכן מלפני שנה או חודש. העיתונים במאגר הם ב- 25 שפות שונות, כשכל החומר באתר מכיל שכבת טקסט.החומר גם מאוד מגוון מבחינת מקור גיאוגרפי.	לינק למאגר	אייל מילר		972586769183	Eyal.miller@nli.org.il
13	ארכיון הסרטים הישראלי	בארכיון למעלה מ 17,000 כותרים אודיו ויזואליים ארץ ישראלים וישראלים, כולל חומרי המקור של מרבית מהכותרים. חומרים מהשנים: 1896-2023 אוסף של למעלה מ 1,000 סרטים עלילתיים כלל ההסרטים התיעודיים שנתמכו ונתמכים ע"י קרנות הקולנוע בישראל יומני החדשות משנים 1927-1958, יומני כרמל יומני כרמל הרצליה ויומני גבע מהשנים 1955-1970 סרטי סטודנטים	לינק לאתר הנגשת חומרים היסטוריים באתר- לינק למאגר לינק ארכיון	מאיר רוסו – מנהל הארכיון	מנהל הארכיון	972586769183	Meirr@jer-cin.org.il
14	האקדמיה ללשון העברית	לטובת תכנית ה-NLP הלאומית האקדמיה הנגישה את המידע הבא: 1. כ־8,200 לוחות, שהם כל הפעלים המשמשים בעברית בת זמננו ועוד, ובהם כ־255,000 נטיות (כולל צורות חלופיות). 2. כ־15,000 לוחות ובהם כ־280,000 נטיות (כולל צורות חלופיות) 3. כ־22,000 ערכים מילוניים, כולל נתונים דקדוקיים והגדרות	קישור לדף המכיל דוגמאות למידע הניתן לשימוש	דורית לרר	סמנכ"לית	+972-2-6493564/555	doritl@hebrew-academy.org.il
15	מערך הדיגיטל והאקדמיה ללשון העברית	קורפוס עם 40000 מילים (יגיע ל-200000 עד לסוף השנה) עם תיוג מורפולוגית ידני לפי תקן UD	לינק למאגר	יעקב גוטקין	מנהל חדשנות במערך הדיגיטל	+972-50-4489668	yakovg@digital.gov.il
16	קורפוס בתחום הבניה	הקורפוס מכיל מושגים בתחום הבניה, תכנון וארכיטקטורה. יוצר ע"י מעבדת ה-Big Data של הפקולטה לארכיטקטורה בטכניון. חלק מהקורפוס כבר באויר והוא עדיין בעבודה ומתעדכן.	לינק למאגר	ד"ר אדר' אור אלכסנדרוביץ'	ראש מעבדת נתוני עתק במחקר אדריכלי (BDAR)		oraleks@technion.ac.il
17	קורפוס אודיו - spoke modern hebrew	הקורפוס יכיל מאות שעות של דיבור חופשי שחלקו מתוייג. ברגע זה מאמנים במקביל מודלים ע"ב wav2vec 2 ו-hubert לתמלול. המודלים והמידע ישוחררו בתוך מספר חודשים	המאגר בעבודה	פרופ' יוסי קשת, ד"ר יוסי עדי	פרופ' יוסי קשת - חבר סגל במחלקה להנדסת חשמל ד"ר יוסי עדי - חבר סגל בבית הספר להנדסה ומדמ"ח באוניברסיטה העברית		jkeshet@technion.ac.il yossiadidrum@gmail.com
18	מאגר מידע בעברית רפואית – רפואה פסיכיאטרית	מאגר תכנים מתוייגים המאפשר לממש אלג' לזיהוי מסוכנות אצל חולים פסיכיאטריים	המאגר בעבודה	שרון הראל קאינו	מנהלת הפרויקט		sharon.harell@moh.gov.il
19	קורפוס אודיו - תכנים בערבית מדוברת	מאגר תכנים משוכתבים משמע ומתויגים, בשפה ערבית מדוברת בניב פלסטיני-ארץ ישראלי. (20,000 מקטעי דאטה) בערבית דבורה, בניב הישראלי והפלסטיני, משני מקורות שמע (75 שעות של פודקאסטים וסרטוני יוטיוב מהרשת ו-15 שעות של הקלטות יזומות של שיחות מבוימות). המאגר יהיה מוכן בספטמבר 2023	לינק למאגר	ד"ר שי פיין	ראש המכון למדעי הנתונים	054-6976295	shai.fine@runi.ac.il		F
20	מאגר מידע מרכז שירות רשות החדשנות	מאגר המכיל עשרות אלפי שיחות ממרכז השירות של הרשות לחדשנות. ניתן לפתח על בסיסו Chatbot ו/או שירותים נוספים. המאגר בעבודה וישוחרר בשבועות הקרובים.	המאגר בעבודה	יעל גרשנפלד			yael.gershenfeld@innovationisrael.org.il
21	מכון מחקר קופת חולים מכבי	מאות אלפי רשומות ותמלולים של תכנים רפואיים בתחומים מגוונים כולל נתונים דמוגרפיים, ביקורי רופא, דיאגנוזות ומתן תרופות, רישומי מחלות ועוד	המאגר זמין לשימוש	שרית צ'חנוביץ'	מנהלת ביג דאטה ופיתוח עסקי		chehanow_s@mac.org.il
22	רובו-שאול - מנגנון TTS בעברית	רובו-שאול הוא פרויקט קוד פתוח לג׳ינרוט טקסט-לדיבור בקולו של שאול אמסטרדמסקי. המודל אומן ע"ב 30 שעות של הקלטות ברמה גבוהה מאד בשת״פ עם כאן11. גם המודלים וגם הדאטה פתוחים וזמינים לשימוש מחקרי פודקאסט - שאול הופך לרובוט חלק א פודקאסט - שאול הופך לרובוט חלק ב	30 שעות דאטה סט מודל TTS פתוח עם הסברים	רועי שנברג אוריין שרוני	חוקרי ויועצי אודיו ML, עובדים עם חברות על פיתוח hands-on של יכולות		orian.sharoni@upai.dev roee.shenberg@upai.dev
23	נושאים שכבר ממומשים בתכנית:
24	מאגר מידע מתויג ל QA בעברית וערבית	30K רשומות מתויגות של שאלה, תשובה והקטע עליו נשאלה השאלה, ומודל שאומן (fine tune) לפתרון הבעיה, מע התיוג וכל הסקריפטים בהם השתמשו	לינק למאגר	אמיר כהן		054-7711555	amirdnc@gmail.com
25	מאגר מידע מתויג ל COREF עברית	40K רשומות של הקטע, הישות וכל האחזורים שלה בקטע ומודל שאומן (fine tune) לפתרון הבעיה, מע התיוג וכל הסקריפטים בהם השתמשו
26	מאגר מידע מתויג ל COREF ערבית	40K רשומות של הקטע, הישות וכל האחזורים שלה בקטע ומודל שאומן (fine tune) לפתרון הבעיה, מע התיוג וכל הסקריפטים בהם השתמשו	מטוויטר ומפודקסטים מתומללים	כפיר בר, שי פיין	מדענים	054-4457771+054-6976295	shai.fine@runi.ac.il
27	מאגר מידע מתויג לסיכום בערבית (EXTRACTIVE / ABSTRACTIVE)	30K משפטים + סיכומים, כולל מודל BENCHMARK שעבר FINETUNE למשימה, קוד שימוש ואימון ותיוג ו-GUIDELINES		כפיר בר, שי פיין	מדענים	054-4457771+054-6976295	shai.fine@runi.ac.il
28	מאגר מידע מתויג לסיכום בעברית (EXTRACTIVE)	30K משפטים + סיכומים, כולל מודל BENCHMARK שעבר FINETUNE למשימה, קוד שימוש ואימון ותיוג ו-GUIDELINES	דוחות של מבקר המדינה	נפתלי אבודרהם	מנהל פיתוח NLP רפאל	54484424
29	מאגר מידע מתויג לסיכום בעברית וערבית	30K רשומות של ההמסמך וסיכומו' ומודל שאומן (fine tune) לפתרון הבעיה, מע התיוג וכל הסקריפטים בהם השתמשו		כפיר בר, שי פיין	מדענים	054-4457771+054-6976296	shai.fine@runi.ac.il
30	מאגר מידע מתויג לסיווג מסמכים	30K מסמכים, נושאים, ומודל שאומן (fine tune) לפתרון הבעיה מע התיוג וכל הסקריפטים בהם השתמשו		נפתלי אבודרהם	מנהל פיתוח NLP רפאל	054484424'
31	תוסף שפתי ל elastic - עברית			עומר קורן	ווביקס		omer@webiks.com
32	תרגום עברית-ערבית	תוסף בקוד פתוח לחיפוש מורפולוגי בעברית ע"פ דרישות ELASTIC כולל אישור של אלסטיק להתקנה כתוסף		שי אקלר	ר פיתוח עסקי מטריקס	529280762
33	כלי לאיחוד ואיתור ישויות	כלי לאיתור ישויות במסמך כולל איחוד ישויות והצגה גרפית בגרף דינמי בקוד פתוח		נפתלי אבודרהם	מנהל פיתוח NLP רפאל	054484424'
34	ארכיון יד טבנקין	בארכיון שלושה מאגרים דיגיטליים: מאגר של למעלה מ-3 מיליון מסמכים היסטוריים סרוקים, רובם עם שיכבת OCR. המסמכים מאוד מגוונים כוללים מסמכים בכתבי יד, במכונת כתיבה ובהדפסה. המסמכים במגוון גדול של שפות. כל המסמכים כוללים דטה קטלוגי בעברית. מאגר אודיו הכולל כ-5000 קבצי אודיו דיגיטליים (המרה מאודיו אנלוגי) כולל מוזיקה, ראיונות והקלטת אירועים. כולל דטה קטלוגי. מאגר וידאו הכולל כ-2000 קבצי וידאו (המרה מוידאו אנלוגי) כולל סרטים ישנים ללא צליל בשחור לבן וסרטים חדשים בצבע. כולל דטה קטלוגי.	https://yadtabenkin.org.il/	מאשה זולוטרבסקי בר	מנהלת הארכיון	052-2348292	masha.zol@yadtabenkin.org.il
35	קורפוס אודיו בעברית - ivrit.ai	אודיו בעברית הפתוח לשימוש מסחרי ומחקרי - מעל 1000 דוברים, מעל 3300 שעות אודיו	https://www.ivrit.ai/en/ivrit-ai-2/	יאיר ליפשיץ			yair@lifshitz.io
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100