L’Institute for Computer Science, Artificial Intelligence and Technology (INSAIT), struttura di ricerca fondata nel 2022 a Sofia, Bulgaria[1], ha messo a disposizione del pubblico, a partire dal 3 marzo, BgGPT.
Si tratta del primo Large Language Model (LLM) focalizzato sulla lingua bulgara ed è rilasciato sotto licenza Apache 2.0.
BgGPT si propone come un modello formato tenendo in considerazione le specificità della lingua bulgara, con l’obiettivo di favorire la creazione di applicazioni a beneficio della pubblica amministrazione, del sistema sanitario, dell’istruzione pubblica e di molti altri settori.
Si tratta di un sistema addestrato su oltre tre miliardi di frasi bulgare.
Al fine di renderlo aderente alla lingua e cultura locali, il modello è stato addestrato su fonti linguistiche e culturali bulgare, quali dati derivanti da web crawling, in aggiunta a dataset specialistici bulgari selezionati da INSAIT.
Inoltre, il sistema è stato addestrato anche su dataset in lingua inglese, in modo da non perdere anche la sua capacità di comunicare e ragionare in inglese.
Il sistema tiene conto della necessità di operare con l’alfabeto cirillico in modo efficace e performante.
In relazione a BgGPT, INSAIT ha reso disponibile un sistema di chat [3] e ha altresì pubblicato alcune informazioni di carattere più tecnico [4] [5].
Di Valentin Vitkov
Avvocato in Milano, si interessa di informatica giuridica, con particolare riferimento ai rapporti tra lo sviluppo dell’informatica e i diritti fondamentali e di libertà.
Note:
[1] Si veda, ampiamente, https://insait.ai/what-is-insait/
[2] https://insait.ai/insait-announced-bggpt/
[3] https://chat.bggpt.ai
[4] https://bggpt.ai/blogen/ , si veda anche https://huggingface.co/INSAIT-Institute/BgGPT-7B-Instruct-v0.2
[5] Tutti i collegamenti ipertestuali nel presente articolo sono stati visitati il 17.04.2024.