News: 2023-04-17T05_32_00Z

  ARM Give a man a fire and he's warm for a day, but set fire to him and he's warm for the rest of his life (Terry Pratchett, Jingo)

Free Dolly, une (future) riposte open source à ChatGPT ?

(2023/04/17)


Free Dolly, une (future) riposte open source à ChatGPT ?

lundi 17 avril 2023

Free Dolly se présente comme le premier modèle de langage (LLM) au monde ouvert. Une alternative libre à ChatGPT pour un usage personnel, académique, voire commercial. Voici ce qu’il faut savoir.

Databricks entend rendre la magie de ChatGPT accessible au plus grand nombre en se basant sur un modèle ouvert et open source. C’est ainsi que l’entreprise a dévoilé, fin mars, [1]Dolly .

Dans le domaine, tout s’accélère. C’est ainsi que la 2e version est déjà là, à peine deux semaines après la sortie de la première. Free Dolly ( [2]Dolly 2.0 ) serait aujourd’hui le premier LLM open source à suivre des instructions, mis au point sur un ensemble de données d’instructions générées par l’homme, sous une licence adaptée tant à la recherche qu’à une utilisation commerciale.

Ce procédé rapproche Dolly de ChatGPT, puisqu’il se base sur un procédé de questions et réponses, mais avec une différence de taille. Contrairement au modèle d’OpenAI, Dolly est open source et est disponible [3]sur GitHub .

[4]Dolly 2.0 est un modèle de langage à 12 paramètres basé sur la famille de modèles [5]EleutherAI pythia et affiné exclusivement sur un ensemble de données de suivi d’instructions générées par un être humain et via le crowdsourcing.

Databricks annonce avoir ouvert l’accès à l’intégralité de Dolly 2.0 , y compris le code d’entraînement, l’ensemble de données et les poids du modèle afin de pouvoir créer et personnaliser des LLM sans devoir payer pour l’accès à l’API ou à partager des données avec des tiers.

Pour l’heure, Dolly ne peut rivaliser avec ChatGPT. [6]Le magazine TechCrunch a pu l’utiliser et déplore de nombreuses erreurs et approximations. Réponse de son CEO, Ali Ghodsi : à ce stade, Dolly 2.0 n’a pas accès à internet et « se destine plutôt à des applications simples comme une réponse à des tickets d’assistance à la clientèle, l’extraction d’informations à partir de dossiers juridiques et la génération de code ». Toutefois, la mise en open source doit permettre d’affiner le modèle et de le rendre meilleur et plus performant avec le temps.

[7]



[1] https://www.databricks.com/blog/2023/03/24/hello-dolly-democratizing-magic-chatgpt-open-models.html

[2] https://www.databricks.com/blog/2023/04/12/dolly-first-open-commercially-viable-instruction-tuned-llm

[3] https://github.com/databrickslabs/dolly/tree/master/data

[4] https://huggingface.co/databricks/dolly-v2-12b

[5] https://www.eleuther.ai/

[6] https://techcrunch.com/2023/04/12/databricks-dolly-2-generative-ai-open-source/

[7] https://www.toolinux.com/?databricks-dolly-llm-open-source#forum



As I argued in "Beloved Son", a book about my son Brian and the subject
of religious communes and cults, one result of proper early instruction
in the methods of rational thought will be to make sudden mindless
conversions -- to anything -- less likely. Brian now realizes this and
has, after eleven years, left the sect he was associated with. The
problem is that once the untrained mind has made a formal commitment to
a religious philosophy -- and it does not matter whether that philosophy
is generally reasonable and high-minded or utterly bizarre and
irrational -- the powers of reason are surprisingly ineffective in
changing the believer's mind.
-- Steve Allen, comedian, from an essay in the book "The Courage of
Conviction", edited by Philip Berman