Intelligence artificielle : DeepSeek se précipite pour lancer un nouveau modèle d’IA

DeepSeek cherche à renforcer son avantage. La start-up chinoise a déclenché une vente de plus de 1 000 milliards de dollars sur les marchés boursiers mondiaux le mois dernier avec un modèle de raisonnement basé sur l’IA à prix réduit qui a surperformé de nombreux concurrents occidentaux.

Aujourd’hui, la société basée à Hangzhou accélère le lancement du successeur du modèle R1 de janvier, selon trois personnes familières avec l’entreprise.

Deepseek avait prévu de sortir R2 au début du mois de mai, mais souhaite maintenant qu’il sorte le plus tôt possible, ont déclaré deux d’entre eux, sans fournir de détails.

La société espère que le nouveau modèle produira un meilleur codage et sera capable de raisonner dans des langues autres que l’anglais. Les détails du calendrier accéléré pour la sortie de R2 n’ont pas été rapportés auparavant.

DeepSeek n’a pas répondu à une demande de commentaire pour cette histoire.
Les rivaux sont encore en train de digérer les implications de R1, qui a été construit avec des puces Nvidia moins puissantes, mais qui est compétitif avec celles développées au coût de centaines de milliards de dollars par les géants américains de la technologie.

« Le lancement du modèle R2 de DeepSeek pourrait être un moment charnière dans l’industrie de l’IA », a déclaré Vijayasimha Alilughatta, directeur de l’exploitation du fournisseur indien de services technologiques Zensar.

Le succès de DeepSeek dans la création de modèles d’IA rentables « inciterait probablement les entreprises du monde entier à accélérer leurs propres efforts… briser l’emprise des quelques acteurs dominants sur le terrain », a-t-il déclaré.

R2 risque d’inquiéter le gouvernement américain, qui a identifié le leadership de l’IA comme une priorité nationale. Sa publication pourrait galvaniser davantage les autorités et les entreprises chinoises, dont des dizaines disent avoir commencé à intégrer les modèles DeepSeek dans leurs produits.
On sait peu de choses sur DeepSeek, dont le fondateur Liang Wenfeng est devenu milliardaire grâce à son fonds spéculatif quantitatif High-Flyer. Liang, qui a été décrit par un ancien employeur comme « discret et introverti », n’a pas parlé à aucun média depuis juillet 2024.

Reuters a interrogé une douzaine d’anciens employés, ainsi que des professionnels des fonds quantitatifs connaissant bien les opérations de DeepSeek et de sa société mère High-Flyer. Il a également examiné des articles de médias d’État, des publications sur les réseaux sociaux des entreprises et des documents de recherche remontant à 2019.

Ils ont raconté l’histoire d’une entreprise qui fonctionnait plus comme un laboratoire de recherche que comme une entreprise à but lucratif et qui n’était pas encombrée par les traditions hiérarchiques de l’industrie technologique chinoise sous haute pression, même si elle est devenue responsable de ce que de nombreux investisseurs considèrent comme la dernière percée en matière d’IA.

CHEMIN DIFFÉRENT

Liang est né en 1985 dans un village rural de la province méridionale du Guangdong. Il a ensuite obtenu des diplômes d’ingénierie de la communication à l’université d’élite du Zhejiang.

L’un de ses premiers emplois a été de diriger un département de recherche dans une entreprise d’imagerie intelligente à Shanghai. Son patron de l’époque, Zhou Chaoen, a déclaré aux médias d’État le 9 février que Liang avait embauché des ingénieurs en algorithmes primés et avait opéré avec un « style de gestion plat ».

Chez DeepSeek et High-Flyer, Liang a également évité les pratiques des géants chinois de la technologie connus pour leur gestion descendante rigide, leurs bas salaires pour les jeunes employés et le « 996 » – travailler de 9 heures à 21 heures, six jours par semaine.

Liang a ouvert son bureau de Pékin à quelques pas de l’Université Tsinghua et de l’Université de Pékin, les deux établissements d’enseignement les plus prestigieux de Chine.

Il se penchait régulièrement sur les détails techniques et était heureux de travailler aux côtés des stagiaires et des jeunes diplômés de la génération Z qui constituaient la majeure partie de son effectif, selon deux anciens employés. Ils ont également décrit le fait de travailler habituellement huit heures par jour dans une atmosphère collaborative.

« Liang nous a donné le contrôle et nous a traités comme des experts. Il posait constamment des questions et apprenait à nos côtés », a déclaré Benjamin Liu, un chercheur de 26 ans qui a quitté l’entreprise en septembre. « DeepSeek m’a permis de m’approprier des parties essentielles du pipeline, ce qui était très excitant. »

Liang n’a pas répondu aux questions envoyées via DeepSeek.

Alors que Baidu et d’autres géants chinois de la technologie s’efforçaient de créer leurs versions grand public de ChatGPT en 2023 et de profiter du boom mondial de l’IA, Liang a déclaré au média chinois Waves l’année dernière qu’il avait délibérément évité de dépenser massivement dans le développement d’applications, se concentrant plutôt sur l’amélioration de la qualité du modèle d’IA.

DeepSeek et High-Flyer sont tous deux connus pour payer généreusement, selon trois personnes familières avec ses pratiques de rémunération. Chez High-Flyer, il n’est pas rare qu’un data scientist senior gagne 1,5 million de yuans par an, alors que les concurrents paient rarement plus de 800 000 yuans, a déclaré l’une des personnes, un gestionnaire de fonds quantitatif rival qui connaît Liang.

Les largesses ont été financées par High-Flyer, qui est devenu l’un des fonds quantitatifs les plus prospères de Chine et, même après une répression gouvernementale contre le secteur, gère toujours des dizaines de milliards de yuans, selon deux personnes de l’industrie.

Partagez sur les réseaux sociaux

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.