Articles

Guide détaillé avec exemples de code pour l'entraînement personnalisé de grands modèles linguistiques

Vous souhaitez entraîner des modèles linguistiques complexes ? Ce guide vous fournira des exemples de code et des instructions détaillées pour vous aider à atteindre vos objectifs.

H2: Dans les dernières années, les grands modèles linguistiques (LLMs) tels que GPT-4 ont suscité un grand intérêt en raison de leurs incroyables capacités en compréhension et en génération du langage naturel. Cependant, pour adapter un LLM à des tâches ou des domaines spécifiques, une formation personnalisée est nécessaire. Cet article propose un guide détaillé et étape par étape sur la formation personnalisée des LLMs, accompagné d’exemples et d’extraits de code. Prérequis

• A GPU-enabled machine with at least 8GB of RAM

• An understanding of basic ML concepts

• Familiarity with Python and TensorFlow

• Access to a large dataset

Ces dernières années, les grands modèles linguistiques (LLMs) tels que GPT-4 ont suscité un intérêt considérable en raison de leurs incroyables capacités en compréhension et en génération du langage naturel. Cependant, pour adapter un LLM à des tâches ou des domaines spécifiques, une formation personnalisée est nécessaire. Cet article propose un guide détaillé étape par étape sur la formation personnalisée des LLMs, accompagné d’exemples et d’extraits de code.

Prérequis

Avant de plonger, assurez-vous d’avoir :

• Une machine dotée d’une carte graphique et d’au moins 8 Go de RAM

• Une compréhension des concepts de base d’apprentissage machine

• De la familiarité avec Python et TensorFlow

• Un accès à une grande base de données

Mise en œuvre

Une fois les prérequis remplis, vous êtes prêt à commencer à former votre modèle. La première étape consiste à préparer votre base de données. Vous devrez peut-être nettoyer et normaliser vos données avant de les charger dans votre modèle. Une fois que vos données sont prêtes, vous pouvez les charger dans votre modèle. Vous pouvez le faire en utilisant TensorFlow ou un autre framework de deep learning. Une fois que vos données sont chargées, vous pouvez commencer à entraîner votre modèle. Vous pouvez le faire en utilisant des algorithmes d’apprentissage supervisé ou non supervisé. Lorsque vous entraînez votre modèle, vous devrez définir des paramètres tels que le nombre d’itérations, le taux d’apprentissage et le nombre de couches cachées. Vous devrez également définir des métriques pour mesurer la performance de votre modèle.

Une fois que votre modèle est entraîné, vous pouvez le tester sur des données réelles pour voir comment il se comporte. Vous pouvez également effectuer une validation croisée pour vérifier si votre modèle est capable de généraliser ses résultats sur des données différentes. Une fois que vous êtes satisfait des performances de votre modèle, vous pouvez le déployer pour l’utiliser dans un environnement réel. Vous pouvez le déployer sur un serveur ou un cloud public tel que Google Cloud Platform ou Amazon Web Services. Une fois déployé, votre modèle sera prêt à être utilisé par les utilisateurs finaux.

Enfin, vous devrez peut-être maintenir et mettre à jour votre modèle au fil du temps. Vous devrez peut-être ajouter de nouvelles données à votre base de données ou ajuster les paramètres de votre modèle pour améliorer ses performances. Vous devrez également surveiller les performances de votre modèle pour vous assurer qu’il fonctionne correctement et qu’il ne se dégrade pas avec le temps. Enfin, vous devrez peut-être effectuer une analyse des performances pour comprendre comment votre modèle est utilisé et pourquoi il fonctionne bien ou mal.

En résumé, la

Source de l’article sur DZONE

Ever since the Python programming language was born, its core philosophy has always been to maximize the readability and simplicity of code. In fact, the reach for readability and simplicity is so deep within Python’s root that, if you type import this in a Python console, it will recite a little poem:

    Beautiful is better than ugly. Explicit is better than implicit. Simple is better than complex. The complex is better than complicated. The flat is better than nested. Sparse is better than dense. Readability counts…

Simple is better than complex. Readability counts. No doubt, Python has indeed been quite successful at achieving these goals: it is by far the most friendly language to learn, and an average Python program is often 5 to 10 times shorter than equivalent C++ code. Unfortunately, there is a catch: Python’s simplicity comes at the cost of reduced performance. In fact, it is almost never surprising for a Python program to be 10 to 100 times slower than its C++ counterpart. It thus appears that there is a perpetual trade-off between speed and simplicity, and no programming language shall ever possess both.
But, don’t you worry, all hope is not lost.

Taichi: Best of Both Worlds

The Taichi Programming Language is an attempt to extend the Python programming language with constructs that enable general-purpose, high-performance computing. It is seamlessly embedded in Python, yet can summon every ounce of computing power in a machine — the multi-core CPU, and more importantly, the GPU.
We’ll show an example program written using taichi. The program uses the GPU to run a real-time physical simulation of a piece of cloth falling onto a sphere and simultaneously renders the result.
Writing a real-time GPU physics simulator is rarely an easy task, but the Taichi source code behind this program is surprisingly simple. The remainder of this article will walk you through the entire implementation, so you can get a taste of the functionalities that taichi provides, and just how powerful and friendly they are.
Before we begin, take a guess of how many lines of code this program consists of. You will find the answer at the end of the article.

Algorithmic Overview

Our program will model the piece of cloth as a mass-spring system. More specifically, we will represent the piece of cloth as an N by N grid of point-masses, where adjacent points are linked by springs. The following image, provided by Matthew Fisher, illustrates this structure:
The motion of this mass-spring system is affected by 4 factors:
  • Gravity
  • Internal forces of the springs
  • Damping
  • Collision with the red ball in the middle
For the simplicity of this blog, we ignore the self-collisions of the cloth. Our program begins at the time t = 0. Then, at each step of the simulation, it advances time by a small constant dt. The program estimates what happens to the system in this small period of time by evaluating the effect of each of the 4 factors above, and updates the position and velocity of each mass point at the end of the timestep. The updated positions of mass points are then used to update the image rendered on the screen.

Getting Started

Although Taichi is a programming language in its own right, it exists in the form of a Python package and can be installed by simply running pip install taichi.
To start using Taichi in a python program, import it under the alias ti:
import taichi as ti
The performance of a Taichi program is maximized if your machine has a CUDA-enabled Nvidia GPU. If this is the case, add the following line of code after the import: ti.init(arch=ti.cuda)

If you don’t have a CUDA GPU, Taichi can still interact with your GPU via other graphics APIs, such as ti.metal, ti.vulkan, and ti.opengl. However, Taichi’s support for these APIs is not as complete as its CUDA support, so, for now, use the CPU backend: ti.init(arch=ti.cpu)And don’t worry, Taichi is blazing fast even if it only runs on the CPU. Having initialized Taichi, we can start declaring the data structures used to describe the mass-spring cloth. We add the following lines of code:

Python

 

 N = 128 x = ti.Vector.field(3, float, (N, N)) v = ti.Vector.field(3, float, (N, N))

Source de l’article sur DZONE


Learn how to set up a GPU-enabled virtual server instance (VSI) on a Virtual Private Cloud (VPC) and deploy RAPIDS using IBM Schematics.

The GPU-enabled family of profiles provides on-demand, cost-effective access to NVIDIA GPUs. GPUs help to accelerate the processing time required for compute-intensive workloads, such as artificial intelligence (AI), machine learning, inferencing, and more. To use the GPUs, you need the appropriate toolchain – such as CUDA (an acronym for Compute Unified Device Architecture) – ready.

Let’s start with a simple question.

Source de l’article sur DZONE

Alors que le confinement – mis en place pour ne par faire de nouvelles victimes – se poursuit, le terme Folding @ home fait le tour des cercles scientifiques.

Il ne s’agit pas d’une nouvelle façon de s’attaquer à cette « pile de linge » qui semble grossir de semaine en semaine ; c’est une approche technologique fascinante pour aider les scientifiques à découvrir un remède contre le COVID-19.

Selon les scientifiques, les protéines sont constituées d’une chaîne linéaire de substances chimiques – les acides aminés – qui, si elles sont efficaces, se « plient » en structures compactes et fonctionnelles. La façon dont les composants d’une protéine s’arrangent et se déplacent détermine sa fonction. Les virus ont également des protéines, qui sont utilisées pour supprimer notre système immunitaire et se reproduire.

Pour aider à lutter contre le coronavirus, les scientifiques et les médecins doivent comprendre comment la protéine virale fonctionne, ou «se replie», s’ils veulent trouver des moyens de l’arrêter.

C’est là que le Big Data rencontre l’épidémiologie. En exécutant des simulations informatiques qui les aident à comprendre les parties mobiles des protéines, les chercheurs pensent que les données qu’ils collectent les rapprocheront d’un remède.

«Il n’y a jamais eu plus d’experts réunis pour se concentrer sur un seul et même sujet», déclare Michael Schmidt, architecte de Converged Cloud chez SAP.

Cependant, l’exécution des innombrables simulations nécessaires requiert une puissance de calcul énorme. C’est là que les entreprises et le grand public entrent en jeu. Le don de la puissance de calcul inutilisée peut accélérer la vitesse d’exécution de ces simulations, ce qui peut nous rapprocher d’un remède.

Big Data Meets Epidemiology

Click the button below to load the content from YouTube.

Big Data Meets Epidemiology

 

L’initiative a eu un grand coup de pouce lorsque NVIDIA a lancé un appel aux joueurs du monde entier, leur demandant de rejoindre le combat.

« Les ordinateurs de jeu sont des machines extrêmement puissantes », explique M. Schmidt. Avant cette crise, les joueurs utilisaient souvent leur capacité de réserve pour « miner » des cryptomonnaies et gagner un peu d’argent en parallèle. Mais maintenant, ils font don de la puissance de leur unité de traitement graphique (GPU) à la science ».

SAP s’est joint à cet effort. Pour que cela démarre rapidement, l’équipe DevOps de Schmidt a automatisé sa contribution en capacité, en augmentant la capacité de calcul de réserve existante. Cette capacité est située sur la plateforme d’édition d’entreprise convergente en nuage de la société, la même plateforme qui héberge un grand nombre de clients de SAP. Lorsque la crise COVID-19 a frappé, l’équipe a envisagé d’utiliser cette première mise en œuvre pour programmer et faire évoluer dynamiquement une unité centrale de traitement (CPU) et un GPU Folding@home à partir de la plateforme, en les augmentant lorsque les systèmes sont inactifs et en les réduisant lorsque d’autres charges utiles en ont besoin.

«L’une des choses que notre cloud fait vraiment bien est de répartir la charge sur les nombreux ordinateurs que nous avons dans nos centres de données», explique Schmidt. «Nous pouvons mesurer en temps réel la pression que nous mettons dans le système et réduire automatiquement la capacité que nous accordons à Folding @ home si nécessaire, en nous assurant vraiment qu’aucune charge utile productive n’est affectée.»

De plus, comme SAP maintient toujours une capacité de réserve pour ses clients, quelques nœuds GPU de rechange ont été ajoutés au projet. Bien que ces serveurs dédiés soient peu nombreux, ils peuvent calculer des unités de travail étendues qui donnent une très grande puissance de traitement pour des charges de travail très lourdes. L’équipe a ensuite augmenté sa contribution au projet Folding@home, en fournissant une moyenne de 19 pétaflops – ce qui équivaut à environ 50 000 CPU et GPU supplémentaires par rapport à sa capacité de réserve normale dans le cloud.

La charge de travail est répartie sur trois continents et neuf régions. L’équipe SAP se classe actuellement parmi les 200 premiers contributeurs, plus que les autres entreprises de logiciels. M. Schmidt se dit ravi des résultats, mais se souvient qu’il ne s’agit pas vraiment d’une compétition. « Nous sommes tous dans le même bateau, et je suis heureux que les autres entreprises donnent aussi beaucoup ».

En savoir plus sur l’objectif et la promesse de SAP: https://www.sap.com/corporate/en/purpose.html

Article publié pour la première fois en anglais sur news.sap.com

The post Quand le Big Data rencontre l’épidémiologie appeared first on SAP France News.

Source de l’article sur sap.com

It’s a famous fact that bitcoin mining hardware has changed by leaps and bounds lately due to the growth of new central processing units in the marketplace. The new machines may conduct Bitcoin processing at a faster rate when compared with the computers of yesteryear.

Furthermore, they consume less power. Field programming team array processors are connected with CPUs to boost their computing power. While selecting hardware for Bitcoin processing, ensure it includes a large hash rate that would deliver spectacular results to your users. According to experts, the rate of data processing is measured in mega hash rates each second, or GIGA hash speeds per second.

Source de l’article sur DZONE