Configurar mi entorno de trabajo en AZML - utec-curso-mlops-tecnico/introduction-to-dvc GitHub Wiki

Step 1: Ingresar a nuestra cuenta de Azure

Portal Azure: https://azure.microsoft.com/es-es/get-started/azure-portal

Step 2: Pre requisitos e infraestructura:

  • Servicio de Azure Machine Learning

  • Servicio de Azure Storage Account:

    • Crear Storage Account staccuteccud01 (usando la CLI de Azure):
az storage account create \
    --name <nombre-storage-account> \
    --resource-group <nombre-resource-group> \
    --location centralus \
    --sku Standard_LRS
    • Crear Container data (usando la CLI de Azure):
az storage container create \
    --name <nombre-container> \
    --account-name <nombre-storage-account>
    • Mostrar cadena de conexión de storage account:
az storage account show-connection-string \
    --name staccuteccud01 \
    --resource-group rguteccud01

Step 3: Identificar e iniciar nuestro Workspace de Azure ML

Importante: Para crear un workspace de azure ML, puedes ejecutar el siguiente comando desde Azure CLI az ....

Step 4: Clonar el proyecto introduction-to-dvc

Step 5: Instalar algunas dependencias iniciales:

  1. Crear el entorno conda usando el archivo environment.yml: conda env create -f environment.yml
  2. Activar el entorno: conda activate dvc-azureml
  3. Iniciar DVC: dvc init -f

En caso tengas un ERROR: unexpected error ... is not owned by current user

Para superarlo, ejecutar lo siguiente:

  • Identificar el propietario actual: whoami

  • Añadir el directorio como seguro en la configuración global de git git config --global --add safe.directory '*'

  • Cambiar el propietario del directorio (ajusta el nombre de usuario según el resultado de whoami y el directorio del proyecto) sudo chown -R <propietario>:<propietario> /home/<propietario>/cloudfiles/code/Users/<directorio>/introduction-to-dvc

  1. Establecer almacenamiento remoto donde DVC guardará los datos versionados: dvc remote add -d azureremote azure://<container-name>/dvc-store

Step 6: Demostremos un flujo básico con DVC

  • Añadir datos a DVC: dvc add data/in/application_data.csv
  • Commitear los cambios en Git

git add data/in/application_data.csv.dvc .gitignore

git commit -m "Add raw data tracked by DVC"

De ser necesario ejecutar git config --global user.email "[email protected]" cambiar la cuenta de usuario

  • Crear variable de entorno export AZURE_STORAGE_CONNECTION_STRING="<pega-aquí-la-connection-string-completa>"
  • Subir datos al remote: dvc push

Ahora, los datos están seguros en Azure Blob Storage (revisemos por el portal)

Step 7: Simulemos un escenario de recuperación de datos

⚠️ **GitHub.com Fallback** ⚠️