Configurar mi entorno de trabajo en AZML - utec-curso-mlops-tecnico/introduction-to-dvc GitHub Wiki
Portal Azure: https://azure.microsoft.com/es-es/get-started/azure-portal
-
Servicio de Azure Machine Learning
-
Servicio de Azure Storage Account:
- Crear Storage Account staccuteccud01 (usando la CLI de Azure):
az storage account create \
--name <nombre-storage-account> \
--resource-group <nombre-resource-group> \
--location centralus \
--sku Standard_LRS
-
- Crear Container data (usando la CLI de Azure):
az storage container create \
--name <nombre-container> \
--account-name <nombre-storage-account>
-
- Mostrar cadena de conexión de storage account:
az storage account show-connection-string \
--name staccuteccud01 \
--resource-group rguteccud01
Importante: Para crear un workspace de azure ML, puedes ejecutar el siguiente comando desde Azure CLI az ....
Step 4: Clonar el proyecto introduction-to-dvc
- Crear el entorno conda usando el archivo environment.yml:
conda env create -f environment.yml - Activar el entorno:
conda activate dvc-azureml - Iniciar DVC:
dvc init -f
En caso tengas un ERROR: unexpected error ... is not owned by current user
Para superarlo, ejecutar lo siguiente:
-
Identificar el propietario actual:
whoami -
Añadir el directorio como seguro en la configuración global de git
git config --global --add safe.directory '*' -
Cambiar el propietario del directorio (ajusta el nombre de usuario según el resultado de whoami y el directorio del proyecto)
sudo chown -R <propietario>:<propietario> /home/<propietario>/cloudfiles/code/Users/<directorio>/introduction-to-dvc
- Establecer almacenamiento remoto donde DVC guardará los datos versionados:
dvc remote add -d azureremote azure://<container-name>/dvc-store
- Añadir datos a DVC:
dvc add data/in/application_data.csv - Commitear los cambios en Git
git add data/in/application_data.csv.dvc .gitignore
git commit -m "Add raw data tracked by DVC"
De ser necesario ejecutar git config --global user.email "[email protected]" cambiar la cuenta de usuario
- Crear variable de entorno
export AZURE_STORAGE_CONNECTION_STRING="<pega-aquí-la-connection-string-completa>" - Subir datos al remote:
dvc push
Ahora, los datos están seguros en Azure Blob Storage (revisemos por el portal)