
Si te estás introduciendo en este mundo del Data Science, estoy seguro de que te has cruzado con Pandas. En este post vas a aprender todo lo que necesitas saber para poder desenvolverte bien con esta librería de Python.
Qué es Pandas
Pandas es una librería de Python, pensada para el análisis y la manipulación de datos. Dejo por aquí el enlace a la documentación.
Qué es un DataFrame
Básicamente un DataFrame es la unidad con la que trabaja Pandas. Supongo que habrá usado Excel alguna vez. Sabes que Excel trabaja con tablas de datos, pues un DataFrame es exactamente una tabla en la que puedes tener el mismo contenido que en un Excel. La gran ventaja de Pandas es que te permite sacarle todo el partido desde Python, por lo que no tienes las limitaciones de Excel.
Empezando a trabajar con Pandas
Instalar Pandas
Para instalar Pandas, antes necesitas tener instalado Python en tu ordenador. Te dejo por aquí un enlace a cómo instalar Anaconda para que no tengas ningún problema.
Una vez tenemos Python instalado, es tan sencillo como utilizar pip.
pip install pandas
Importar Pandas
Para poder utilizarlo en nuestro código, sólo tienes que importarlo. El estándar en el mundillo es ponerle el alias de pd.
import pandas as pd
Funciones básicas
Te he dicho que Pandas es la librería utilizada por defecto para trabajar con datos, ahora te explicaré las funciones típicas que seguramente vayas a utilizar en todos tus proyectos.
Leer un archivo csv
Lo más normal es utilizar Pandas para leer archivos que han sido almacenados en csv. Estos archivos suelen estar almacenados en local, en tu ordenador. Por lo que sólo tendremos que utilizar el método .read_csv y especificar la ruta donde se encuentra el archivo. También puedes poner una URL.
df = pd.read_csv(ruta_al_archivo)
Tamaño de un DataFrame
Una vez tenemos cargado el archivo, seguramente quieras saber cuál es su tamaño, es decir, cuántas filas y columnas tiene. Para esto utilizamos .shape.
print(df.shape)
Esto imprimirá algo del formato: (numero_filas, numero_columnas).
Describir el DataFrame
Una vez tienes tus datos cargados, es muy importante verlos y analizarlos. Hay 3 métodos que es indispensable que conozcas.
- head – Si solo quieres ver los primeros X registros de tu DataFrame. Por defecto se ven las primeras 5 filas, si quieres un número diferente puedes pasarlo como parámetro.
print(df.head()) # df.head(10) para ver los primeros 10 registros
- tail – Es como el anterior pero para ver últimos X registros.
print(df.tail()) # df.tail(10) para ver los últimos 10 registros
- describe – Cuando quieras ver valores estadísticos de tus variables como la desviación estándar, media, número de registros, valores máximo y mínimo y percentiles.
print(df.describe())
Ordenar DataFrame
En muchas ocasiones, vas a querer ver tu DataFrame ordenado en función de una variable, eso se puede hacer de forma sencilla con el método sort_values.
print(df.sort_values('edad', ascending=False))
Seleccionar (Extraer) columnas en un DataFrame
Para ver la lista de columnas que hay en un DataFrame, sólo hay que utilizar el atributo columns.
print(df.columns)
Accediendo a datos en un DataFrame
Si quieres acceder a algún elemento específico de tu conjunto de datos, hay varias formas de hacerlo:
- Método loc – Para acceder utilizando el nombre de la columna:
print(df.loc['edad'])
- Método iloc – Accede utilizando el índice, es decir la posición dentro del DataFrame.
print(df.iloc[0])
- Método iat – Para acceder a un sólo elemento del DataFrame.
print(df.iat[0, 0])
- Método at – Para acceder a un sólo elemento del DataFrame utilizando la posición y el nombre de la columna.
print(df.at[0, 'edad'])
Exportar csv
Una vez hemos terminado de editar nuestro DataFrame, puede que queramos mantener el estado de todo lo que hemos hecho, para esto, almacenamos nuestros datos en un archivo .csv.
df.to_csv('archivo.csv', sep=';')
Conclusiones
En esta artículo has aprendido lo que es Pandas y cómo empezar a utilizarlo. Espero que te haya parecido útil y que puedas trabajar ya con esta increíble librería. Si tienes cualquier duda, déjala en los comentarios.
!Muchas gracias por haberte pasado por aquí¡