Renommer l’index DataFrame Pandas Solution: Les rename la méthode prend un dictionnaire pour l’index qui s’applique
Comment diviser une colonne de chaîne de données en deux colonnes ? Solution: TL ; version DR : Pour le cas simple de : J’ai une
Plusieurs ensembles d’enregistrements en double à partir d’un cadre de données de pandas Solution: Est-ce ce dont vous avez besoin ? duplicated+groupby (df.loc[df[‘flight_id’].duplicated(keep=False)].reset_index()).groupby(‘flight_id’)[‘index’].apply(tuple) Out[510]: flight_id
Marquage de l’ensemble du groupe si la condition est vraie pour une seule ligne Solution: Pour améliorer les performances, ne pas utiliser groupby, plutôt obtenir tout
Comment groupby().transform() en value_counts() dans les pandas ? Solution: Vous pourriez utiliser groupby + transform avec value_counts et idxmax. df[‘Most_Common_Price’]
Python Pandas : attribuez la dernière valeur du groupe DataFrame à toutes les entrées de ce groupe Solution: Utilisation transform avec last: df[‘b_new’] = df.groupby(‘a’)[‘b’].transform(‘last’) Alternative: df[‘b_new’] = df.groupby(‘a’)[‘b’].transform(lambda
Recoupez les décomptes entre les paires de mots-clés par groupe avec des pandas Solution: Utilisation crosstab et dot. Vous pouvez alors utiliser np.triu pour ne
Pandas Dataframe : Remplacement de NaN par la moyenne des lignes Solution: Comme indiqué, l’argument d’axe de fillna est NotImplemented. df.fillna(df.mean(axis=1), axis=1) Remarque :
Insérer au hasard des NA dans la trame de données proportionnellement Solution: df <- data.frame(A = 1:10, B = 11:20, c = 21:30)
R sélectionner toutes les lignes d’un bloc de données qui n’apparaissent pas dans un autre Solution: Voici une autre façon : x <- rbind(test2, test) x[! duplicated(x,
Existe-t-il un moyen de copier uniquement la structure (pas les données) d’un DataFrame Pandas ? Solution: C’est un travail pour reindex_like. Commencez par l’original : df1 =
Pandas Python : remplissez une trame de données ligne par ligne Solution: df[‘y’] définira une colonne puisque vous voulez définir une ligne, utilisez
Utilisation de grep dans R pour supprimer des lignes d’un data.frame Solution: Vous pouvez utiliser le sous-réglage TRUE/FALSE au lieu de numérique. grepl
Spark : création par programme d’un schéma de trame de données dans scala Solution: val rdd = sc.parallelize(Array(Row(ArrayBuffer(1,2,3,4)))) val df = sqlContext.createDataFrame( rdd, StructType(Seq(StructField(“arr”, ArrayType(IntegerType,
pandas – comment accéder à la cellule dans les pandas, équivalent de df[3,4] en R Solution: Vous pouvez utiliser iloc (pour vous en sortir position): df.iloc[3,4] Je
Pandas : transformer une table dbf en dataframe Solution: Vous devriez jeter un oeil à simpledbf : In [2]: import
Convertir les données texte d’un objet de requête en dataframe avec des pandas Solution: Essaye ça import requests import pandas as pd import io urlData
Diviser la colonne de chaîne de trame de données en plusieurs colonnes Solution: Utilisation stringr::str_split_fixed library(stringr) str_split_fixed(before$type, “_and_”, 2) Une autre option consiste à
Agréger plusieurs lignes du même data.frame dans R en fonction des valeurs communes dans des colonnes données Solution: aggregate(value ~ item + size + weight, FUN = mean, data=df)
Pandas : chaîne de requête où le nom de la colonne contient des caractères spéciaux Solution: Pour les intéressés, voici une procédure simple que j’ai utilisée pour
Spark Dataframe :Comment ajouter une colonne d’index : Aka Distributed Data Index [*]import org.apache.spark.sql.functions._ df.withColumn(“id”,monotonicallyIncreasingId) Solution: Avec Scala, vous pouvez utiliser : [*]import org.apache.spark.sql.functions._
Inverser un encodage get_dummies dans les pandas Solution: set_index + stack, la pile sera supprimée par défaut df.set_index(‘ID’,inplace=True) df[df==1].stack().reset_index().drop(0,1)
Comment exporter un dataframe de table dans PySpark vers csv ? Solution: Si le cadre de données tient dans une mémoire de pilote
Convertir une liste de dictionnaires en pandas DataFrame Solution: Supposant d est votre liste de dicts, simplement : df = pd.DataFrame(d)
Réorganisation des colonnes dans le cadre de données pandas en fonction du nom de la colonne Solution: df = df.reindex(sorted(df.columns), axis=1) Cela suppose que le tri des noms
Ajouter des données au fichier HDF5 avec Pandas, Python Solution: pandas.HDFStore.put() a un paramètre append (qui par défaut est False) –
Conversion d’un cadre de données Spark en une collection Scala Map Solution: Je ne pense pas que votre question ait du sens –