BigQueryにアップロードするための構造体と配列構造を使用したPandasデータフレームのJSONへの変換

swygerts

私は列を持つデータフレームからのデータがあるとidtitlecategorysubcategoryと、sub-subcategoryそのルックスは次のように:

_________________________________________________________________
| id | title        | cat          |  subcat     |    subsubcat |
|____|______________|______________|_____________|______________|
| 1  | My Book      | cat1         |  subcat1    |  subsubcat1  |
| 1  | My Book      | cat2         |  subcat2    |  subsubcat2  |
| 2  | My Other Book| othercat1    | othersubcat1| othersubcat1 |
| 2  | My Other Book| othercat2    | othersubcat2|       null   |
| 2  | My Other Book| othercat3    |     null    |       null   |
|_______________________________________________________________|

これを次のような構造を持つ(改行で区切られた)jsonに変換したいと思います。

[
{
 'id' : '1',
 'title' : 'My Book',
 'categoryHiearchies': [
      {'categories': ['category1', 'subcategory1', 'sub-subcategory1']},
      {'categories': ['category2', 'subcategory2', 'sub-subcategory2']}

   ]
},
{
 'id' : '2',
 'title' : 'My Other Book',
 'categoryHiearchies': [
      {'categories': ['othercategory1', 'othersubcategory1', 'othersub-subcategory1']},
      {'categories': ['othercategory2', 'othersubcategory2']},
      {'categories': ['othercategory3']},
   ]
}
]

BigQueryに適切にアップロードするため。

この変換を適用する方法について何かアイデアはありますか?

クアンホアン

値が次のようになっnullいると仮定しNanます。

(df.set_index(['id','title'],append=True).stack()
   .groupby(level=[0,1,2]).agg(lambda x: {'categories':list(x)})
   .groupby(level=[1,2]).agg(list)
   .reset_index(name='categoryHiearchies')
   .to_json(orient='records', indent=2)   
)

これは

[
  {
    "id":1,
    "title":"My Book",
    "categoryHiearchies":[
      {
        "categories":[
          "cat1",
          "subcat1",
          "subsubcat1"
        ]
      },
      {
        "categories":[
          "cat2",
          "subcat2",
          "subsubcat2"
        ]
      }
    ]
  },
  {
    "id":2,
    "title":"My Other Book",
    "categoryHiearchies":[
      {
        "categories":[
          "othercat1",
          "othersubcat1",
          "othersubcat1"
        ]
      },
      {
        "categories":[
          "othercat2",
          "othersubcat2"
        ]
      },
      {
        "categories":[
          "othercat3"
        ]
      }
    ]
  }
]

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集
0

コメントを追加

0

関連記事

TOP 一覧

  1. 1

    グラフからテーブルに条件付き書式を適用するにはどうすればよいですか?

  2. 2

    ソートされた検索、ターゲット値未満の数をカウント

  3. 3

    Unity:未知のスクリプトをGameObject(カスタムエディター)に動的にアタッチする方法

  4. 4

    セレンのモデルダイアログからテキストを抽出するにはどうすればよいですか?

  5. 5

    Ansibleで複数行のシェルスクリプトを実行する方法

  6. 6

    Reactでclsxを使用する方法

  7. 7

    tkinterウィンドウを閉じてもPythonプログラムが終了しない

  8. 8

    Windows 10 Pro 1709を1803、1809、または1903に更新しますか?

  9. 9

    Pythonを使用して同じ列の同じ値の間の時差を取得する方法

  10. 10

    PowerShellの分割ファイルへのヘッダーの追加

  11. 11

    Chromeウェブアプリのウェブビューの高さの問題

  12. 12

    BLOBストレージからデータを読み取り、Azure関数アプリを使用してデータにアクセスする方法

  13. 13

    Crashlytics:コンパイラー生成とはどういう意味ですか?

  14. 14

    GoDaddyでのCKEditorとKCfinderの画像プレビュー

  15. 15

    Windows 10の起動時間:以前は20秒でしたが、現在は6〜8倍になっています

  16. 16

    MLでのデータ前処理の背後にある直感

  17. 17

    モーダルダイアログを自動的に閉じる-サーバーコードが完了したら、Googleスプレッドシートのダイアログを閉じます

  18. 18

    reCAPTCHA-エラーコード:ユーザーの応答を検証するときの「missing-input-response」、「missing-input-secret」(POSTの詳細がない)

  19. 19

    STSでループプロセス「クラスパス通知の送信」のループを停止する方法

  20. 20

    ファイル内の2つのマーカー間のテキストを、別のファイルのテキストのセクションに置き換えるにはどうすればよいですか?

  21. 21

    ネットワークグラフで、ネットワークコンポーネントにカーソルを合わせたときに、それらを強調表示するにはどうすればよいですか?

ホットタグ

アーカイブ