Les pandas
et DataFrame.to_parquet
de Python sont si bons que" Python est le moyen de gérer les fichiers parquet "
https://pandas.pydata.org/pandas-docs/version/0.22.0/generated/pandas.DataFrame.to_parquet.html#pandas.DataFrame.to_parquet
Je l'ai trouvé facile à faire avec Ruby, je vais donc le partager.
Vous pouvez utiliser la gemme officielle Apache. (Notez que ≠ flèche rouge) https://github.com/apache/arrow/tree/master/ruby/red-parquet
installation de gemmes
$ gem install red-parquet
Créer un fichier de test (csv)
$ echo colA,colB > test.csv
$ echo 1,2 >> test.csv
Processus de conversion sur rubis (csv-> parquet)
$ irb
irb(main):001:0> require "parquet"
=> true
irb(main):002:0> table = Arrow::Table.load("./test.csv")
=> #<Arrow::Table:0x7fbb0d3e6708 ptr=0x7fbb0e0a4010>
colA colB
0 1 2
irb(main):003:0> table.save("./test.parquet")
=> true
Élevez test.parquet à S3 et vérifiez avec S3 Select
l'a fait! !! (Il fait également l'inférence de type ...!)
Si vous lisez cette zone, il semble que vous puissiez exploiter des fichiers même avec Ruby de manière inattendue. https://www.slideshare.net/kou/datasciencerb