-
pyspark读取mongodb需要的配置及注意事项
MongodDB中的数据量太多了,打算将数据从Mongodb中被分到HDFS中,按平常的处理方法,至少是可以通过pymongo读取mongodb中的数据,然后把这些数据转成pandas dataframe 或者 spark dataframe,然后再写入HDFS的,但今天尝试了下直接通过spark连接MongoDB的处理方式。这里需要mongo-spark-connect,这是第三方插件提供的,所以需要经过如下配置才可以实现</p>
Date: 2020-01-05 View: 1520