Вопрос для собеседования JLL Pyspark: узнайте о трёх лучших местах выдачи заказов
Автор: Cloud Challengers
Загружено: 2024-06-01
Просмотров: 4062
Один из вопросов, недавно заданных на собеседовании в Pyspark на собеседовании JLL:
Нам нужно получить топ-3 пунктов самовывоза.
Давайте посмотрим, как этого добиться, используя GroupBy по количеству и лимиту.
Упоминание деталей фрейма данных здесь
from pyspark.sql.types import StructType, StructField, StringType, IntegerType
Определить схему
schema = StructType([
StructField("reqid", IntegerType(), True),
StructField("pickup_location", StringType(), True)
])
Создать фрейм данных с заданной схемой
data = [(48, "Airport"), (49, "Office"),(50, "Hospital"),(51, "Airport"),(52, "Hospital"),(53, "Shoppingmall"),(54, "Office"),(55, "Hospital"),(56, "Hospital")]
pickup_df = spark.createDataFrame(data, schema)
pickup_df.display()
Ещё больше вопросов для собеседования по Azure Data Bricks можно найти в нашем плейлисте.
• DataBricks and PySpark Interview Questions
Свяжитесь с нами:
[email protected]
Подпишитесь на нас в
Instagram: instagram.com/cloudchallengers
Facebook: facebook.com/cloudchallengers
LinkedIn: linkedin.com/company/cloudchallengers
Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: