我正在使用Azure数据工厂中的自托管集成运行时将数据从本地源(正常文件系统)复制到Azure Blob存储目标。传输后,我想通过附加在Databricks群集上运行的Notebook来自动处理文件。管道工作正常,但我的问题与“复制活动”的输出有关。
有没有一种方法可以获取有关每次运行的已传输文件和文件夹的信息?我会将这些信息作为参数传递给笔记本。
查看文档,似乎只有汇总信息可用:
https://docs.microsoft.com/zh-cn/azure/data-factory/copy-activity-overview
如果您传输大量文件,则哪种方式有意义。如果不可能的话,我想一种替代方法是将复制过程留给自己,然后根据存储帐户事件创建另一个管道?还是将每次运行的新文件和文件夹信息存储在固定的文本文件中,还进行传输并在笔记本中阅读?
在这种情况下,解决方案实际上非常简单。我刚刚在Azure数据工厂中创建了另一个管道,该管道由Blob Created事件触发,并将文件夹和文件名作为参数传递给我的笔记本。看起来工作良好,并且所需的配置或代码量最少。基本过滤可以通过事件来完成,其余的则取决于笔记本。
对于在此场景中遇到问题的其他任何人,以下详细信息:
https://docs.microsoft.com/zh-cn/azure/data-factory/how-to-create-event-trigger
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句