ETL Gone Portable: Reducing Cloud Vendor Lock-in

Why portability matters? In this ever fast developing technological world there are an overwhelming amount of technologies that can be used for storing, transforming and querying your data. Depending on your internal strategy, you might either decide to keep all your infrastructure on-premise coping with the maintenance costs or opt for a more streamlined solution to embrace the cloud and select one (or more) cloud provider to host your IT needs. The quest starts here.

Typically one of the questions we get from our customers is: does cloud provider selection matter? As any good consultant, our answer is usually „it depends“. Costs are different, the interfaces and API’s are different, and more importantly, the available toolsets and related maturity are also different. Selecting a cloud provider will usually end up in a compromise between cost and technology.

Now, specifically for ETL-type workloads, you usually need one or more places to read and write your data to, a piece of technology where you can code your data pipelines and an API where you can query and/or make your data available to other external consumers (e.g. a database or similar). Cloud providers offer all of the above; using some of the tools available on Google Cloud Platform (GCP) and Amazon Web Services (AWS) as examples:

GCP: Google Cloud Storage + Google Dataflow + Google BiqQuery
AWS: S3 + Glue + Redshift

All these technologies have their strengths and weaknesses, and they do what they are intended to do very well, but what happens if you implement your whole ETL pipeline using these tools and then decide to either move away from the cloud or swap provider?

Portability vs. Performance (and how it affects vendor lock-in)

One can argue that there is not always a need for portability, and that is very true. This whole blog post might not even make sense if you’re sure that you’re going to stay strictly within the remit of a single cloud provider. However, larger enterprises that operate in a multitude of countries typically face the challenge that a single cloud provider doesn’t operate in all the countries required (think banks or financial institutions that need to load/transform data in regulated countries where the data cannot leave the host country). From our experience implementing ETL projects, there are usually two main scenarios (which are actually not mutually exclusive):

The ETL pipelines are very simple and operate over moderately sized datasets (let’s assume datasets that range from high megabytes to low gigabytes in size in this scenario), and there is no need to use any type of elastic compute technology. This typically equates to circa 60–85% of the usual use cases.
The ETL pipelines are very complex, operate over very large datasets (high gigabyte and beyond) and require the processing technology to be able scale in order to compute results in an effective time. These usually account for the remaining 15–40% of the use cases.

The first scenario is by far the most common one, and this is a good thing. The fact that most ETL pipeline tasks are typically „simple“ means that you might be able to avoid using technologies that would quickly lock you in to a particular storage and/or compute technology. Scenario 2 is usually when things get trickier (and more fun!).

In a scenario where you need the underlying technology to scale up with the datasets, you need to start making some choices and compromising on technology. Fortunately these days there are a lot of tools on this spectrum, and cloud providers typically focus on maintaining and investing in a small number of them. For GCP, you might consider using DataFlow, DataProc and BigQuery to process your data while on AWS you can consider Athena, EMR and Redshift.

Regardless of the tool selection or the cloud provider, there will always be a need to orchestrate how these processes glue together to implement your data pipelines. This is where a tool like Pentaho Data Integration can help regardless of the technological choice.

How can a tool like Pentaho Data Integration help?

For anyone not aware, Pentaho Data Integration (PDI) by Hitachi Vantara is an open-source ETL tool that you can use to implement all your common ETL tasks. Fortunately, it can also help with cloud execution and orchestration scenarios with some of its internal features:

It has its own transformation engine that you can use to process data independently of the cloud provider.
It can abstract the underlying storage system using the Virtual File System (VFS) concept.
It can interact with other external technologies, such as Google BigQuery or Redshift, for example, in order to orchestrate other parts of the processing pipeline.

So, how can you do this?

Abstracting the underlying storage layer

PDI offers a very useful VFS functionality which is built on top of the Apache VFS project in order to abstract file system access. What this means is that for every process that requires reading and/or writing into a filesystem, you can implement it without having to think about the type of filesystem that is being used; whether it is a local filesystem, a remote SFTP server, Google Cloud Storage or S3, ETL transformations correctly implemented using the VFS will seamlessly work with all of them. How does this work?

Very easy! The VFS notation requires you to specify a prefix to your filesystem that will enable you to specify a path such as:
filesystem://path/to/file.txt

Which means that if, in your ETL pipeline you need to access a file or files that exist in a path denominated „/input-data/sales/“ you can use the following functionality to express the path:

file:///input-data/sales/
s3://bucket-name/input-data/sales/
gs://bucket-name/input-data/sales/

In a nutshell, what this means is that you can write highly portable code that can operate under a filesystem independently of the storage type! Great, so what else can we do to maintain some portability?

An external portable engine to execute ETL on

As we stated previously, PDI bundles its own execution engine, and since it’s based on Java, you can run it wherever the JVM runs, which means that you can implement your ETL processes without having to think about the underlying technology – which makes it highly portable across environments. You can code it once and deploy it everywhere the engine runs.

What this means is that for simple ETL pipelines, you can achieve a very portable design with PDI which will allow you to move across environments very easily, let’s see an example:

You start by designing and testing your ETL on premise with your own servers and local filesystem, where PDI is hosted in its own VM or dedicated server.
You decide you want to move to AWS: you parametrise the ETL in order to use AWS S3 as the file system and deploy PDI in its own EC2 instance.
You are required to use Google Cloud Platform because you need it to operate in a very specific region: you parametrise the ETL to use GCS as the filesystem and deploy PDI in its own Google Compute instance.

Of course, this is still a very limited view of what you can achieve in a cloud platform, but it does give you 100% portability and ease of transportation of your ETL environment. For more complex scenarios, PDI gives you options to either scale out or connect to other external tools:

You can use a farm of Carte servers to horizontally scale your execution, either to split or cluster the processing
You can implement your data transformations using Map/Reduce
You can use AEL to scale out your data processing using Spark
You can connect to tools like Google BigQuery and/or Redshift after loading the data to do further processing

These more complex scenarios add in the additional fact that you must be able to easily orchestrate the pipeline to avoid getting into an implementation tangle.

Orchestrating the data pipeline

Although, as stated in the beginning of this blog post, there are typically two types of ETL pipeline scenarios, in reality they usually come together to form the overall ETL processing pipeline. In the scenario where (some) portability between cloud providers is desired, it is crucial that you have a tool at your disposal that is highly flexible and parameterisable in order to be able to dynamically adapt to the execution requirements.

For example, if you have your AWS implementation utilizing S3 and Redshift and want to move to GCP:

The code for file manipulation and processing that purely utilizes S3 is 100% portable if implemented correctly using the VFS capabilities.
The code that loads and operates Redshift will most likely not be portable, but it can be implemented in a way that can be substituted by a Google BigQuery implementation that uses the same input file layouts and table structure to achieve the same functionality.

Of course this situation will require you to maintain code modules that are specific to each cloud provider, but at least you can compartmentalise and encapsulate this functionality in a way that you can easily swap them if required. With PDI, the job orchestration functionality allows you to not only parameterise settings but also the actual execution pipeline, which would make this situation extremely easy to implement.

Conclusion

We hope this blog post was enlightening on how you can design your ETL pipelines and maintain some portability across cloud vendors. Tools like Pentaho Data Integration make your life much easier in achieving this and, we hear that the upcoming versions of PDI will further ease portability with some cool new features!

André Simões

Business Intelligence & Big Data Evangelist, Xpand IT

André Simões

Cookie	Dauer	Beschreibung
_GRECAPTCHA	5 Monate 27 Tage	Wird von Google reCAPTCHA verwendet, um unsere Website vor Spam-Anfragen in Kontaktformularen zu schützen.
_icl_visitor_lang_js	1 Tag	Wird vom WordPress-Plugin WPML verwendet. Der Zweck des Cookies ist, die weitergeleitete Sprache zu speichern.
cli_user_preference	1 Jahr	Dieses Cookie wird vom GDPR Cookie Consent-Plugin gesetzt und dient dazu zu speichern, ob der Nutzer der Verwendung von Cookies zugestimmt hat oder nicht. Es speichert keine persönlichen Daten.
cookielawinfo-checkbox-[CATEGORY]	11 Monate	Dieses Cookie wird vom GDPR Cookie Consent-Plugin verwendet, um die Zustimmung des Benutzers zu den Cookies in der [CATEGORY] aufzuzeichnen.
CookieLawInfoConsent	1 jahr	CookieYes setzt dieses Cookie, um den Standardzustand der entsprechenden Kategorie und den Status von CCPA aufzuzeichnen. Es funktioniert nur in Verbindung mit dem Haupt-Cookie.
PHPSESSID	session	Wird bei nativen PHP-Anwendungen verwendet. Das Cookie wird verwendet, um die eindeutige Sitzungs-ID eines Benutzers zu speichern und zu identifizieren, um die Benutzersitzung auf der Website zu verwalten. Das Cookie ist ein Sitzungscookie und wird gelöscht, wenn alle Browserfenster geschlossen werden.
viewed_cookie_policy	11 Monate	Wird vom GDPR Cookie Consent Plugin verwendet, um zu speichern, ob der Nutzer der Verwendung von Cookies zugestimmt hat oder nicht. Es werden keine persönlichen Daten gespeichert.
viewed_cookies_policy	11 Monate	Wird vom GDPR Cookie Consent Plugin verwendet, um zu speichern, ob der Nutzer der Verwendung von Cookies zugestimmt hat oder nicht. Es werden keine persönlichen Daten gespeichert.
wpml_browser_redirect_test	session	Wird vom WPML-WordPress-Plugin verwendet und dient dazu, zu testen, ob Cookies im Browser aktiviert sind.

Cookie	Dauer	Beschreibung
__cf_bm	30 Minuten	Wird von Cloudflare verwendet und dient der Unterstützung des Cloudflare Bot Managements.
_os_session	14 Tage	Dieses Cookie enthält keine benutzerspezifischen Informationen.
abgroups	1 Monat	Aktiviert Gruppe A oder B für die A/B-Funktionalitätstestfunktion.
brighsprout_auth_provider_session	2 Std	Bright Sprout setzt dieses Cookie.
bscookie	2 Jahre	Verwendet von LinkedIn, um sich daran zu erinnern, dass ein eingeloggter Benutzer durch die Zwei-Faktor-Authentifizierung verifiziert ist.
CONSENT	2 Jahre	Wird von YouTube über eingebettete YouTube-Videos verwendet und registriert anonyme statistische Daten.
cxssh_status	3 Monate 8 Tage	Wird zurzeit analysiert und wurde noch keiner Kategorie zugeordnet.
lang	session	Wird von LinkedIn verwendet, um sich an die Spracheinstellung des Nutzers zu erinnern und sicherzustellen, dass LinkedIn.com in der Sprache angezeigt wird, die der Nutzer in seinen Einstellungen ausgewählt hat.
language	session	Dient zur Speicherung der Spracheinstellungen des Benutzers.
li_gc	2 Jahre	Wird von LinkedIn verwendet, um die Zustimmung der Gäste zur Verwendung von Cookies für nicht wesentliche Zwecke zu speichern.
lidc	1 Tag	Wird von LinkedIn verwendet, um die Auswahl des Datenzentrums zu erleichtern.
ln_or	1 Tag	Von LinkedIn verwendetes Cookie.
VISITOR_INFO1_LIVE	5 Monate 27 Tage	Wird von YouTube verwendet, um die Bandbreite zu messen, die bestimmt, ob der Nutzer die neue oder alte Player-Oberfläche erhält.
XSRF-TOKEN	2 Std	Wix setzt dieses Cookie aus Sicherheitsgründen, und dieses Cookie dient dazu, die Sicherheit der Website zu erhöhen, indem es Cross-Site Request Forgery-Angriffe verhindert.
yt-remote-connected-devices	nie	Wird von YouTube verwendet, um eine eindeutige ID zu registrieren und Daten darüber zu speichern, welche Videos von YouTube der Nutzer gesehen hat.
yt-remote-device-id	nie	Wird von YouTube verwendet, um eine eindeutige ID zu registrieren und Daten darüber zu speichern, welche Videos von YouTube der Nutzer gesehen hat.

Cookie	Dauer	Beschreibung
__adroll	1 jahr 1 monat	Dieses Cookie wird von AdRoll gesetzt, um Benutzer über Besuche und Geräte hinweg zu identifizieren. Es wird von Echtzeit-Gebotsverfahren für Werbetreibende verwendet, um relevante Anzeigen anzuzeigen.
__adroll_fpc	1 jahr	AdRoll setzt dieses Cookie, um Benutzer anhand ihres Surfverhaltens zu targetieren
__adroll_shared	1 jahr 1 monat	AdRoll verwendet dieses Cookie, um Informationen über Benutzer auf verschiedenen Websites zu sammeln, um relevante Werbung anzuzeigen.
__ar_v4	1 jahr	Dieses Cookie wird unter der Domain DoubleClick gesetzt, um Anzeigen zu platzieren, die in den Google-Suchergebnissen auf die Website verweisen, und um die Konversionsraten für diese Anzeigen zu verfolgen.
__rd_experiment_version	sitzung	Die Beschreibung ist derzeit nicht verfügbar.
_clck	1 jahr	Microsoft Clarity setzt dieses Cookie, um die Clarity-Benutzer-ID des Browsers und Einstellungen, die ausschließlich für diese Website gelten, zu speichern. Dies gewährleistet, dass Aktionen, die bei nachfolgenden Besuchen auf derselben Website durchgeführt werden, mit derselben Benutzer-ID verknüpft sind.
_clsk	1 day	Microsoft Clarity setzt dieses Cookie, um die Seitenaufrufe eines Benutzers in einer einzigen Sitzungsaufzeichnung zu speichern und zu konsolidieren.
_fbp	3 Monate	Wird von Facebook verwendet, um nach dem Besuch der Website entweder auf Facebook oder auf einer digitalen Plattform, die von Facebook-Werbung unterstützt wird, Werbung anzuzeigen.
_ga	2 Jahre	Wird von Google Analytics verwendet, um Besucher-, Sitzungs- und Kampagnendaten zu berechnen und die Nutzung der Website für den Analysebericht der Website zu verfolgen. Das Cookie speichert Informationen anonym und weist eine zufällig generierte Nummer zu, um eindeutige Besucher zu erkennen.
_ga_*	2 Jahre	Wird von Google verwendet, um Nutzer zu unterscheiden.
_gat	1 Minute	Wird von Google Universal Analytics verwendet, um die Anfragerate einzuschränken und so die Erfassung von Daten auf stark frequentierten Websites zu begrenzen.
_gat_gtag_UA_*	1 minute	Google Analytics setzt dieses Cookie, um eine eindeutige Benutzer-ID zu speichern.
_gat_UA-*	1 Minute	Wird von Google Analytics und Google Tag Manager verwendet, um Website-Besitzern zu ermöglichen, das Besucherverhalten zu verfolgen und die Leistung der Website zu messen. Das Musterelement im Namen enthält die eindeutige Identitätsnummer des Kontos oder der Website, auf die es sich bezieht.
_gcl_au	3 monate	Google Tag Manager setzt das Cookie, um die Effizienz von Werbung auf Websites zu testen, die ihre Dienste verwenden.
_gd*	session	Wird von Google Analytics zur Unterscheidung von Nutzern verwendet.
_gid	1 Tag	Wird von Google Analytics verwendet und registriert eine eindeutige ID, die verwendet wird, um statistische Daten darüber zu erstellen, wie der Besucher die Website nutzt.
_hjAbsoluteSessionInProgress	30 minuten	Hotjar setzt dieses Cookie, um die erste Pageview-Sitzung eines Benutzers zu erkennen, was eine True/False-Flagge ist, die durch das Cookie festgelegt wird.
_hjFirstSeen	30 minuten	Hotjar setzt dieses Cookie, um die erste Sitzung eines neuen Benutzers zu identifizieren. Es speichert den Wert True/False, der angibt, ob Hotjar diesen Benutzer zum ersten Mal gesehen hat.
_hjIncludedInSessionSample_*	2 minuten	Hotjar setzt dieses Cookie, um festzustellen, ob ein Benutzer in der von Ihrer Website festgelegten täglichen Sitzungsbegrenzung für die Datenauswahl enthalten ist.
_hjRecordingEnabled	niemals	Hotjar setzt dieses Cookie, wenn eine Aufzeichnung beginnt, und wird beim Start des Aufzeichnungsmoduls gelesen, um festzustellen, ob der Benutzer bereits in einer Aufzeichnung in einer bestimmten Sitzung ist.
_hjRecordingLastActivity	niemals	Hotjar setzt dieses Cookie, wenn eine Benutzer-Aufzeichnung beginnt und wenn Daten über das WebSocket gesendet werden.
_hjSession_*	30 minuten	Hotjar setzt dieses Cookie, um sicherzustellen, dass Daten von nachfolgenden Besuchen auf derselben Website der gleichen Benutzer-ID zugeordnet werden, die in der Hotjar-Benutzer-ID, die eindeutig für diese Website ist, erhalten bleibt.
_hjSessionUser_*	1 jahr	Hotjar setzt dieses Cookie, um sicherzustellen, dass Daten von nachfolgenden Besuchen auf derselben Website der gleichen Benutzer-ID zugeordnet werden, die in der Hotjar-Benutzer-ID, die eindeutig für diese Website ist, erhalten bleibt.
_te_	sitzung	AdRoll Group registriert eine eindeutige Kennung, die das Gerät eines wiederkehrenden Benutzers identifiziert. Diese Kennung wird für gezielte Werbung verwendet.
319af4c0-e197-4de9-8a9b-fe98c8a2ca04	session	Dynamics 365 Marketing verwendet dieses Cookie, um alle Seitenaufrufe eines bestimmten Besuchers zu gruppieren, die von demselben Skript für die Verhaltensanalyse aufgezeichnet werden und innerhalb des konfigurierten Zeitrahmens erfolgen. Alle diese Seitenaufrufe werden als Teil eines einzigen Besuchs der Website betrachtet.
79f08280-5c63-4331-b04d-fb6f39afda51	2 Jahre	Dieses Cookie ermöglicht es Dynamics 365 Marketing, Leads auf Grundlage ihrer Interaktion mit einer spezifischen Website zu bewerten. Das Cookie enthält keine persönlichen Informationen, identifiziert jedoch eindeutig einen bestimmten Browser auf einem bestimmten Gerät, und Dynamics 365 Marketing kann es verwenden, um diese ID mit einem tatsächlichen Kontakt in der Dynamics 365 Marketing-Datenbank zu verknüpfen.
AnalyticsSyncHistory	1 Monat	Wird von LinkedIn verwendet, um Informationen über den Zeitpunkt zu speichern, zu dem eine Synchronisierung mit dem lms_analytics-Cookie für Nutzer in den dafür vorgesehenen Ländern stattgefunden hat.
anj	3 monate	AppNexus setzt das anj-Cookie, das anzeigt, ob eine Cookie-ID mit Partnern synchronisiert ist.
ANONCHK	10 minuten	Das ANONCHK-Cookie, von Bing gesetzt, dient dazu, die Sitzungs-ID eines Benutzers zu speichern und Klicks auf Anzeigen in der Bing-Suchmaschine zu überprüfen. Das Cookie hilft bei Berichterstattung und Personalisierung.
bcookie	2 Jahre	Verwendet von LinkedIn, setzt dieses Cookie von LinkedIn Share Buttons und Ad Tags, um die Browser-ID zu erkennen.
browser_id	5 Jahre	Wird zur Identifizierung des Besucherbrowsers bei einem erneuten Besuch der Website verwendet.
CLID	1 Jahr	Verwendet von Microsoft Clarity. Das Cookie wird von eingebetteten Microsoft Clarity-Skripten gesetzt. Der Zweck dieses Cookies ist die Aufzeichnung von Heatmaps und Sitzungen.
CMID	1 jahr	Casale Media setzt dieses Cookie, um Informationen über das Benutzerverhalten für gezielte Werbung zu sammeln.
CMPRO	3 monate	CasaleMedia setzt das CMPRO-Cookie für anonyme Nutzungsverfolgung und gezielte Werbung.
CMPS	3 monate	CasaleMedia setzt das CMPS-Cookie für anonyme Benutzerverfolgung basierend auf den Website-Besuchen der Benutzer, um gezielte Anzeigen anzuzeigen.
fr	3 Monate	Wird von Facebook verwendet, um Nutzern relevante Werbung zu zeigen, indem das Nutzerverhalten im gesamten Web verfolgt wird, und zwar auf Websites, die über das Facebook-Pixel oder das Facebook Social Plugin verfügen.
IDE	1 jahr 24 tage	Google DoubleClick IDE-Cookies speichern Informationen darüber, wie der Benutzer die Website verwendet, um ihm relevante Anzeigen gemäß dem Benutzerprofil zu präsentieren.
KRTBCOOKIE_*	3 monate	Pubmatic setzt dieses Cookie, um eine eindeutige ID zu registrieren, die das Gerät des Benutzers bei Rückkehrbesuchen auf Websites identifiziert, die dasselbe Anzeigennetzwerk verwenden.
li_sugr	3 monate	LinkedIn setzt dieses Cookie, um Benutzerverhaltensdaten zu sammeln, die die Website optimieren und Anzeigen auf der Website relevanter machen.
MR	7 tage	Dieses Cookie, von Bing gesetzt, wird zur Sammlung von Benutzerinformationen zu Analysezwecken verwendet.
msd365mkttr	2 Jahre	Sammelt Informationen über das Nutzerverhalten auf mehreren Websites. Diese Informationen werden verwendet, um die Relevanz der Werbung auf der Website zu optimieren.
msd365mkttrs	session	Es ermöglicht die Verwendung eines speziellen Formulars, das die vom Nutzer ausgefüllten Daten an Microsoft Dynamic 365 sendet.
MUID	1 Jahr	Identifiziert eindeutige Webbrowser, die Microsoft-Websites besuchen. Diese Cookies werden für Werbung, Website-Analyse und andere betriebliche Zwecke verwendet.
PugT	1 monat	PubMatic setzt dieses Cookie, um zu überprüfen, wann die Cookies im Browser aktualisiert wurden, um die Anzahl der Aufrufe des serverseitigen Cookie-Speichers zu begrenzen.
scribd_ubtc	10 jahre	Scribd setzt dieses Cookie, um Daten zum Benutzerverhalten auf verschiedenen Websites zu sammeln und die Relevanz der Anzeigen auf der Website zu maximieren.
SM	sitzung	Microsoft Clarity setzt dieses Cookie, um die MUID über Microsoft-Domains hinweg zu synchronisieren.
SRM_B	1 jahr 24 tage	Verwendet von Microsoft Advertising als eindeutige ID für Besucher.
test_cookie	15 minuten	Doubleclick.net setzt dieses Cookie, um festzustellen, ob der Browser des Benutzers Cookies unterstützt.
UserMatchHistory	1 Monat	Wird von LinkedIn für die Synchronisierung von Anzeigen-IDs verwendet.
uuid2	3 monate	Das uuid2-Cookie wird von AppNexus gesetzt und enthält Informationen, die dazu dienen, zwischen Geräten und Browsern zu unterscheiden. Diese Informationen werden verwendet, um Anzeigen auszuwählen, die von der Plattform ausgeliefert werden, und die Anzeigenleistung und deren Attributzahlungen zu bewerten.
VISITOR_PRIVACY_METADATA	5 monate 27 tage	Cookie, das von YouTube verwendet wird, um die Datenschutzeinstellungen der Benutzer auf der YouTube-Plattform zu verfolgen und zu erweitern.
vuid	2 Jahre	Wird von Vimeo verwendet, um Tracking-Informationen zu sammeln, indem eine eindeutige ID zum Einbetten von Videos auf der Website festgelegt wird.
YSC	session	Wird von Youtube verwendet, um die Aufrufe von eingebetteten Videos auf Youtube-Seiten zu verfolgen.
yt.innertube::nextId	nie	Wird von YouTube verwendet, um die Videoeinstellungen des Nutzers zu speichern, der eingebettete YouTube-Videos verwendet.
yt.innertube::requests	nie	Wird von YouTube verwendet, um die Videoeinstellungen des Benutzers zu speichern, der ein eingebettetes YouTube-Video verwendet.

Search

Shortcodes Ultimate

Shortcodes Ultimate

Business Intelligence & Analytics

ETL Gone Portable: Reducing Cloud Vendor Lock-in

Portability vs. Performance (and how it affects vendor lock-in)