Experts-comptables, découvrez Chaintrust l’outil pour automatiser votre saisie comptable

Experts-comptables, découvrez Chaintrust l’outil pour automatiser votre saisie comptable

24 juillet 2020 0 Par RCA Consulting

Dans cet article :

Présentation de Chaintrust

Que se passe-t-il quand vous déposez des factures sur Chaintrust ?

Présentation de Chaintrust

Chaintrust est un outil vous permettant d’automatiser intégralement la saisie comptable de vos factures d’achats et de ventes, en vous offrant une qualité d’écritures inégalée sur le marché, accompagnées de tests de cohérence pour isoler les documents incorrects, et d’une GED puissante permettant d’accéder facilement à toutes les données comptables sur à une plateforme centralisée.

La transformation numérique change en profondeur l’expertise comptable et il est devenu indispensable de s’y adapter. Chaintrust vous permet de digitaliser instantanément et simplement votre structure sans changer votre organisation.

Que se passe-t-il quand vous déposez des factures sur Chaintrust ?

Le fonctionnement de Chaintrust peut sembler mystérieux à nos utilisateurs. Il suffit de déposer des factures pour recevoir des écritures compatibles avec votre logiciel comptable en seulement quelques heures. Nous avons décidé en effet de libérer complètement les comptables de l’intégralité du travail de saisie et de traitement de documents, et donc de prendre en charge toute la complexité de votre saisie.

Il était temps donc que nous vous expliquions en détails notre fonctionnement interne : que se passe-t-il lorsque vous déposez des factures sur Chaintrust ? Cet article reflète évidemment notre fonctionnement actuel (datant de juillet 2020), qui est susceptible d’évoluer !

Première étape : le téléversement

La première étape, celle que vous voyez à l’écran, est le téléversement des fichiers dans notre service cloud. Un lien direct est créé entre votre navigateur et notre service AWS S3 : bien entendu, nous utilisons des serveurs localisés en France pour enregistrer vos factures.

Seconde étape : la découpe des factures

Immédiatement après le téléversement, un appel est effectué sur notre serveur pour lancer la découpe des factures. Comme nous permettons à nos clients de déposer des PDFs contenant autant de pages que nécessaire, nous devons découper les PDFs page par page et nous créons pour chaque page un objet image séparé sur lequel nous allons pouvoir commencer à travailler. A la fin de cette étape, nous vérifions automatiquement que le nombre d’objets images que nous avons enregistré correspond parfaitement au nombre de pages du fichier que vous avez déposé.

Troisième étape : l’OCR

Enfin, l’étape la plus importante peut commencer : l’OCR. Nous utilisons comme technologie OCR une librairie open source appelée Tesseract : le code de cette librairie est disponible ici pour ceux qui veulent aller plus loin. Nous effectuons également des requêtes anonymisées aux services OCR de Google, qui utilisent cette librairie, pour obtenir les résultats les plus précis possibles. Bien entendu, nous ne stockons pas vos données sur ces services.

Le service OCR est lancé sur l’intégralité de l’image. Nous récupérons alors toutes les zones de texte via des polygones dont les emplacements sont marqués en abscisses et ordonnées.

Quatrième étape : l’analyse des documents

Une fois les emplacements marqués, nous effectuons un premier travail de comparaison entre les pages et notre base de données, contenant plusieurs centaines de milliers de factures. Grâce à ce travail d’analyse, nous sommes capables d’identifier les types de documents que vous avez déposés, ainsi que les séparateurs entre chaque document, afin de déterminer combien de pages contient chaque document.

Exemple de dépôt de facture

Prenons un exemple pour bien comprendre : si vous déposez une facture Metro, nous les comparons aux factures Metro que nous avons déjà enregistrées dans notre base de données. Certaines de ces factures font plusieurs pages, d’autres une seule. Sur ces factures, la localisation des numéros de pages est indiquée, ainsi que le logo du fournisseur. Lorsque vous déposez votre facture, nous sommes alors capables de repérer qu’il s’agit du même logo, puis d’aller chercher les numéros de pages dans les mêmes zones de texte sur vos factures. Ainsi, sur un fichier PDF de 100 pages, contenant des factures de 1, 2, 3 ou plus de pages, nous sommes capables de reconstituer automatiquement les documents par regroupement de pages, et de qualifier leur type (facture, avoir, extrait bancaire, KBIs, document fiscal ou social, etc.).

Une fois l’attache effectuée, nous enregistrons un nouvel objet “image” dans notre base de données, contenant chaque facture regroupée.

A partir de ce stade, l’extraction des informations peut enfin commencer : les premières informations que nous extrayons sont la date, le numéro de facture, et le numéro SIREN. Pour la date, c’est très simple : nous extrayons toutes les dates du document, et choisissons en fonction de l’exercice fiscal la plus appropriée.

Si nous n’avons pas encore rencontré le fournisseur, nous l’identifions à travers les numéros SIREN ou de TVA Intracommunautaire : c’est la raison pour laquelle nous vous demandons d’enregistrer le numéro SIREN quand vous créez votre client : en effet, en lançant notre OCR, nous sommes capables d’identifier les séquences de chiffres et de lettre et d’identifier que nous sommes face à un numéro SIREN, une date ou un montant. L’extraction du numéro SIREN est donc relativement simple, et nous permet d’identifier rapidement si nous sommes face à une facture d’achat ou une facture de vente.

L’extraction des lignes de la facture peut alors commencer : la première étape de notre extraction concerne la totalité des montants, c’est-à-dire des séquences de chiffres qui ne sont ni des dates, ni faisant partie d’un numéro SIREN, ou d’une adresse. Un algorithme de comparaison tourne alors sur tous ces montants comme une boucle, pour comparer les sommes et soustractions de ces montants, afin de déterminer si une séquence HT + TVA == TTC existe sur la facture. Si c’est le cas, une première hypothèse de lignes est proposée à l’algorithme principal, qui va rechercher la localisation des montants, et comparer cette localisation à celle d’éventuels autres nombres présents sur la facture. Le rattachement entre ces nombres et les zones de texte qui y sont liées devient notre priorité.

A ce moment, nous enregistrons le contenu “texte” des lignes d’écriture, et nous comparons ce contenu avec un moteur de règles de traitement de texte, qui prendra un ensemble de paramètres en compte : les comptes du PCG, votre FEC n-1, les lignes de la facture, et un dictionnaire de règles fait maison : cette analyse nous permet d’assigner dans les bons comptes de charges les montants affectés à ces lignes.

Comme vous le voyez, Chaintrust ne fonctionne pas qu’avec un OCR : il s’agit d’un ensemble très complexe d’algorithmes qui interagissent les uns avec les autres pour atteindre une qualité d’écritures optimales. Parfois, les factures doivent être retraitées plusieurs fois par jour, et passent par nos algorithmes plusieurs fois avec différents paramètres pour en tirer le maximum d’informations.

RCA Consulting considère la création d’une API liant le scan/OCR de Chaintrust avec le logiciel de trésorerie TurboPilot.