ນໍາເຂົ້າຂໍ້ມູນຈາກ PDF ກັບ Excel ຜ່ານ Power Query

ວຽກ​ງານ​ການ​ໂອນ​ຂໍ້​ມູນ​ຈາກ​ສະ​ເປ​ຣດ​ຊີດ​ໃນ​ໄຟລ​໌ PDF ກັບ​ແຜ່ນ Microsoft Excel ແມ່ນ​ສະ​ເຫມີ​ໄປ "ມ່ວນ​ຊື່ນ​"​. ໂດຍສະເພາະຖ້າທ່ານບໍ່ມີຊອບແວການຮັບຮູ້ລາຄາແພງເຊັ່ນ FineReader ຫຼືບາງສິ່ງບາງຢ່າງເຊັ່ນນັ້ນ. ການຄັດລອກໂດຍກົງມັກຈະບໍ່ນໍາໄປສູ່ສິ່ງທີ່ດີ, ເພາະວ່າ. ຫຼັງ​ຈາກ​ການ​ວາງ​ຂໍ້​ມູນ​ທີ່​ຄັດ​ລອກ​ໄປ​ໃນ​ແຜ່ນ​, ພວກ​ເຂົາ​ເຈົ້າ​ຫຼາຍ​ທີ່​ສຸດ​ຈະ "ຕິດ​ກັນ​" ເປັນ​ຖັນ​. ສະນັ້ນເຂົາເຈົ້າຈະຕ້ອງແຍກອອກຢ່າງເຄັ່ງຄັດໂດຍໃຊ້ເຄື່ອງມື ຂໍ້ຄວາມຕາມຖັນ ຈາກແຖບ ຂໍ້ມູນ (ຂໍ້ມູນ — ຂໍ້ຄວາມຫາຖັນ).

ແລະແນ່ນອນ, ການຄັດລອກແມ່ນເປັນໄປໄດ້ພຽງແຕ່ສໍາລັບໄຟລ໌ PDF ເຫຼົ່ານັ້ນທີ່ມີຊັ້ນຂໍ້ຄວາມ, ເຊັ່ນວ່າເອກະສານທີ່ຫາກໍ່ຖືກສະແກນຈາກເຈ້ຍໄປຫາ PDF, ນີ້ຈະບໍ່ເຮັດວຽກຢູ່ໃນຫຼັກການ.

ແຕ່ມັນບໍ່ເສົ້າຫຼາຍ, ແທ້ໆ 🙂

ຖ້າທ່ານມີ Office 2013 ຫຼື 2016, ຫຼັງຈາກນັ້ນໃນສອງສາມນາທີ, ໂດຍບໍ່ມີໂຄງການເພີ່ມເຕີມ, ມັນກໍ່ເປັນໄປໄດ້ທີ່ຈະໂອນຂໍ້ມູນຈາກ PDF ກັບ Microsoft Excel. ແລະ Word ແລະ Power Query ຈະຊ່ວຍພວກເຮົາໃນເລື່ອງນີ້.

ຕົວຢ່າງ, ໃຫ້ເອົາບົດລາຍງານ PDF ນີ້ດ້ວຍຂໍ້ຄວາມ, ສູດແລະຕາຕະລາງຈາກເວັບໄຊທ໌ຂອງຄະນະກໍາມະການເສດຖະກິດເອີຣົບ:

ນໍາເຂົ້າຂໍ້ມູນຈາກ PDF ກັບ Excel ຜ່ານ Power Query

... ແລະພະຍາຍາມດຶງອອກຈາກມັນໃນ Excel, ເວົ້າຕາຕະລາງທໍາອິດ:

ນໍາເຂົ້າຂໍ້ມູນຈາກ PDF ກັບ Excel ຜ່ານ Power Query

ໄປ​ກັນ​ເລີຍ!

ຂັ້ນ​ຕອນ​ທີ 1. ເປີດ PDF ໃນ Word​

ດ້ວຍເຫດຜົນບາງຢ່າງ, ສອງສາມຄົນຮູ້, ແຕ່ຕັ້ງແຕ່ປີ 2013 Microsoft Word ໄດ້ຮຽນຮູ້ທີ່ຈະເປີດແລະຮັບຮູ້ໄຟລ໌ PDF (ແມ້ແຕ່ເຄື່ອງສະແກນ, ນັ້ນແມ່ນ, ໂດຍບໍ່ມີຊັ້ນຂໍ້ຄວາມ!). ນີ້ແມ່ນເຮັດໃນແບບມາດຕະຖານຢ່າງສົມບູນ: ເປີດ Word, ຄລິກ ໄຟລ໌ - ເປີດ (ໄຟລ໌ - ເປີດ) ແລະລະບຸຮູບແບບ PDF ໃນບັນຊີລາຍຊື່ເລື່ອນລົງໃນແຈລຸ່ມຂວາຂອງປ່ອງຢ້ຽມ.

ຫຼັງຈາກນັ້ນ, ເລືອກໄຟລ໌ PDF ທີ່ພວກເຮົາຕ້ອງການແລະກົດ ເປີດ (ເປີດ). Word ບອກພວກເຮົາວ່າມັນຈະດໍາເນີນການ OCR ໃນເອກະສານນີ້ເພື່ອສົ່ງຂໍ້ຄວາມ:

ນໍາເຂົ້າຂໍ້ມູນຈາກ PDF ກັບ Excel ຜ່ານ Power Query

ພວກເຮົາຕົກລົງເຫັນດີແລະໃນສອງສາມວິນາທີພວກເຮົາຈະເຫັນ PDF ຂອງພວກເຮົາເປີດສໍາລັບການດັດແກ້ຢູ່ໃນ Word ແລ້ວ:

ນໍາເຂົ້າຂໍ້ມູນຈາກ PDF ກັບ Excel ຜ່ານ Power Query

ແນ່ນອນ, ການອອກແບບ, ຮູບແບບ, ຕົວອັກສອນ, ສ່ວນຫົວແລະສ່ວນທ້າຍ, ແລະອື່ນໆ. ບາງສ່ວນຈະບິນອອກຈາກເອກະສານ, ແຕ່ນີ້ບໍ່ສໍາຄັນສໍາລັບພວກເຮົາ - ພວກເຮົາຕ້ອງການຂໍ້ມູນຈາກຕາຕະລາງເທົ່ານັ້ນ. ໃນຫຼັກການ, ໃນຂັ້ນຕອນນີ້, ມັນເປັນການລໍ້ລວງແລ້ວທີ່ຈະຄັດລອກຕາຕະລາງຈາກເອກະສານທີ່ຮັບຮູ້ເຂົ້າໄປໃນ Word ແລະພຽງແຕ່ວາງມັນເຂົ້າໄປໃນ Excel. ບາງຄັ້ງມັນເຮັດວຽກ, ແຕ່ເລື້ອຍໆມັນນໍາໄປສູ່ການບິດເບືອນຂໍ້ມູນທຸກປະເພດ - ຕົວຢ່າງ, ຕົວເລກສາມາດປ່ຽນເປັນວັນທີຫຼືຍັງຄົງເປັນຂໍ້ຄວາມ, ເຊັ່ນດຽວກັບກໍລະນີຂອງພວກເຮົາ, ເພາະວ່າ. PDF ໃຊ້ຕົວແຍກທີ່ບໍ່ແມ່ນຕົວແຍກ:

ນໍາເຂົ້າຂໍ້ມູນຈາກ PDF ກັບ Excel ຜ່ານ Power Query

ສະນັ້ນບໍ່ໃຫ້ຕັດມຸມ, ແຕ່ເຮັດໃຫ້ທຸກສິ່ງທຸກຢ່າງສັບສົນຫຼາຍ, ແຕ່ຖືກຕ້ອງ.

ຂັ້ນຕອນທີ 2: ບັນທຶກເອກະສານເປັນຫນ້າເວັບ

ເພື່ອໂຫລດຂໍ້ມູນທີ່ໄດ້ຮັບເຂົ້າໄປໃນ Excel (ຜ່ານ Power Query), ເອກະສານຂອງພວກເຮົາໃນ Word ຕ້ອງໄດ້ຮັບການບັນທຶກໄວ້ໃນຮູບແບບຫນ້າເວັບ - ຮູບແບບນີ້ແມ່ນ, ໃນກໍລະນີນີ້, ປະເພດຂອງຕົວຫານທົ່ວໄປລະຫວ່າງ Word ແລະ Excel.

ເພື່ອເຮັດສິ່ງນີ້, ໄປທີ່ເມນູ ໄຟລ໌ - ບັນທຶກເປັນ (File — ບັນ​ທຶກ​ເປັນ​) ຫຼືກົດປຸ່ມ F12 ໃນແປ້ນພິມແລະໃນປ່ອງຢ້ຽມທີ່ເປີດ, ເລືອກປະເພດໄຟລ໌ ຫນ້າເວັບຢູ່ໃນໄຟລ໌ດຽວ (ໜ້າເວັບ — ໄຟລ໌ດຽວ):

ນໍາເຂົ້າຂໍ້ມູນຈາກ PDF ກັບ Excel ຜ່ານ Power Query

ຫຼັງຈາກບັນທຶກ, ທ່ານຄວນໄດ້ຮັບໄຟລ໌ທີ່ມີນາມສະກຸນ mhtml (ຖ້າທ່ານເຫັນການຂະຫຍາຍໄຟລ໌ໃນ Explorer).

ຂັ້ນ​ຕອນ​ທີ 3. ການ​ອັບ​ໂຫຼດ​ໄຟລ​໌​ກັບ Excel ຜ່ານ Power Query​

ທ່ານສາມາດເປີດໄຟລ໌ MHTML ທີ່ສ້າງຂຶ້ນໃນ Excel ໂດຍກົງ, ແຕ່ຫຼັງຈາກນັ້ນພວກເຮົາຈະໄດ້ຮັບ, ທໍາອິດ, ເນື້ອໃນທັງຫມົດຂອງ PDF ໃນເວລາດຽວກັນ, ພ້ອມກັບຂໍ້ຄວາມແລະຊໍ່ຂອງຕາຕະລາງທີ່ບໍ່ຈໍາເປັນ, ແລະ, ອັນທີສອງ, ພວກເຮົາຈະສູນເສຍຂໍ້ມູນອີກເທື່ອຫນຶ່ງເນື່ອງຈາກບໍ່ຖືກຕ້ອງ. ຕົວແຍກ. ດັ່ງນັ້ນ, ພວກເຮົາຈະເຮັດການນໍາເຂົ້າເຂົ້າໄປໃນ Excel ຜ່ານ Power Query add-in. ນີ້ແມ່ນ add-on ຟຣີຢ່າງສົມບູນທີ່ທ່ານສາມາດອັບໂຫລດຂໍ້ມູນໄປຍັງ Excel ຈາກເກືອບທຸກແຫຼ່ງ (ໄຟລ໌, ໂຟນເດີ, ຖານຂໍ້ມູນ, ລະບົບ ERP) ແລະຫຼັງຈາກນັ້ນຫັນປ່ຽນຂໍ້ມູນທີ່ໄດ້ຮັບໃນທຸກໆທາງທີ່ເປັນໄປໄດ້, ໃຫ້ມັນມີຮູບຮ່າງທີ່ຕ້ອງການ.

ຖ້າທ່ານມີ Excel 2010-2013, ຫຼັງຈາກນັ້ນທ່ານສາມາດດາວໂຫລດ Power Query ຈາກເວັບໄຊທ໌ຢ່າງເປັນທາງການຂອງ Microsoft - ຫຼັງຈາກການຕິດຕັ້ງທ່ານຈະເຫັນແຖບ. ແບບສອບຖາມພະລັງງານ. ຖ້າທ່ານມີ Excel 2016 ຫຼືໃຫມ່ກວ່າ, ຫຼັງຈາກນັ້ນທ່ານບໍ່ຈໍາເປັນຕ້ອງດາວໂຫລດອັນໃດ - ຫນ້າທີ່ທັງຫມົດແມ່ນສ້າງຢູ່ໃນ Excel ໂດຍຄ່າເລີ່ມຕົ້ນແລະຕັ້ງຢູ່ໃນແຖບ. ຂໍ້ມູນ (ວັນທີ) ໃນກຸ່ມ ດາວ​ນ​໌​ໂຫລດ​ແລະ​ແປງ​ (ຮັບ & ຫັນປ່ຽນ).

ດັ່ງນັ້ນພວກເຮົາຈະໄປແຖບ ຂໍ້ມູນ, ຫຼືຢູ່ໃນແຖບ ແບບສອບຖາມພະລັງງານ ແລະເລືອກທີມ ເພື່ອໃຫ້ໄດ້ຮັບຂໍ້ມູນ or ສ້າງຄໍາຖາມ - ຈາກໄຟລ໌ - ຈາກ XML. ເພື່ອເຮັດໃຫ້ເຫັນໄດ້ບໍ່ພຽງແຕ່ໄຟລ໌ XML, ປ່ຽນຕົວກອງໃນລາຍການເລື່ອນລົງໃນມຸມຂວາລຸ່ມຂອງປ່ອງຢ້ຽມເປັນ. ແຟ້ມທັງ ໝົດ (ໄຟລ໌ທັງໝົດ) ແລະລະບຸໄຟລ໌ MHTML ຂອງພວກເຮົາ:

ນໍາເຂົ້າຂໍ້ມູນຈາກ PDF ກັບ Excel ຜ່ານ Power Query

ກະລຸນາສັງເກດວ່າການນໍາເຂົ້າຈະບໍ່ສໍາເລັດສົບຜົນສໍາເລັດ, ເພາະວ່າ. Power Query ຄາດຫວັງວ່າ XML ຈາກພວກເຮົາ, ແຕ່ຕົວຈິງແລ້ວພວກເຮົາມີຮູບແບບ HTML. ດັ່ງນັ້ນ, ໃນປ່ອງຢ້ຽມຕໍ່ໄປທີ່ປາກົດ, ທ່ານຈະຕ້ອງຄລິກຂວາໃສ່ໄຟລ໌ທີ່ບໍ່ສາມາດເຂົ້າໃຈໄດ້ກັບ Power Query ແລະລະບຸຮູບແບບຂອງມັນ:

ນໍາເຂົ້າຂໍ້ມູນຈາກ PDF ກັບ Excel ຜ່ານ Power Query

ຫຼັງຈາກນັ້ນ, ໄຟລ໌ຈະຖືກຮັບຮູ້ຢ່າງຖືກຕ້ອງແລະພວກເຮົາຈະເຫັນບັນຊີລາຍຊື່ຂອງຕາຕະລາງທັງຫມົດທີ່ມັນມີ:

ນໍາເຂົ້າຂໍ້ມູນຈາກ PDF ກັບ Excel ຜ່ານ Power Query

ທ່ານ​ສາ​ມາດ​ເບິ່ງ​ເນື້ອ​ໃນ​ຂອງ​ຕາ​ຕະ​ລາງ​ໂດຍ​ການ​ຄລິກ​ໃສ່​ປຸ່ມ​ຫນູ​ຊ້າຍ​ໃນ​ພື້ນ​ຖານ​ສີ​ຂາວ (ບໍ່​ແມ່ນ​ຢູ່​ໃນ​ຄໍາ​ວ່າ​ຕາ​ຕະ​ລາງ​!) ຂອງ​ຈຸ​ລັງ​ໃນ​ຖັນ​ຂໍ້​ມູນ​.

ເມື່ອຕາຕະລາງທີ່ຕ້ອງການຖືກກໍານົດ, ໃຫ້ຄລິກໃສ່ຄໍາສີຂຽວ ຕາຕະລາງ – ແລະ​ທ່ານ “ຫຼຸດ​ລົງ” ເຂົ້າ​ໄປ​ໃນ​ເນື້ອ​ໃນ​ຂອງ​ຕົນ​:

ນໍາເຂົ້າຂໍ້ມູນຈາກ PDF ກັບ Excel ຜ່ານ Power Query

ມັນຍັງຄົງເຮັດສອງສາມຂັ້ນຕອນງ່າຍໆເພື່ອ "comb" ເນື້ອໃນຂອງມັນ, ຄື:

  1. ລຶບຖັນທີ່ບໍ່ຈຳເປັນອອກ (ຄລິກຂວາໃສ່ຫົວຖັນ – ເອົາ)
  2. ແທນທີ່ຈຸດດ້ວຍເຄື່ອງໝາຍຈຸດ (ເລືອກຖັນ, ຄລິກຂວາ – ການທົດແທນຄ່າ)
  3. ເອົາ​ເຄື່ອງ​ຫມາຍ​ເທົ່າ​ທຽມ​ກັນ​ໃນ​ຫົວ (ເລືອກ​ຖັນ​, ຄລິກ​ຂວາ - ການທົດແທນຄ່າ)
  4. ເອົາເສັ້ນເທິງ (ຫນ້າທໍາອິດ – ລຶບ​ສາຍ – ລຶບ​ແຖວ​ເທິງ​)
  5. ເອົາເສັ້ນເປົ່າ (ຫນ້າທໍາອິດ – ລຶບສາຍ – ລຶບເສັ້ນເປົ່າ)
  6. ຍົກແຖວທຳອິດໃສ່ຫົວຕາຕະລາງ (ຫນ້າທໍາອິດ - ໃຊ້ແຖວທໍາອິດເປັນຫົວຂໍ້)
  7. ກັ່ນຕອງຂໍ້ມູນທີ່ບໍ່ຈໍາເປັນອອກໂດຍໃຊ້ຕົວກອງ

ເມື່ອຕາຕະລາງຖືກນໍາມາສູ່ຮູບແບບປົກກະຕິຂອງມັນ, ມັນສາມາດຖືກ unloaded ໃສ່ແຜ່ນດ້ວຍຄໍາສັ່ງ ປິດແລະດາວໂຫລດ (ປິດ & ໂຫຼດ) on ການຕົ້ນຕໍ ແຖບ. ແລະພວກເຮົາຈະໄດ້ຮັບຄວາມງາມດັ່ງກ່າວທີ່ພວກເຮົາສາມາດເຮັດວຽກໄດ້ແລ້ວ:

ນໍາເຂົ້າຂໍ້ມູນຈາກ PDF ກັບ Excel ຜ່ານ Power Query

  • ການປ່ຽນຖັນເປັນຕາຕະລາງດ້ວຍການສອບຖາມພະລັງງານ
  • ການແຍກຂໍ້ຄວາມຫນຽວເປັນຖັນ

ອອກຈາກ Reply ເປັນ